A lei Newcomb/Benford para descobrir fraudes

Coisas que podem ser enumeradas, na natureza, apresentam uma propriedade matemática interessante. Ninguém sabe explicar porquê, mas se você fizer uma lista muito grande com contagem de coisas — qualquer coisa — , a ocorrência do primeiro dígito nos números desta lista apresentará o seguinte perfil:

Dígito 1 2 3 4 5 6 7 8 9
Ocorrência como primeiro dígito(%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Ou seja: o dígito “1” aparecerá em 30,1% da vezes; O dígito “2”, em 17,6%, e assim por diante. Esta característica foi observada pela primeira vez pelo astrônomo norte-americano Simon Newcomb em 1881, ao notar que a tábua de logaritmos tem mais páginas com logaritmos começando com 1 do que começando com outros dígitos. Sua descoberta foi ignorada até 1938, quando o Dr. Frank Benford, físico da General Electric, redescobriu o fato e fez uma análise muito mais ampla que Newcomb. Ele observou mais de 20 mil fontes de dados, desde área de rios e estatísticas de baseball até os números das casas de pessoas.

O Dr. Benford então formulou:

Se a certeza absoluta é definida como 1 e a absoluta impossibilidade como 0, então a probabilidade de um número “d” de 1 a 9 ser o primeiro dígito é o logaritmo de base 10 de (1 + 1/d).

Para quem não gosta de matemática, a fórmula simplesmente define as porcentagens da tabela acima. Ou seja: o número 1 tem 30,1% de chances de ser o primeiro dígito de um determinado valor, o dígito 2, 17,6% de chances, etc. Isto acontece independentemente da escala ou do tipo de medida (jarda, metros, litros, polegadas).

O que poderia ser uma mera curiosidade matemática encontra aplicações muito úteis para o jornalista investigativo. A chamada Lei de Benford pode ser usada para descoberta de fraudes em grandes quantidades numéricas, como balanços e estatísticas.

Foi assim que o blog Superfície Reflexiva descobriu anomalias em umas das pesquisas da Microsoft que mostra as vantagens do Windows sobre o Linux. Havia um desvio muito grande no algarismo “6”.

Contagem facilitada

Para facilitar o trabalho do jornalista investigativo, desenvolvi um programa que conta a ocorrência de dígitos na memória (na clipboard dos computadores). Ele funciona assim: você copia dados para a memória, roda o programa, clica em “Calcula” e ele apresenta um gráfico de ocorrência de dígitos, a partir dos dados na memória.

Além da contagem de caracteres na memória, o programa ainda faz uma comparação com a média da quantidade de dígitos encontrada no Google e no Yahoo. Na verdade, eu fiz uma simplificação da lei Newcomb/Benfort, porque peguei uma amostragem gigantesca de dígitos usados pela humanidade, disponível nos bancos de dados dos serviços de busca.

Considerei que não importaria se eu contasse apenas o primeiro dígito de valores numéricos ou todos os dígitos. Minha hipótese é a de que os dígitos restantes também obedecem a um perfil determinado, não exatamente conforme a escala logaritmica de Benford.

De fato, a qualquer momento que você fizer a procura por dígitos no Google ou Yahoo, você vai obter aproximadamente o mesmo perfil. Se uma grande amostragem aleatória tem este perfil, uma pequena amostragem deve ter características aproximadas.

Uma diferença notável em relação ao trabalho de Benford é que faço a contagem do zero, também. Como não existe logaritmo de zero, Belford não o usou, mas uma “gugada” revela que a ocorrência de zeros é menor que a ocorrência de algarismos 9. Como zeros podem revelar arredondamentos numéricos, é importante considerar este algarismo, também. Usei um valor que gerou uma curva mais suave no perfil de dígitos.

O resultado é este, sem números na memória:

O sistema dos serviços de busca arredonda os resultados. Por exemplo, em abril de 2004 o Google cadastrava 897.000.000 ocorrências do algarismo “5”. Ignorando as casas do milhão, temos 897. Somando as ocorrências arredondadas de todos os dígitos, temos uma escala de quase 10 mil unidades. Ou seja, a escala tem resolução de 0,001%, o que considero razoável para os propósitos de se fazer uma escala comparativa.

O programa

Para codificar o programa contador de caracteres, usei a linguagem Rebol (http://www.rebol.com), gratuita e semi-open source, desenvolvida especialmente para internet. É fácil de programar e dá um banho em aberrações como linguagem Java.

O script é multiplataforma, rodando em Linux, Solaris, BSD, Windows e Macintosh. Para usá-lo, copie os dados de uma planilha eletrônica, por exemplo, e rode o programa. Depois de alguns segundos, será apresentado o gráfico de ocorrências de dígitos e a comparação com o perfil de dígitos do Google.

Limitações

Este é um método interessante mas nem sempre é útil para análise de dados. Existem algumas característica que limitam o uso da Lei de Benford:

  • O perfil de ocorrência de dígitos não funciona para dados como números gerados aleatoriamente (números de loteria), pois eles não são contagens de fenômenos naturais. Só casualmente são números, pois poderiam ser cores ou bichos (Grande idéia! Vou patentear uma loteria zoológica!). Uma listagem de números aleatórios tende a ter a mesma quantidade de algarismos, apresentando um perfil reto.
  • O perfil com números inventados por humanos tende a ser próximo do aleatório. Isto não é desvantagem, pelo contrário. É a maneira de se saber se um balanço foi fraudado por humanos, por exemplo. Não funciona, igualmente, com números arredondados (melhor: denunciará o arredondamento).
  • O perfil não funciona bem com pequenas quantidades numéricas. Quanto maior a quantidade, mais o perfil vai se apresentar como na fórmula de Benfort.
  • O perfil não funciona com datas. Procure deixar dadas fora da seleção, na hora de copiar dados para a clipboard. Datas como 1999 ou 2004 aumentam a quantidade de dígitos 9 e zero, por exemplo, desequilibrando o perfil.
  • O perfil não funciona com variações determinadas em torno de um valor. Por exemplo, valores em torno de mais ou menos 100% podem ter grande incidência de dígitos 9, zero e um: 98%, 99%, 101%. Este tipo de tabela tende a ter um perfil parabólico.
  • O perfil poderá ser diferente conforme determinado tipo de dados, embora os dados estejam corretos.

Apesar destas limitações, usar este método pode ser um bom início de investigação.

Bibliografia

  1. Benford’s law. in. Wolfram Research. Disponível em:<http://mathworld.wolfram.com/BenfordsLaw.html>. Lido em: 2004-04-10.
  2. BROWNE, Malcolm W. Following Benford’s Law, or Looking Out for No. 1. Site Web em: http://www.rexswain.com/benford.html. Acesso em: 2004-04-10. Republicação de matéria no The New York Times de 1998-09-04.
  3. Intuitor.com. Benford’s Law Part 1 – How to Spot Tax Fraud. Site Web em:<http://www.intuitor.com/statistics/Benford’s%20Law.html>. Acesso em: 2004-04-10.
  4. Rebol Technologies. Site Web disponível em: <http://www.rebol.com>. Acesso em: 2004-04-10.
  5. Wikipedia. Verbete “Benford’s Law” <http://en.wikipedia.org/wiki/Benford%27s_law>. Acesso em 15 set. 2006.

Saiba mais

José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.

View Comments

  • Professor, Rocha, bom dia!

    Agradeço seu artigo e parabéns por cada palavra apresentada e pelo projeto desenvolvido.

    Gostaria se possível lhe fazer uma pergunta;

    O que aconteceria se eu contasse os dígitos lotéricos?

    Qual o impacto dessa mudança?

    Poderia então usar sua calculadora ou o cálculo Benford?

    E para entender melhor como a calculadora Rocha ou o método Benford, relacionam a gênese dos fênomenos?

    Att,

    • Olá, Jairo!
      Este fenômeno não acontece em dados aleatórios. Todos os dígitos têm a mesma chance de ocorrer. Tem outro artigo onde eu analiso isto.
      Acho que aí tem uma pista para entendermos como funciona a natureza -- tal qual o número de Fibonacci -- , mas não sei qual a relação.

  • Conheci essa lei através do Livro O Andar do Bêbado, de Leonard Mlodinow. Ele conta a história de um investidor chamado Kevin Lawrence que levantou gastou quase 100 milhões de dólares para abrir uma rede de academias de ginástica. Depois de aplicada a lei de Benford, o cara ficou entendido que carros de luxo e diamantes não faziam parte dos custos que o fundo deveria cobrir. Pegou 20 anos de cadeia.

  • Parei de ler quando você disse: -...dá um banho em aberrações como linguagem Java.

    IAUEduaheiduheadhae

    Se não sabe, não fale mal.
    Mesmo assim, Muito interessante essa lei de Benford.

    Abraço

Recent Posts

Sempre faça um fotão

Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…

1 year ago

A corrupção dos tolos

João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…

4 years ago

Naomi who? Naomi Wu!

A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…

5 years ago

Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…

5 years ago

Que estratégia político-terapêutica pára um governo deliroide?

Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…

6 years ago

Sua tia não é fascista, ela está sendo manipulada

Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…

6 years ago