Coisas que podem ser enumeradas, na natureza, apresentam uma propriedade matemática interessante. Ninguém sabe explicar porquê, mas se você fizer uma lista muito grande com contagem de coisas — qualquer coisa — , a ocorrência do primeiro dígito nos números desta lista apresentará o seguinte perfil:
Dígito | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
Ocorrência como primeiro dígito(%) | 30,1 | 17,6 | 12,5 | 9,7 | 7,9 | 6,7 | 5,8 | 5,1 | 4,6 |
Ou seja: o dígito “1” aparecerá em 30,1% da vezes; O dígito “2”, em 17,6%, e assim por diante. Esta característica foi observada pela primeira vez pelo astrônomo norte-americano Simon Newcomb em 1881, ao notar que a tábua de logaritmos tem mais páginas com logaritmos começando com 1 do que começando com outros dígitos. Sua descoberta foi ignorada até 1938, quando o Dr. Frank Benford, físico da General Electric, redescobriu o fato e fez uma análise muito mais ampla que Newcomb. Ele observou mais de 20 mil fontes de dados, desde área de rios e estatísticas de baseball até os números das casas de pessoas.
O Dr. Benford então formulou:
Se a certeza absoluta é definida como 1 e a absoluta impossibilidade como 0, então a probabilidade de um número “d” de 1 a 9 ser o primeiro dígito é o logaritmo de base 10 de (1 + 1/d).
Para quem não gosta de matemática, a fórmula simplesmente define as porcentagens da tabela acima. Ou seja: o número 1 tem 30,1% de chances de ser o primeiro dígito de um determinado valor, o dígito 2, 17,6% de chances, etc. Isto acontece independentemente da escala ou do tipo de medida (jarda, metros, litros, polegadas).
O que poderia ser uma mera curiosidade matemática encontra aplicações muito úteis para o jornalista investigativo. A chamada Lei de Benford pode ser usada para descoberta de fraudes em grandes quantidades numéricas, como balanços e estatísticas.
Foi assim que o blog Superfície Reflexiva descobriu anomalias em umas das pesquisas da Microsoft que mostra as vantagens do Windows sobre o Linux. Havia um desvio muito grande no algarismo “6”.
Para facilitar o trabalho do jornalista investigativo, desenvolvi um programa que conta a ocorrência de dígitos na memória (na clipboard dos computadores). Ele funciona assim: você copia dados para a memória, roda o programa, clica em “Calcula” e ele apresenta um gráfico de ocorrência de dígitos, a partir dos dados na memória.
Além da contagem de caracteres na memória, o programa ainda faz uma comparação com a média da quantidade de dígitos encontrada no Google e no Yahoo. Na verdade, eu fiz uma simplificação da lei Newcomb/Benfort, porque peguei uma amostragem gigantesca de dígitos usados pela humanidade, disponível nos bancos de dados dos serviços de busca.
Considerei que não importaria se eu contasse apenas o primeiro dígito de valores numéricos ou todos os dígitos. Minha hipótese é a de que os dígitos restantes também obedecem a um perfil determinado, não exatamente conforme a escala logaritmica de Benford.
De fato, a qualquer momento que você fizer a procura por dígitos no Google ou Yahoo, você vai obter aproximadamente o mesmo perfil. Se uma grande amostragem aleatória tem este perfil, uma pequena amostragem deve ter características aproximadas.
Uma diferença notável em relação ao trabalho de Benford é que faço a contagem do zero, também. Como não existe logaritmo de zero, Belford não o usou, mas uma “gugada” revela que a ocorrência de zeros é menor que a ocorrência de algarismos 9. Como zeros podem revelar arredondamentos numéricos, é importante considerar este algarismo, também. Usei um valor que gerou uma curva mais suave no perfil de dígitos.
O resultado é este, sem números na memória:
O sistema dos serviços de busca arredonda os resultados. Por exemplo, em abril de 2004 o Google cadastrava 897.000.000 ocorrências do algarismo “5”. Ignorando as casas do milhão, temos 897. Somando as ocorrências arredondadas de todos os dígitos, temos uma escala de quase 10 mil unidades. Ou seja, a escala tem resolução de 0,001%, o que considero razoável para os propósitos de se fazer uma escala comparativa.
Para codificar o programa contador de caracteres, usei a linguagem Rebol (http://www.rebol.com), gratuita e semi-open source, desenvolvida especialmente para internet. É fácil de programar e dá um banho em aberrações como linguagem Java.
O script é multiplataforma, rodando em Linux, Solaris, BSD, Windows e Macintosh. Para usá-lo, copie os dados de uma planilha eletrônica, por exemplo, e rode o programa. Depois de alguns segundos, será apresentado o gráfico de ocorrências de dígitos e a comparação com o perfil de dígitos do Google.
Este é um método interessante mas nem sempre é útil para análise de dados. Existem algumas característica que limitam o uso da Lei de Benford:
Apesar destas limitações, usar este método pode ser um bom início de investigação.
Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…
João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…
A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…
A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…
Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…
Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…
View Comments
Professor, Rocha, bom dia!
Agradeço seu artigo e parabéns por cada palavra apresentada e pelo projeto desenvolvido.
Gostaria se possível lhe fazer uma pergunta;
O que aconteceria se eu contasse os dígitos lotéricos?
Qual o impacto dessa mudança?
Poderia então usar sua calculadora ou o cálculo Benford?
E para entender melhor como a calculadora Rocha ou o método Benford, relacionam a gênese dos fênomenos?
Att,
Olá, Jairo!
Este fenômeno não acontece em dados aleatórios. Todos os dígitos têm a mesma chance de ocorrer. Tem outro artigo onde eu analiso isto.
Acho que aí tem uma pista para entendermos como funciona a natureza -- tal qual o número de Fibonacci -- , mas não sei qual a relação.
Conheci essa lei através do Livro O Andar do Bêbado, de Leonard Mlodinow. Ele conta a história de um investidor chamado Kevin Lawrence que levantou gastou quase 100 milhões de dólares para abrir uma rede de academias de ginástica. Depois de aplicada a lei de Benford, o cara ficou entendido que carros de luxo e diamantes não faziam parte dos custos que o fundo deveria cobrir. Pegou 20 anos de cadeia.
Parei de ler quando você disse: -...dá um banho em aberrações como linguagem Java.
IAUEduaheiduheadhae
Se não sabe, não fale mal.
Mesmo assim, Muito interessante essa lei de Benford.
Abraço
Muito interessante o artigo, parabéns.