A lei Newcomb/Benford para descobrir fraudes

Coisas que podem ser enumeradas, na natureza, apresentam uma propriedade matemática interessante. Ninguém sabe explicar porquê, mas se você fizer uma lista muito grande com contagem de coisas — qualquer coisa — , a ocorrência do primeiro dígito nos números desta lista apresentará o seguinte perfil:

Dígito 1 2 3 4 5 6 7 8 9
Ocorrência como primeiro dígito(%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Ou seja: o dígito “1” aparecerá em 30,1% da vezes; O dígito “2”, em 17,6%, e assim por diante. Esta característica foi observada pela primeira vez pelo astrônomo norte-americano Simon Newcomb em 1881, ao notar que a tábua de logaritmos tem mais páginas com logaritmos começando com 1 do que começando com outros dígitos. Sua descoberta foi ignorada até 1938, quando o Dr. Frank Benford, físico da General Electric, redescobriu o fato e fez uma análise muito mais ampla que Newcomb. Ele observou mais de 20 mil fontes de dados, desde área de rios e estatísticas de baseball até os números das casas de pessoas.

O Dr. Benford então formulou:

Se a certeza absoluta é definida como 1 e a absoluta impossibilidade como 0, então a probabilidade de um número “d” de 1 a 9 ser o primeiro dígito é o logaritmo de base 10 de (1 + 1/d).

Para quem não gosta de matemática, a fórmula simplesmente define as porcentagens da tabela acima. Ou seja: o número 1 tem 30,1% de chances de ser o primeiro dígito de um determinado valor, o dígito 2, 17,6% de chances, etc. Isto acontece independentemente da escala ou do tipo de medida (jarda, metros, litros, polegadas).

O que poderia ser uma mera curiosidade matemática encontra aplicações muito úteis para o jornalista investigativo. A chamada Lei de Benford pode ser usada para descoberta de fraudes em grandes quantidades numéricas, como balanços e estatísticas.

Foi assim que o blog Superfície Reflexiva descobriu anomalias em umas das pesquisas da Microsoft que mostra as vantagens do Windows sobre o Linux. Havia um desvio muito grande no algarismo “6”.

Contagem facilitada

Para facilitar o trabalho do jornalista investigativo, desenvolvi um programa que conta a ocorrência de dígitos na memória (na clipboard dos computadores). Ele funciona assim: você copia dados para a memória, roda o programa, clica em “Calcula” e ele apresenta um gráfico de ocorrência de dígitos, a partir dos dados na memória.

Além da contagem de caracteres na memória, o programa ainda faz uma comparação com a média da quantidade de dígitos encontrada no Google e no Yahoo. Na verdade, eu fiz uma simplificação da lei Newcomb/Benfort, porque peguei uma amostragem gigantesca de dígitos usados pela humanidade, disponível nos bancos de dados dos serviços de busca.

Considerei que não importaria se eu contasse apenas o primeiro dígito de valores numéricos ou todos os dígitos. Minha hipótese é a de que os dígitos restantes também obedecem a um perfil determinado, não exatamente conforme a escala logaritmica de Benford.

De fato, a qualquer momento que você fizer a procura por dígitos no Google ou Yahoo, você vai obter aproximadamente o mesmo perfil. Se uma grande amostragem aleatória tem este perfil, uma pequena amostragem deve ter características aproximadas.

Uma diferença notável em relação ao trabalho de Benford é que faço a contagem do zero, também. Como não existe logaritmo de zero, Belford não o usou, mas uma “gugada” revela que a ocorrência de zeros é menor que a ocorrência de algarismos 9. Como zeros podem revelar arredondamentos numéricos, é importante considerar este algarismo, também. Usei um valor que gerou uma curva mais suave no perfil de dígitos.

O resultado é este, sem números na memória:

Gráfico de contagem de dígitos

O sistema dos serviços de busca arredonda os resultados. Por exemplo, em abril de 2004 o Google cadastrava 897.000.000 ocorrências do algarismo “5”. Ignorando as casas do milhão, temos 897. Somando as ocorrências arredondadas de todos os dígitos, temos uma escala de quase 10 mil unidades. Ou seja, a escala tem resolução de 0,001%, o que considero razoável para os propósitos de se fazer uma escala comparativa.

O programa

Para codificar o programa contador de caracteres, usei a linguagem Rebol (http://www.rebol.com), gratuita e semi-open source, desenvolvida especialmente para internet. É fácil de programar e dá um banho em aberrações como linguagem Java.

O script é multiplataforma, rodando em Linux, Solaris, BSD, Windows e Macintosh. Para usá-lo, copie os dados de uma planilha eletrônica, por exemplo, e rode o programa. Depois de alguns segundos, será apresentado o gráfico de ocorrências de dígitos e a comparação com o perfil de dígitos do Google.

Limitações

Este é um método interessante mas nem sempre é útil para análise de dados. Existem algumas característica que limitam o uso da Lei de Benford:

  • O perfil de ocorrência de dígitos não funciona para dados como números gerados aleatoriamente (números de loteria), pois eles não são contagens de fenômenos naturais. Só casualmente são números, pois poderiam ser cores ou bichos (Grande idéia! Vou patentear uma loteria zoológica!). Uma listagem de números aleatórios tende a ter a mesma quantidade de algarismos, apresentando um perfil reto.
  • O perfil com números inventados por humanos tende a ser próximo do aleatório. Isto não é desvantagem, pelo contrário. É a maneira de se saber se um balanço foi fraudado por humanos, por exemplo. Não funciona, igualmente, com números arredondados (melhor: denunciará o arredondamento).
  • O perfil não funciona bem com pequenas quantidades numéricas. Quanto maior a quantidade, mais o perfil vai se apresentar como na fórmula de Benfort.
  • O perfil não funciona com datas. Procure deixar dadas fora da seleção, na hora de copiar dados para a clipboard. Datas como 1999 ou 2004 aumentam a quantidade de dígitos 9 e zero, por exemplo, desequilibrando o perfil.
  • O perfil não funciona com variações determinadas em torno de um valor. Por exemplo, valores em torno de mais ou menos 100% podem ter grande incidência de dígitos 9, zero e um: 98%, 99%, 101%. Este tipo de tabela tende a ter um perfil parabólico.
  • O perfil poderá ser diferente conforme determinado tipo de dados, embora os dados estejam corretos.

Apesar destas limitações, usar este método pode ser um bom início de investigação.

Bibliografia

  1. Benford’s law. in. Wolfram Research. Disponível em:<http://mathworld.wolfram.com/BenfordsLaw.html>. Lido em: 2004-04-10.
  2. BROWNE, Malcolm W. Following Benford’s Law, or Looking Out for No. 1. Site Web em: http://www.rexswain.com/benford.html. Acesso em: 2004-04-10. Republicação de matéria no The New York Times de 1998-09-04.
  3. Intuitor.com. Benford’s Law Part 1 – How to Spot Tax Fraud. Site Web em:<http://www.intuitor.com/statistics/Benford’s%20Law.html>. Acesso em: 2004-04-10.
  4. Rebol Technologies. Site Web disponível em: <http://www.rebol.com>. Acesso em: 2004-04-10.
  5. Wikipedia. Verbete “Benford’s Law” <http://en.wikipedia.org/wiki/Benford%27s_law>. Acesso em 15 set. 2006.

Saiba mais

Sobre José Antonio Meira da Rocha

Jornalista, professor de Planejamento Gráfico e Mídias Digitais da Universidade Federal de Santa Maria, campus da cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutorando em Design na UFRGS, Porto Alegre, Brasil, 2014.