Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel ou Google Planilhas. Além de calculadoras programáveis, as planilhas também são usadas como bancos de dados. Pode-se ordenar colunas, filtrar só alguns valores e muito mais. Arquivos de planilhas digitais (Excel, LibreOffice Calc) são melhor formatadas e não têm problemas de acentuação como têm os arquivos-texto CSV (Comma Separated Values = Valores Separados por Vírgula), também muito usados para guardar bancos de dados . Ao baixar dados de um site, dê preferência ao formato ODS (LibreOffice Calc) ou XLSX (Excel), se o site de dados apresentar escolhas.

Em um banco de dados relacional — o tipo mais usado — os dados são apresentados em forma de tabelas com linhas e colunas, também chamados genericamente de “dados tabulares”. As linhas são chamadas de “registro” ou “entrada”, reunindo dados sobre uma entidade particular, como um cliente. As colunas são chamadas de “campos“, que são os dados referentes àquele cliente. Um registro pode ter vários campos. Por exemplo, “UserID”, “Username”, “Email”, “Endereço”, “Telefone fixo”, “Celular” etc. Todos os dados de uma linha formam o registro de uma entidade. Uma pessoa, neste exemplo. Pode ser entendido como uma “ficha” da pessoa ou dos dados. Na coluna “UserID” ficam os identificadores únicos de todas as pessoas no exemplo. Na coluna “Email”, o email de todos. E assim por diante.

Abaixo, está um exemplo de planilha usada como banco de dados.

CSV (comma separated values)

Mas se não houver planilhas no site de dados, que formato de dados baixar? O formato mais básico é o CSV (comma separated values — valores separados por vírgula). É um texto sem formatação, texto simples que se edita no Bloco de Notas, até.

Na hora de importar para uma planilha, para tratar os dados, o operador tem que cuidar o código dos acentos. Em computadores, cada língua tem uma tabela de código de caracteres acentuados ou caracteres especiais, não latinos. Os códigos mais usados são ISO-8859 (usado no início da internet) e UTF-8 (usado atualmente). Se, na importação, os acentos não aparecem ou são estranhos, tente um destes outros códigos.  As planilhas têm um modo de preview, antes de  importar, que permite a gente escolher os separadores dos valores (vírgula ou tabulação, por ex.) e o código dos acentos.

Tela de importação de arquivo CSV pelo LibreOffice Calc. Três pontos devem ser observados: o código de caracteres acentuados, o caractere separador de campos e o tipo de campo numérico.

PDF

Um formato também muito usado também para publicar dados, infelizmente, é o PDF, que é um bom formato de documento mas é péssimo para se extrair os dados. O pesquisador deve selecionar tabelas, copiar, e colar em um programa editor de texto simples, como o Notepad++ e tentar, à mão, reconstruir o texto no formato CSV ou TSV (Valores Separados por tabulação).

Como o PDF não tem estruturas de texto — parágrafos ou blocos de texto, p. ex. — ao copiar-se texto de um PDF pode-se copiar texto indesejáveis, como como número de página, cabeçalhos, rodapés. Assim, em geral é preciso fazer uma limpeza, antes, no Notepad++ ou no Bloco de Notas. “Limpeza” é apagar os dados que não fazem parte da estrutura do banco de dados ou da tabelas.

HTML

Tabelas da Web são em formato HTML. Em geral, quando se copiam estas tabelas, o texto simples já é copiado com tabulações. Quando se colam numa planilha, os campos de dados vêm nas colunas certas.

Função ImportHTML

Outra opção é usar a função de planilhas Google ImportHTML, que carrega uma tabela HTML em uma planilha. Por exemplo, se eu quiser buscar a tabela do PIB dos países do mundo na Wikipedia (a terceira tabela na página), usaria a seguinte função:

=ImportHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(PPP)_per_capita";"table";3)  

https://docs.google.com/spreadsheets/d/1aI1gVF07Xn9Kr0TCn5BdvTHgiaJZks2TI7GVmY8lQ4g/edit#gid=0

Veja uma planilha com teste da função ImportHTML.

Note que, se a planilha e o nome das funções estiverem em português, o caractere separador dos parâmetros das funções é o ponto-e-vírgula (“;”), não a vírgula (“,”) usada em línguas não-portuguesas.

Ponto ou vírgula decimal?

Um cuidado que tem que se ter quando se trabalha com números é a marca de frações decimais. No Brasil se usa a VÍRGULA decimal. Os norte-americanos usam o PONTO decimal. Na hora de se importar dados para uma planilha, alguns programas deixam o operador especificar se quer usar pontos ou milímetros, mas a maioria não avisa nada e importa os números erradamente. Se planilha for especificada como de língua inglesa, ela interpretará o ponto como o separador decimal. Se a língua for português, ela interpretará a vírgula como separador decimal. Também é possível se especificar apenas uma coluna com uma língua diferente do resto da planilha. Uma coluna numérica formatada com a língua inglesa irá usar ponto decimal, em vez de vírgula decimal, mesmo que a planilha seja em língua portuguesa.

Tags:

About José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.