Hacking googlenilha+Wikipédia

Vamos supor que, por falta de sexo, você se divirta levantando dados sobre municípios brasileiros.

Umas das melhores fontes, depois do IBGE e Associação dos Municípios, seria a Wikipédia. Mas você vai clicar em 5560 páginas? Não! Existe uma maneira mais complicada e divertida de fazer isto.

Primeiro abra uma googlenilha e obtenha, com o seguinte comando, uma lista de municípios (no caso, do Rio Grande do Sul que começam com a letra A):

=importHtml("http://pt.wikipedia.org/wiki/Anexo:Lista_de_municípios_do_Rio_Grande_do_Sul";"list";1)

Você pode usar os índices de listas de cidades começando com a letra A (1) até a letra Z (26).

Em outra folha da planilha, obtenha um dado da primeira cidade da lista com este comando:

=importXML(CONCATENATE("http://pt.wikipedia.org/wiki/";Página1!A1);"//table[@class='infobox']/tr[22]/td")

O CONCATENATE monta o endereço URL da página, na Wikipédia, do primeiro município da lista, na folha Página1, célula A1.

O importXML pega a página no endereço e extrai os dados conforme o XPath (da célula <td> da 22ª linha <tr> — no caso, é a população — da tabela <table> de classe CSS “infobox”  — no caso, é a ficha do município — da primeira cidade da lista).

Puxe a célula para baixo pelo cantinho para replicá-la para todas as cidades da lista.

Na Wikipédia, espera-se que todos os dados correspondentes estejam na mesma posição da tabela, porque são gerados por “predefinições”.

Cotações

Um bom uso desta função, por exemplo, pode ser a recuperação de cotações de ações da Bovespa. Um investidor pode ter numa só planilha toda sua carteira de ações com fórmulas como esta:

=importXML("http://www.bmfbovespa.com.br/Pregao-Online/ExecutaAcaoAjax.asp?CodigoPapel=VALE3";"//Papel/@ultimo")

Troque “vale3” por “petr3” ou qualquer outro código de ações. Em vez de “ultimo”, podem ser filtrados os parâmetros dentro do nó <Papel Codigo=”VALE3″ Nome=”VALE ON N1″ Ibovespa=”#” Data=”19/11/2009 19:29:47″ Abertura=”48,05″ Minimo=”47,75″ Maximo=”48,80″ Medio=”48,27″ Ultimo=”48,80″ Oscilacao=”0,49″/>. Mas devem ser colocados todos em minúscula.

[Atualização 2012-01-12]

Uma outra fórmula para pegar a cotação de uma ação é esta, da PETR4:

=ImportXML("http://www.bmfbovespa.com.br/Pregao-online/ExecutaAcaoCotRapXSL.asp?gstrCA=&txtCodigo=PETR4&intIdiomaXsl=0";"//table[@id='tbCotacoesInfo']/tr[1]/td[2]")

Para ajudar a descobrir o xPath correto dos dados, uso o plugin Firefox Xpath Generator.

Limitações

  1. Por enquanto, as googlenilhas só aceitam 50 fórmulas importXML por folha.
  2. Dá um trabalho do Cão. Isto é só um exemplo didático de como extrair dados da rede pelo Google Planilha. Além da Wikipédia, dá pra usar arquivos texto e CSV. Por exemplo, arquivos de cotações atualizadas frequentemente.

Bibliografia

  1. XPath
  2. XPath Tutorial
  3. XPath Generator
  4. Google. Ajuda do Docs. Funções: Que funções posso usar para obter dados externos?
  5. Wikipedista hardcore Leonardo Stabile
  6. Dados de cabeçalho HTTP obtidos com o plugin Live HTTP Headers para browser Firefox.
José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.

View Comments

  • Excelente dica ! Obrigado por compartilhar.
    Com relação ao Excel, ainda que ele não tenha a função pronta,
    daria para criar uma "macro" com o IMPORTXML para obter este mesmo resultado da googlenilha?
    E valeu mesmo! Foi uma ótima dica.
    Flávio

    • Obrigado, Flavio!
      Imagino que dê para fazer uma macro no Excell, sim. Não saberia dizer se a linguagem macro interpreta XPaths...

    • Olá,Hugo!
      As Googlenilhas são baseadas no OpenOffice.org, mas só há a função HYPERLINK(). OOo não possui IMPORTXML, por enquanto...

Recent Posts

Sempre faça um fotão

Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…

1 year ago

A corrupção dos tolos

João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…

4 years ago

Naomi who? Naomi Wu!

A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…

5 years ago

Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…

5 years ago

Que estratégia político-terapêutica pára um governo deliroide?

Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…

6 years ago

Sua tia não é fascista, ela está sendo manipulada

Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…

6 years ago