Categories: InternetJornalismo

Como baixar todas as capas do Newseum

Xpath Checker mostra todos os links do Newseum

A seção “Capas de Hoje” do Newseum é uma grande fonte de pesquisa para professores, estudantes e jornalistas. Mas, quando a gente precisa de todas as capas para algum estudo comparativo, é chato ficar clicando em cada miniatura e depois em cada link para PDF ou jpeg. Neste artigo, mostro como esta tarefa pode ser facilitada com um pouco de processamento de texto básico.

A jogada é obter uma lista com os nomes dos arquivos de capas e, a partir dela, gerar uma lista com os links para os arquivos PDF (ou jpg).

Obtendo a lista de todas as capas

  1. Preciso ter instalada a extensão XPath Checker do Firefox.
  2. Nas páginas de miniatura de capas do Newseum, peço para serem exibidas todas (all) as capas de uma região ou do arquivo completo.
  3. Clico com o botão da direita em cima de um dos links para a página grande e seleciono “View xpath” no menu que aparece. Surge a janela com o xpath id(‘mainContent’)/x:div[3]/x:div/x:h2/x:a/x:em“. “div[3]” significa que eu cliquei no terceiro link da página. Cada link está numa DIV HTML própria. Este número varia conforme o link em que eu clicar.
  4. Substituo “div[3]” por “div[*]“. Se aparecer o trecho “/x:em“, apago-o porque só quero o xpath até o “/x:a“, que simboliza  o link — âncora hipertextual —  na linguagem xpath. O asterisco é um coringa que serve para listar todas as divisões da página. Na tela de baixo, será apresentada uma lista de links para as páginas grandes.
  5. Copio todo o código da janela clicando nela e usando CTRL+A (selecionar tudo) e CTRL+C (copiar). O código foi copiado como HTML e como texto plano.
  6. Colo no editor de texto LibreOffice. Será colado o HTML formatado. É isto que eu preciso, para obter os links.
  7. O Xpath Checker coloca os links dentro de uma tabela com duas colunas: um número de ordem e dois pontos, e o link na segunda coluna. Seleciono e apago a primeira coluna. Para simplificar o posterior processamento de texto, converto a tabela em texto separando o texto por algo como ponto-e-vírgula (menu Tabela > Converter > De tabela para texto).
  8. Salvo como texto HTML e abro o arquivo salvo no editor de texto plano Notepad++.
  9. Aparece o código HTML que devo limpar e formatar, fazendo algumas substituições de texto.
  10. Apago o código HTML do início até a lista de links, pouco depois do <BODY>, e o HTML final, depois da lista.
  11. Sobra uma lista de links como:
    <P CLASS=”western”>1:;<A HREF=”http://www.newseum.org/todaysfrontpages/hr.asp?fpVname=ARG_DD&amp;ref_pge=gal&amp;b_pge=1″><EM>Diario
    Democracia</EM><BR>Buenos Aires, Argentina</A></P>
  12. Eu preciso só do nome do arquivo de capa. No caso acima, é ARG_DD.
  13. Seleciono os caracteres de fim-de-linha (no Windows, CR+LF), teclo CTRL+H e troco todos os fins-de-linha por nada, e “</A></P>” por nova linha (\n), para deixar cada link numa única linha.
  14. Agora, troco “;<A HREF=”http://www.newseum.org/todaysfrontpages/hr.asp?fpVname=” pelo endereço dos arquivos PDF, que obtenho na página de uma das capas, no link “Readable PDF”. Ou seja: “http://webmedia.newseum.org/newseum-multimedia/dfp/pdf24/“. Suponho que sejam os PDF do dia 24.
  15. Marco no Notepad++ “Expressões regulares” e troco a expressão regular “<P>[0-9]*:” ou “^(<p.*?:)” — do início da linha até o primeiro “:” —  por “wget -nc ” — o comando que vai baixar o PDF.
  16. Troco a expressão regular “&amp;.*$” — do “&amp;” até o fim da linha — por “.pdf“, ou seja: tudo, de &amp; até o fim da linha, por “.pdf”.
  17. Agora, eu tenho uma lista de comandos para baixar o PDF com o wget, como “wget -nc http://webmedia.newseum.org/newseum-multimedia/dfp/pdf24/ARG_DD.pdf“.
  18. Gravo o arquivo como newseum.sh (em Linux, preciso torná-lo executável) ou newseum.bat (em Windows), e está pronto o arquivo de comandos que pode ser executado para baixar todas as capas. Em Windows, o executável wget.exe deve estar na mesma pasta que o arquivo de comandos criado.
José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.

Share
Published by
José Antonio Meira da Rocha

Recent Posts

Sempre faça um fotão

Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…

1 year ago

A corrupção dos tolos

João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…

4 years ago

Naomi who? Naomi Wu!

A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…

5 years ago

Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…

5 years ago

Que estratégia político-terapêutica pára um governo deliroide?

Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…

6 years ago

Sua tia não é fascista, ela está sendo manipulada

Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…

6 years ago