{"id":1653,"date":"2012-03-24T22:10:59","date_gmt":"2012-03-25T01:10:59","guid":{"rendered":"http:\/\/meiradarocha.jor.br\/news\/?p=1653"},"modified":"2013-03-06T16:21:06","modified_gmt":"2013-03-06T19:21:06","slug":"como-baixar-todas-as-capas-do-newseum","status":"publish","type":"post","link":"https:\/\/meiradarocha.jor.br\/news\/2012\/03\/24\/como-baixar-todas-as-capas-do-newseum\/","title":{"rendered":"Como baixar todas as capas do Newseum"},"content":{"rendered":"<div id=\"attachment_2683\" style=\"width: 310px\" class=\"wp-caption alignright\"><a href=\"http:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2010\/11\/xpath-02.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2683\" class=\"size-medium wp-image-2683\" title=\"Xpath Checker mostra todos os links do Newseum\" alt=\"Xpath Checker mostra todos os links do Newseum\" src=\"http:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2010\/11\/xpath-02-300x260.png\" width=\"300\" height=\"260\" srcset=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2010\/11\/xpath-02-300x260.png 300w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2010\/11\/xpath-02-150x130.png 150w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2010\/11\/xpath-02.png 729w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-2683\" class=\"wp-caption-text\">Xpath Checker mostra todos os links do Newseum<\/p><\/div>\n<p>A se\u00e7\u00e3o &#8220;Capas de Hoje&#8221; do <a href=\"http:\/\/www.newseum.org\/todaysfrontpages\/\">Newseum<\/a> \u00e9 uma grande fonte de pesquisa para professores, estudantes e jornalistas. Mas, quando a gente precisa de todas as capas para algum estudo comparativo, \u00e9 chato ficar clicando em cada miniatura e depois em cada link para <strong>PDF<\/strong> ou <strong>jpeg<\/strong>. Neste artigo, mostro como esta tarefa pode ser facilitada com um pouco de processamento de texto b\u00e1sico.<\/p>\n<p>A jogada \u00e9 obter uma lista com os nomes dos arquivos de capas e, a partir dela, gerar uma lista com os links para os arquivos PDF (ou jpg).<\/p>\n<h3>Obtendo a lista de todas as capas<\/h3>\n<ol>\n<li>Preciso ter instalada a extens\u00e3o XPath Checker do Firefox.<\/li>\n<li>Nas p\u00e1ginas de <a href=\"http:\/\/www.newseum.org\/todaysfrontpages\/default.asp?tfp_region=So&amp;p_size=75\">miniatura de capas<\/a> do Newseum, pe\u00e7o para serem exibidas todas (all) as capas de uma regi\u00e3o ou do arquivo completo.<\/li>\n<li>Clico com o bot\u00e3o da direita em cima de um dos links para a p\u00e1gina grande e seleciono &#8220;View xpath&#8221; no menu que aparece. Surge a janela com o <a href=\"http:\/\/pt.wikipedia.org\/wiki\/XPath\">xpath <\/a>&#8220;<strong>id(&#8216;mainContent&#8217;)\/x:div[3]\/x:div\/x:h2\/x:a\/x:em<\/strong>&#8220;. &#8220;div[3]&#8221; significa que eu cliquei no terceiro link da p\u00e1gina. Cada link est\u00e1 numa DIV HTML pr\u00f3pria. Este n\u00famero varia conforme o link em que eu clicar.<\/li>\n<li>Substituo &#8220;<strong>div[3]<\/strong>&#8221; por &#8220;<strong>div[*]<\/strong>&#8220;. Se aparecer o trecho &#8220;<strong>\/x:em<\/strong>&#8220;, apago-o porque s\u00f3 quero o xpath at\u00e9 o &#8220;<strong>\/x:a<\/strong>&#8220;, que simboliza\u00a0 o link &#8212; \u00e2ncora hipertextual &#8212;\u00a0 na linguagem xpath. O asterisco \u00e9 um coringa que serve para listar todas as divis\u00f5es da p\u00e1gina. Na tela de baixo, ser\u00e1 apresentada uma lista de links para as p\u00e1ginas grandes.<\/li>\n<li>Copio todo o c\u00f3digo da janela clicando nela e usando CTRL+A (selecionar tudo) e CTRL+C (copiar). O c\u00f3digo foi copiado como HTML e como texto plano.<\/li>\n<li>Colo no editor de texto LibreOffice. Ser\u00e1 colado o HTML formatado. \u00c9 isto que eu preciso, para obter os links.<\/li>\n<li>O <strong>Xpath Checker<\/strong> coloca os links dentro de uma tabela com duas colunas: um n\u00famero de ordem e dois pontos, e o link na segunda coluna. Seleciono e apago a primeira coluna. Para simplificar o posterior processamento de texto, converto a tabela em texto separando o texto por algo como ponto-e-v\u00edrgula (menu Tabela &gt; Converter &gt; De tabela para texto).<\/li>\n<li>Salvo como texto HTML e abro o arquivo salvo no editor de texto plano <strong>Notepad++<\/strong>.<\/li>\n<li>Aparece o c\u00f3digo HTML que devo limpar e formatar, fazendo algumas substitui\u00e7\u00f5es de texto.<\/li>\n<li>Apago o c\u00f3digo HTML do in\u00edcio at\u00e9 a lista de links, pouco depois do &lt;BODY&gt;, e o HTML final, depois da lista.<\/li>\n<li>Sobra uma lista de links como:<br \/>\n<strong>&lt;P CLASS=&#8221;western&#8221;&gt;1:;&lt;A HREF=&#8221;http:\/\/www.newseum.org\/todaysfrontpages\/hr.asp?fpVname=<span style=\"color: #ff0000;\">ARG_DD<\/span>&amp;amp;ref_pge=gal&amp;amp;b_pge=1&#8243;&gt;&lt;EM&gt;Diario<\/strong><br \/>\n<strong>Democracia&lt;\/EM&gt;&lt;BR&gt;Buenos Aires, Argentina&lt;\/A&gt;&lt;\/P&gt;<\/strong><\/li>\n<li>Eu preciso s\u00f3 do nome do arquivo de capa. No caso acima, \u00e9 <span style=\"color: #ff0000;\"><strong>ARG_DD<\/strong><\/span>.<\/li>\n<li>Seleciono os caracteres de fim-de-linha (no Windows, CR+LF), teclo CTRL+H e troco todos os fins-de-linha por nada, e &#8220;<strong>&lt;\/A&gt;&lt;\/P&gt;<\/strong>&#8221; por nova linha (\\n), para deixar cada link numa \u00fanica linha.<\/li>\n<li>Agora, troco &#8220;<strong>;&lt;A HREF=&#8221;http:\/\/www.newseum.org\/todaysfrontpages\/hr.asp?fpVname=<\/strong>&#8221; pelo endere\u00e7o dos arquivos PDF, que obtenho na p\u00e1gina de uma das capas, no link &#8220;Readable PDF&#8221;. Ou seja: &#8220;<strong>http:\/\/webmedia.newseum.org\/newseum-multimedia\/dfp\/pdf24\/<\/strong>&#8220;. Suponho que sejam os PDF do dia 24.<\/li>\n<li>Marco no Notepad++ &#8220;Express\u00f5es regulares&#8221; e troco a express\u00e3o regular &#8220;<strong>&lt;P&gt;[0-9]*:<\/strong>&#8221; ou &#8220;<strong>^(&lt;p.*?:)<\/strong>&#8221; &#8212; do in\u00edcio da linha at\u00e9 o primeiro &#8220;:&#8221; &#8212;\u00a0 por &#8220;<strong>wget -nc<\/strong> &#8221; &#8212; o comando que vai baixar o PDF.<\/li>\n<li>Troco a express\u00e3o regular &#8220;<strong>&amp;amp;.*$<\/strong>&#8221; &#8212; do &#8220;&amp;amp;&#8221; at\u00e9 o fim da linha &#8212; por &#8220;<strong>.pdf<\/strong>&#8220;, ou seja: tudo, de &amp;amp; at\u00e9 o fim da linha, por &#8220;.pdf&#8221;.<\/li>\n<li>Agora, eu tenho uma lista de comandos para baixar o PDF com o wget, como &#8220;<strong>wget -nc http:\/\/webmedia.newseum.org\/newseum-multimedia\/dfp\/pdf24\/<span style=\"color: #ff0000;\">ARG_DD<\/span>.pdf<\/strong>&#8220;.<\/li>\n<li>Gravo o arquivo como <strong>newseum.sh<\/strong> (em Linux, preciso torn\u00e1-lo execut\u00e1vel) ou <strong>newseum.bat <\/strong>(em Windows), e est\u00e1 pronto o arquivo de comandos que pode ser executado para baixar todas as capas. Em Windows, o execut\u00e1vel <a href=\"http:\/\/users.ugent.be\/~bpuype\/wget\/\">wget.exe<\/a> deve estar na mesma pasta que o arquivo de comandos criado.<\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Neste artigo, descubra como baixar dezenas de capas do site Newseum.<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8,10],"tags":[],"class_list":["post-1653","post","type-post","status-publish","format-standard","hentry","category-internet","category-jornalismo"],"_links":{"self":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/1653","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/comments?post=1653"}],"version-history":[{"count":0,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/1653\/revisions"}],"wp:attachment":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/media?parent=1653"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/categories?post=1653"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/tags?post=1653"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}