{"id":3563,"date":"2013-12-09T18:47:22","date_gmt":"2013-12-09T21:47:22","guid":{"rendered":"http:\/\/meiradarocha.jor.br\/news\/?p=3563"},"modified":"2013-12-09T19:28:18","modified_gmt":"2013-12-09T22:28:18","slug":"como-baixar-automaticamente-capas-diarias-do-newseum","status":"publish","type":"post","link":"https:\/\/meiradarocha.jor.br\/news\/2013\/12\/09\/como-baixar-automaticamente-capas-diarias-do-newseum\/","title":{"rendered":"Como baixar automaticamente capas di\u00e1rias do Newseum"},"content":{"rendered":"<p><a href=\"http:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2013\/12\/BRA_FDSP2.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright size-medium wp-image-3565\" alt=\"BRA_FDSP(2)\" src=\"http:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2013\/12\/BRA_FDSP2-173x300.jpg\" width=\"173\" height=\"300\" \/><\/a>Pesquisadores do Jornalismo podem precisar baixar diariamente capas de jornais do site <strong>Newseum<\/strong>. Neste artigo, mostro como automatizar esta tarefa.<\/p>\n<p>Isto pode ser feito com <em>scripts<\/em> definidos para execu\u00e7\u00e3o di\u00e1ria autom\u00e1tica. Nos exemplos abaixo, uso a capa do jornal Folha de S\u00e3o Paulo, que leva sempre o nome de BRA_FDSP.<\/p>\n<p>Primeiro, <a href=\"http:\/\/sourceforge.net\/projects\/gnuwin32\/files\/wget\/1.11.4-1\/wget-1.11.4-1-setup.exe\/download\">baixe o cl\u00e1ssico programa WGET<\/a>, usado para <em>download<\/em> de arquivos pela internet. H\u00e1 vers\u00f5es para Windows e diversos tipos de Unix. Nos Linux, normalmente est\u00e1 instalado, mas, se n\u00e3o estiver, pode ser encontrado nos reposit\u00f3rios.<\/p>\n<h3>Windows<\/h3>\n<p>No ambiente Windows, coloque o WGET numa pasta espec\u00edfica para guardar os arquivos baixados, juntamente com o seguinte script, quando a data est\u00e1 no formato DD\/MM\/AAAA:<\/p>\n<pre>set <span style=\"color: #339966;\">day<\/span>=%DATE:~0,2%\r\nif \"%DATE:~0,1%\" == \"0\" set <span style=\"color: #339966;\">day<\/span>=%DATE:~1,1%\r\nset <span style=\"color: #ff0000;\">data<\/span>=%DATE:~0,4%\"-\"%DATE:~5,2%\"-\"%DATE:~8,2%\r\nwget -c http:\/\/webmedia.newseum.org\/newseum-multimedia\/dfp\/pdf<span style=\"color: #339966;\">%DAY%<\/span>\/BRA_FDSP.pdf -O BRA_FDSP_<span style=\"color: #ff0000;\">%DATA<\/span><span style=\"color: #ff0000;\">%<\/span>.pdf<\/pre>\n<p>Quando a data est\u00e1 no formato AAAA-MM-DD, como eu uso, o script \u00e9 este:<\/p>\n<pre>set <span style=\"color: #99cc00;\">day<\/span>=%DATE:~8,2%\r\nif \"%date:~8,1%\" == \"0\" set <span style=\"color: #99cc00;\">day<\/span>=%date:~9,1%\r\nset <span style=\"color: #ff0000;\">data<\/span>=%DATE:~0,4%\"-\"%DATE:~5,2%\"-\"%DATE:~8,2%\r\nwget -c http:\/\/webmedia.newseum.org\/newseum-multimedia\/dfp\/pdf<span style=\"color: #99cc00;\">%DAY%<\/span>\/BRA_FDSP.pdf -O BRA_FDSP_<span style=\"color: #ff0000;\">%DATA%<\/span>.pdf<\/pre>\n<p>Salve o arquivo texto como BAT e coloque-o no agendamento de tarefas para ser executado diariamente \u00e0s 18h, quando as capas do dia j\u00e1 estar\u00e3o com certeza dispon\u00edveis.<\/p>\n<p>Isto buscar\u00e1 a capa PDF do dia, que tem sempre o mesmo nome, e gravar\u00e1 com a data (como BRA_FDSP-2013-12-09.pdf, por exemplo) para correta identifica\u00e7\u00e3o. O script usa a sintaxe do shell Windows para pegar os dois d\u00edgitos do dia. Se o dia for menor que 10, ter\u00e1 um zero na frente. Ent\u00e3o, o script pegar\u00e1 apenas o segundo d\u00edgito, pois a pasta remota do <strong>Newseum<\/strong> n\u00e3o usa o zero. Com DAY e DATE na linha de comando, o WGET procura sempre na pasta correta do dia e grava o arquivo com a data completa.<\/p>\n<h3>Linux<\/h3>\n<p>O <em>shell script<\/em> em Linux \u00e9 este:<\/p>\n<pre>#!\/bin\/bash\r\n\r\n<span style=\"color: #339966;\">_day<\/span>=$(date +\"%-d\")\r\n<span style=\"color: #ff0000;\">_today<\/span>=$(date +\"%Y-%m-%d\")\r\nwget -c http:\/\/webmedia.newseum.org\/newseum-multimedia\/dfp\/pdf<span style=\"color: #339966;\">$_day<\/span>\/BRA_FDSP.pdf -O ~\/newseum\/BRA_FDSP_<span style=\"color: #ff0000;\">$_today<\/span>.pdf<\/pre>\n<p>Em Linux, o arquivo dever\u00e1 ser definido como execut\u00e1vel e o caminho para a pasta de download deve ser expl\u00edcito, pois o script colocado no <strong>cron<\/strong> (o agendador de tarefas Unix) roda no diret\u00f3rio raiz do usu\u00e1rio.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pesquisadores do Jornalismo podem precisar baixar diariamente capas de jornais do site Newseum. Neste artigo, mostro como automatizar esta tarefa. Isto pode ser feito com scripts definidos para execu\u00e7\u00e3o di\u00e1ria [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[10,23,34,21],"tags":[],"class_list":["post-3563","post","type-post","status-publish","format-standard","hentry","category-jornalismo","category-linux","category-web","category-windows"],"_links":{"self":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/3563","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/comments?post=3563"}],"version-history":[{"count":0,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/3563\/revisions"}],"wp:attachment":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/media?parent=3563"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/categories?post=3563"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/tags?post=3563"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}