Como baixar automaticamente capas diárias do Newseum

Pesquisadores do Jornalismo podem precisar baixar diariamente capas de jornais do site Newseum. Neste artigo, mostro como automatizar esta tarefa.

Isto pode ser feito com scripts definidos para execução diária automática. Nos exemplos abaixo, uso a capa do jornal Folha de São Paulo, que leva sempre o nome de BRA_FDSP.

Primeiro, baixe o clássico programa WGET, usado para download de arquivos pela internet. Há versões para Windows e diversos tipos de Unix. Nos Linux, normalmente está instalado, mas, se não estiver, pode ser encontrado nos repositórios.

Windows

No ambiente Windows, coloque o WGET numa pasta específica para guardar os arquivos baixados, juntamente com o seguinte script, quando a data está no formato DD/MM/AAAA:

set day=%DATE:~0,2%
if "%DATE:~0,1%" == "0" set day=%DATE:~1,1%
set data=%DATE:~0,4%"-"%DATE:~5,2%"-"%DATE:~8,2%
wget -c http://webmedia.newseum.org/newseum-multimedia/dfp/pdf%DAY%/BRA_FDSP.pdf -O BRA_FDSP_%DATA%.pdf

Quando a data está no formato AAAA-MM-DD, como eu uso, o script é este:

set day=%DATE:~8,2%
if "%date:~8,1%" == "0" set day=%date:~9,1%
set data=%DATE:~0,4%"-"%DATE:~5,2%"-"%DATE:~8,2%
wget -c http://webmedia.newseum.org/newseum-multimedia/dfp/pdf%DAY%/BRA_FDSP.pdf -O BRA_FDSP_%DATA%.pdf

Salve o arquivo texto como BAT e coloque-o no agendamento de tarefas para ser executado diariamente às 18h, quando as capas do dia já estarão com certeza disponíveis.

Isto buscará a capa PDF do dia, que tem sempre o mesmo nome, e gravará com a data (como BRA_FDSP-2013-12-09.pdf, por exemplo) para correta identificação. O script usa a sintaxe do shell Windows para pegar os dois dígitos do dia. Se o dia for menor que 10, terá um zero na frente. Então, o script pegará apenas o segundo dígito, pois a pasta remota do Newseum não usa o zero. Com DAY e DATE na linha de comando, o WGET procura sempre na pasta correta do dia e grava o arquivo com a data completa.

Linux

O shell script em Linux é este:

#!/bin/bash

_day=$(date +"%-d")
_today=$(date +"%Y-%m-%d")
wget -c http://webmedia.newseum.org/newseum-multimedia/dfp/pdf$_day/BRA_FDSP.pdf -O ~/newseum/BRA_FDSP_$_today.pdf

Em Linux, o arquivo deverá ser definido como executável e o caminho para a pasta de download deve ser explícito, pois o script colocado no cron (o agendador de tarefas Unix) roda no diretório raiz do usuário.

José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.

Share
Published by
José Antonio Meira da Rocha

Recent Posts

Sempre faça um fotão

Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…

1 year ago

A corrupção dos tolos

João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…

4 years ago

Naomi who? Naomi Wu!

A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…

5 years ago

Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…

5 years ago

Que estratégia político-terapêutica pára um governo deliroide?

Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…

6 years ago

Sua tia não é fascista, ela está sendo manipulada

Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…

6 years ago