{"id":5656,"date":"2020-02-25T22:30:05","date_gmt":"2020-02-26T01:30:05","guid":{"rendered":"http:\/\/meiradarocha.jor.br\/news\/?p=5656"},"modified":"2024-08-25T20:14:46","modified_gmt":"2024-08-25T19:14:46","slug":"raspagem-de-dados","status":"publish","type":"post","link":"https:\/\/meiradarocha.jor.br\/news\/2020\/02\/25\/raspagem-de-dados\/","title":{"rendered":"Raspagem de dados"},"content":{"rendered":"<div class=\"wp-block-image\">\n<figure class=\"alignright size-medium is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"300\" height=\"269\" src=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-300x269.jpg\" alt=\"\" class=\"wp-image-5737\" style=\"width:340px;height:auto\" srcset=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-300x269.jpg 300w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-1024x918.jpg 1024w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-150x134.jpg 150w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-768x688.jpg 768w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images-1536x1376.jpg 1536w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/02\/t3.gstatic.com_images.jpg 1656w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"has-drop-cap has-normal-font-size\">A principal ferramenta do jornalista de dados \u00e9 a planilha, tipo LibreOffice Calc, M.S. Excel ou Google Planilhas. Al\u00e9m de calculadoras program\u00e1veis, as planilhas tamb\u00e9m s\u00e3o usadas como bancos de dados. Pode-se ordenar colunas, filtrar s\u00f3 alguns valores e muito mais. Arquivos de planilhas digitais (Excel, LibreOffice Calc) s\u00e3o melhor formatadas e n\u00e3o t\u00eam problemas de acentua\u00e7\u00e3o como t\u00eam os arquivos-texto CSV (Comma Separated Values = Valores Separados por V\u00edrgula), tamb\u00e9m muito usados para guardar bancos de dados . Ao baixar dados de um site, d\u00ea prefer\u00eancia ao formato ODS (LibreOffice Calc) ou XLSX (Excel), se o site de dados apresentar escolhas.<\/p>\n\n\n\n<p class=\"has-normal-font-size\">Em um banco de dados relacional &#8212; o tipo mais usado &#8212; os dados s\u00e3o apresentados em forma de tabelas com linhas e colunas, tamb\u00e9m chamados genericamente de &#8220;dados tabulares&#8221;. As linhas s\u00e3o chamadas de &#8220;<strong>registro<\/strong>&#8221; ou &#8220;entrada&#8221;, reunindo dados sobre uma entidade particular, como um cliente. As colunas s\u00e3o chamadas de &#8220;<strong>campos<\/strong>&#8220;, que s\u00e3o os dados referentes \u00e0quele cliente. Um registro pode ter v\u00e1rios campos. Por exemplo, &#8220;UserID&#8221;, &#8220;Username&#8221;, &#8220;Email&#8221;, &#8220;Endere\u00e7o&#8221;, &#8220;Telefone fixo&#8221;, &#8220;Celular&#8221; etc. Todos os dados de uma linha formam o <strong>registro<\/strong>  de uma entidade. Uma pessoa, neste exemplo. Pode ser entendido como uma &#8220;ficha&#8221; da  pessoa ou dos dados. Na coluna &#8220;UserID&#8221; ficam os identificadores \u00fanicos  de todas as pessoas no exemplo. Na coluna &#8220;Email&#8221;, o email de todos. E  assim por diante.<\/p>\n\n\n\n<p>Abaixo, est\u00e1 um exemplo de planilha usada como banco de dados.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"705\" height=\"435\" src=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2019\/04\/planilha-como-banco-de-dados2.jpg\" alt=\"\" class=\"wp-image-5657\" srcset=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2019\/04\/planilha-como-banco-de-dados2.jpg 705w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2019\/04\/planilha-como-banco-de-dados2-150x93.jpg 150w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2019\/04\/planilha-como-banco-de-dados2-300x185.jpg 300w\" sizes=\"auto, (max-width: 705px) 100vw, 705px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">CSV (<em>comma separated values<\/em>)<\/h3>\n\n\n\n<p>Mas se n\u00e3o houver planilhas no site de dados, que formato de dados baixar? O formato mais b\u00e1sico \u00e9 o CSV (<em>comma separated values <\/em>&#8212;  valores separados por v\u00edrgula). \u00c9 um texto sem formata\u00e7\u00e3o, texto simples  que se edita no Bloco de Notas, at\u00e9.<\/p>\n\n\n\n<p>Na hora de importar para uma planilha, para tratar os dados, o operador tem que cuidar o c\u00f3digo dos acentos. Em computadores, cada l\u00edngua tem uma tabela de c\u00f3digo de caracteres acentuados ou caracteres especiais, n\u00e3o latinos. Os c\u00f3digos mais usados s\u00e3o ISO-8859 (usado no in\u00edcio da internet) e UTF-8 (usado atualmente). Se,  na importa\u00e7\u00e3o, os acentos n\u00e3o aparecem ou s\u00e3o estranhos, tente um  destes outros c\u00f3digos.&nbsp; As planilhas t\u00eam um modo de <em>preview<\/em>,  antes de&nbsp; importar, que permite a gente escolher os separadores dos  valores (v\u00edrgula ou tabula\u00e7\u00e3o, por ex.) e o c\u00f3digo dos acentos.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"589\" height=\"613\" src=\"http:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/11\/importar-csv.jpg\" alt=\"\" class=\"wp-image-5809\" srcset=\"https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/11\/importar-csv.jpg 589w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/11\/importar-csv-288x300.jpg 288w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/11\/importar-csv-144x150.jpg 144w, https:\/\/meiradarocha.jor.br\/news\/wp-content\/uploads\/2020\/11\/importar-csv-36x36.jpg 36w\" sizes=\"auto, (max-width: 589px) 100vw, 589px\" \/><figcaption class=\"wp-element-caption\">Tela de importa\u00e7\u00e3o de arquivo CSV pelo LibreOffice Calc. Tr\u00eas pontos devem ser observados: o c\u00f3digo de caracteres acentuados, o caractere separador de campos e o tipo de campo num\u00e9rico.<\/figcaption><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">PDF<\/h3>\n\n\n\n<p>Um formato tamb\u00e9m muito usado tamb\u00e9m para publicar dados, infelizmente, \u00e9 o PDF, que \u00e9 um bom formato de documento mas \u00e9 p\u00e9ssimo  para se extrair os dados. O pesquisador deve selecionar tabelas, copiar, e  colar em um programa editor de texto simples, como o Notepad++ e tentar,  \u00e0 m\u00e3o, reconstruir o texto no formato CSV ou TSV (Valores Separados por  tabula\u00e7\u00e3o).<\/p>\n\n\n\n<p>Como o PDF n\u00e3o tem estruturas de texto &#8212; par\u00e1grafos ou blocos de texto, p. ex. &#8212; ao copiar-se  texto de um PDF pode-se copiar texto indesej\u00e1veis, como como n\u00famero de p\u00e1gina, cabe\u00e7alhos, rodap\u00e9s. Assim, em geral \u00e9 preciso fazer uma limpeza,  antes, no Notepad++ ou no Bloco de Notas. &#8220;Limpeza&#8221; \u00e9 apagar os dados que n\u00e3o fazem parte da estrutura do banco de dados ou da tabelas. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\">HTML<\/h3>\n\n\n\n<p>Tabelas da Web s\u00e3o em formato HTML. Em geral,  quando se copiam estas tabelas, o texto simples j\u00e1 \u00e9 copiado com  tabula\u00e7\u00f5es. Quando se colam numa planilha, os campos de dados v\u00eam nas  colunas certas. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Fun\u00e7\u00e3o ImportHTML<\/h3>\n\n\n\n<p>Outra op\u00e7\u00e3o \u00e9 usar a fun\u00e7\u00e3o de planilhas Google <strong>ImportHTML<\/strong>, que carrega uma tabela HTML em uma planilha. Por exemplo, se eu quiser buscar a tabela do PIB dos pa\u00edses do mundo na Wikipedia (a <em>terceira <\/em>tabela na p\u00e1gina), usaria a seguinte fun\u00e7\u00e3o:<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">=ImportHTML(\"https:\/\/en.wikipedia.org\/wiki\/List_of_countries_by_GDP_(PPP)_per_capita\";\"table\";3)  <\/pre>\n\n\n\n<p><a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1aI1gVF07Xn9Kr0TCn5BdvTHgiaJZks2TI7GVmY8lQ4g\/edit#gid=0\" data-type=\"URL\" data-id=\"https:\/\/docs.google.com\/spreadsheets\/d\/1aI1gVF07Xn9Kr0TCn5BdvTHgiaJZks2TI7GVmY8lQ4g\/edit#gid=0\">https:\/\/docs.google.com\/spreadsheets\/d\/1aI1gVF07Xn9Kr0TCn5BdvTHgiaJZks2TI7GVmY8lQ4g\/edit#gid=0<\/a><\/p>\n\n\n\n<p>Veja uma <a rel=\"noreferrer noopener\" href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1aI1gVF07Xn9Kr0TCn5BdvTHgiaJZks2TI7GVmY8lQ4g\/edit#gid=0\" target=\"_blank\">planilha com teste da fun\u00e7\u00e3o ImportHTML<\/a>. <\/p>\n\n\n\n<p>Note que, se a planilha e o nome das fun\u00e7\u00f5es estiverem em portugu\u00eas, o caractere separador dos par\u00e2metros das fun\u00e7\u00f5es \u00e9 o ponto-e-v\u00edrgula (&#8220;;&#8221;), n\u00e3o a v\u00edrgula (&#8220;,&#8221;) usada em l\u00ednguas n\u00e3o-portuguesas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ponto ou v\u00edrgula decimal?<\/h3>\n\n\n\n<p>Um cuidado que tem que se ter quando se trabalha com n\u00fameros \u00e9 a  marca de fra\u00e7\u00f5es decimais. No Brasil se usa a V\u00cdRGULA decimal. Os norte-americanos usam o PONTO decimal. Na  hora de se importar dados para uma planilha, alguns programas deixam o operador especificar se quer usar pontos ou mil\u00edmetros, mas a maioria n\u00e3o avisa nada e importa os n\u00fameros  erradamente. Se  planilha for especificada como de l\u00edngua inglesa, ela interpretar\u00e1 o <strong>ponto<\/strong> como o separador decimal. Se a l\u00edngua for portugu\u00eas, ela interpretar\u00e1 a <strong>v\u00edrgula<\/strong> como separador decimal. Tamb\u00e9m \u00e9 poss\u00edvel se especificar apenas uma coluna com uma l\u00edngua diferente do resto da planilha. Uma coluna num\u00e9rica formatada com a l\u00edngua inglesa ir\u00e1 usar <strong>ponto decimal<\/strong>, em vez de v\u00edrgula decimal, mesmo que a planilha seja em l\u00edngua portuguesa.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>A principal ferramenta do jornalista de dados \u00e9 a planilha, tipo LibreOffice Calc, M.S. Excel ou Google Planilhas. Al\u00e9m de calculadoras program\u00e1veis, as planilhas tamb\u00e9m s\u00e3o usadas como bancos de [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[27,1,10,7],"tags":[104],"class_list":["post-5656","post","type-post","status-publish","format-standard","hentry","category-database","category-geral","category-jornalismo","category-jornalismo-online","tag-rapagem"],"_links":{"self":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/5656","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/comments?post=5656"}],"version-history":[{"count":18,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/5656\/revisions"}],"predecessor-version":[{"id":6104,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/posts\/5656\/revisions\/6104"}],"wp:attachment":[{"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/media?parent=5656"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/categories?post=5656"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/meiradarocha.jor.br\/news\/wp-json\/wp\/v2\/tags?post=5656"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}