Como extrair fontes tipográficas embutidas em arquivos PDF

É possível se extrair fontes tipográficas embutidas em arquivos PDF com um programa desenvolvido pela criadora do interpretador PostScript Ghostscript, a Artiflex. O programa está no pacote mutools, em Linux, em todos os bons repositórios, ou no pacote MuPDF, com o nome mupdfextract.exe, em ambiente Windows.

Usa-se pela linha de comando, como em Linux:

mutool extract meu-arquivo.pdf

Ele vai extrair todas as imagens (em formato PNG) e todas as fontes (em formato PFA) no mesmo diretório onde está o PDF. Se for um PDF de jornal completo, isto pode gerar mais de mil arquivos.

O problema é que, geralmente, apenas um subconjunto das fontes é incluído no PDF, e pode haver um subconjunto por cada página. Para formar uma fonte com um conjunto maior de caracteres, é necessário combinar estes arquivos PFA com um software editor de fontes como o FontForge, por exemplo. Neste programa, abro um arquivo novo e faço a importação de todos os arquivos de fontes pelo menu “Elemento > Merge fonts”. Seleciono todos os arquivos de fontes segurando a tecla ⇧SHIFT, e o FontForge consolida todos os caracteres. Em geral, ficam faltando muitos caracteres, como os acentuados, que deverão ser reconstruídos à mão com corte-colagem dos desenhos de acentos e diacríticos e das letras. Para finalizar, edito o nome PostScript da fonte pelo menu “Elemento > Informações da fonte”. Também faço a validação da fonte, para evitar erros, pelo menu “Elementos > Validação > Validation”.

Para facilitar o trabalho, renomeio os arquivos, já que eles são extraídos com nomes como “ZYJCHM+MetaSerifPro-Bold-19265.pfa”. Eu uso o renomeador do Total Commander (CTRL+M), procurando a expressão regular “^[A-Z]+\+” e trocando por nenhum carácter, para tirar as seis letras iniciais dos arquivos e o sinal “+”.  Depois, separo as fontes de uma mesma família em diretórios próprios, para facilitar a junção dos caracteres.

José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.

Recent Posts

Sempre faça um fotão

Colheita de soja. Foto: Wenderson Araujo/Trilux Fotógrafos de mídias rurais já perderam a conta das…

1 year ago

A corrupção dos tolos

João Batista MezzomoAuditor fiscal O que está por trás de tudo o que está acontecendo…

4 years ago

Naomi who? Naomi Wu!

A.k.a. "SexyCyborg". A mulher do século 21. Naomi Wu testa seu iluminador de implantes na…

5 years ago

Raspagem de dados

A principal ferramenta do jornalista de dados é a planilha, tipo LibreOffice Calc, M.S. Excel…

5 years ago

Que estratégia político-terapêutica pára um governo deliroide?

Rita Almeida, 9 de março de 2019 Psicóloga Rita Almeida: não delirantes, mas deliroides. Não…

6 years ago

Sua tia não é fascista, ela está sendo manipulada

Rafael Azzi5 de outubro de 2018 Você se pergunta como um candidato com tão poucas…

6 years ago