Como extrair fontes tipográficas embutidas em arquivos PDF

mupdfÉ possível se extrair fontes tipográficas embutidas em arquivos PDF com um programa desenvolvido pela criadora do interpretador PostScript Ghostscript, a Artiflex. O programa está no pacote mutools, em Linux, em todos os bons repositórios, ou no pacote MuPDF, com o nome mupdfextract.exe, em ambiente Windows.

Usa-se pela linha de comando, como em Linux:

mutool extract meu-arquivo.pdf

Ele vai extrair todas as imagens (em formato PNG) e todas as fontes (em formato PFA) no mesmo diretório onde está o PDF. Se for um PDF de jornal completo, isto pode gerar mais de mil arquivos.

O problema é que, geralmente, apenas um subconjunto das fontes é incluído no PDF, e pode haver um subconjunto por cada página. Para formar uma fonte com um conjunto maior de caracteres, é necessário combinar estes arquivos PFA com um software editor de fontes como o FontForge, por exemplo. Neste programa, abro um arquivo novo e faço a importação de todos os arquivos de fontes pelo menu “Elemento > Merge fonts”. Seleciono todos os arquivos de fontes segurando a tecla ⇧SHIFT, e o FontForge consolida todos os caracteres. Em geral, ficam faltando muitos caracteres, como os acentuados, que deverão ser reconstruídos à mão com corte-colagem dos desenhos de acentos e diacríticos e das letras. Para finalizar, edito o nome PostScript da fonte pelo menu “Elemento > Informações da fonte”. Também faço a validação da fonte, para evitar erros, pelo menu “Elementos > Validação > Validation”.

Para facilitar o trabalho, renomeio os arquivos, já que eles são extraídos com nomes como “ZYJCHM+MetaSerifPro-Bold-19265.pfa”. Eu uso o renomeador do Total Commander (CTRL+M), procurando a expressão regular “^[A-Z]+\+” e trocando por nenhum carácter, para tirar as seis letras iniciais dos arquivos e o sinal “+”.  Depois, separo as fontes de uma mesma família em diretórios próprios, para facilitar a junção dos caracteres.

About José Antonio Meira da Rocha

Jornalista, professor das áreas de Editoração e de Mídias Digitais na Universidade Federal de Santa Maria, campus cidade de Frederico Westphalen, Rio Grande do Sul, Brasil. Doutor em Design pelo Programa de Pós-Graduação em Design (PGDesign)/Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Brasil, 2023. Mestre em Mídias pela UNISINOS, São Leopoldo, RS, Brasil, 2003. Especialista em Informática na Educação, Unisinos, 1976.