Não sei bem o quê, vocês tanto precisam “editar” em arquivos PDF. – A primeira coisa que me vem à lembrança, é que ao iniciar o curso de jornalismo, tínhamos uma “matéria” obrigatória, acho que se chamava “Legislação e Ética em Comunicação Social” (ou algo assim), e que era dada, não no Departamento de Comunicação, mas no Departamento de Direito.
- Ok, hoje ninguém precisa estudar. – Desde um célebre julgamento do início dos anos 2000, o STF decidiu que, “jornalista, é quem o patrão quiser contratar para escrever qualquer abobrinha no seu jornal”. – Ou, para falar abobrinha, muito bem-vestido, maquiado e manicurado, num estúdio luxuosamente decorado. – Nesses 20 anos, quase todos os jornalistas mais conhecidos por seu profissionalismo e competência foram sendo excluídos da grande mídia, e terminaram confinados a blogs próprios ou à mídia “alternativa”, com baixíssima visibilidade. Mas isso, já é uma outra estória, como dizia aquele personagem de “Irma, la Douce”.
Quando eu ainda tinha Windows (até Abril 2016), eu usava o “Adobe Acrobat 6.0 Professional”, que evidentemente era o mais “abalizado” para editar PDF, por ser da própria empresa que inventou esse formato.
Por motivos profissionais, nunca utilizei essa ferramenta para “alterar o conteúdo” (texto, imagens, tabelas etc.) de qualquer PDF produzido por terceiros – pois isso constituiria “falsificação”, pura e simples! – Vulgo, “171”.
- Lembrando que um dos objetivos fundamentais do formato PDF é, justamente, compartilhar documentos de modo “não-editável”, para que não sejam adulterados – como no caso de um DOC, muito fácil de qualquer um mexer.
Meus usos principais eram – até onde posso confiar na “memória humana”:
-
Extrair (exportar) textos
-
Extrair (exportar) imagens
-
Eliminar páginas irrelevantes. – Por exemplo, você “imprime” uma página web em PDF, e vêm junto várias páginas de links etc., lá no final, que não interessam. – Mas se você prevê que um dia possa precisar disso como “prova”, é melhor não mexer no PDF original!
-
Mesclar vários PDFs em 1 só, “para comodidade pessoal”. – Por exemplo, reunir 10 certidões-PDF de um cartório, em 1 PDF único, “para uso próprio”. – Passar adiante essa “adulteração”…? Melhor, pensar 2 vezes!
Porém, para modificar o “conteúdo” de algum documento produzido por mim mesmo, era mais prático alterar o DOC / ODT original, e “imprimir” o PDF outra vez. – A coisa mais simples do mundo.
Afora isso, o que resta, para que eu queira – legitimamente – “editar” um PDF?
A única coisa que consigo imaginar, é pegar elementos (extraídos) de algum PDF – produzir um DOC ou ODT claramente “meu” (não, de terceiros!) – e exportá-lo como PDF “meu”, sob meu nome, e minha responsabilidade.
Então, não se trata mais de “editar” um PDF. – Trata-se de “produzir” meu próprio “conteúdo”, na forma de um novo PDF.
Depois que deletei meu Windows, pesquisei (pelo Synaptic), instalei e experimentei várias ferramentas cli
– mas hoje não lembro quais se mostraram úteis, nem para quê. – Eis os nomes dos pacotes “deb” (que podem ser diferentes em rpm
ou outras “famílias” de empacotamento):
Peguei essa lista de uma resposta em outro tópico, onde expliquei mais alguns detalhes.
- A fonte original desses nomes, foram anotações antigas de pacotes que eu costumava instalar no Kubuntu / Mint / Debian / KDE Neon. – Podem estar faltando mais alguns.
Extrair (exportar) texto de qualquer PDF é tarefa espinhosa, pois o PDF “quebra” as linhas “dentro” de cada parágrafo (como se fossem versos dentro de uma estrofe), refletindo as configurações de tamanho das fontes, largura de página, tamanho das margens etc., no documento original.
Por isso, é complicado tentar editar um PDF para “alterar um texto”, remover / adicionar partes do texto, mudar o tamanho da fonte, alterar o tamanho do papel ou a largura das margens – pois a ferramenta precisará ter a capacidade de remover as quebras-de-linha dentro de cada parágrafo – para em seguida “re-formatar” o parágrafo.
Que eu me lembre, só 1 das várias ferramentas cli
conseguiu exportar um texto completo, sem quebras-de-linha dentro de cada parágrafo. – Tenho essa informação anotada, em algum HDD ou SSD desplugado neste momento.
Dias atrás, encontrei um ótimo texto do Jesse Smith sobre o KDE Connect – DistroWatch Weekly, Edição 1028, 17 de julho de 2023. – Selecionei o texto e mandei “imprimir”, em PDF, “Só a seleção”. – Observe que a 7ª linha do 1º parágrafo termina com a palavra “unir”:
Fiz agora um teste: – Abri aquele PDF no Calibre, e mandei “converter para ePub”. – Não deu outra! – Lá estão as linhas quebradas, como se cada uma fosse um parágrafo autônomo:
Abri o ePub no Sigil – e lá está a estrutura HTML do documento – com cada linha (quebrada):
Curiosamente, mais adiante (após 1 imagem ilustrativa), vários parágrafos aparecem “sem quebras-de-linha”, no ePub:
É claro que, neste caso, basta copiar o texto diretamente do Distrowatch e salvar em um TXT – coisa que eu já tinha feito, aliás, desde o primeiro momento – com a data, o autor, e o link, de modo que sempre posso ler, reler, consultar de novo, citar algum trecho etc.
- É claro que não vou publicar como se fosse meu – e principalmente, não vou vender, nem usar para ganhar dinheiro em algum blog.
Quanto às imagens, tudo depende da origem, da data da primeira publicação – e das mudanças de legislação que as grandes corporações forçaram na maioria dos países, nos últimos 40 anos.
Nos EUA, qualquer foto produzida “sob pagamento do governo” é um bem público, e pode ser reproduzida livremente. – No Brasil, inúmeros fotógrafos e autores contratados (e publicados) pelo governo, continuam proprietários dos direitos autorais, ao que parece (não me aprofundei muito nisso).
Mas, no direito “romano” (Brasil, França e outros), trata-se de “direito autoral” – enquanto nos EUA trata-se de “direito de cópia” (copyright). – São 2 coisas bem diferentes.
Até algum tempo atrás, os direitos autorais, no Brasil, cessavam 80 anos após a morte do autor (e acho que isso era um parâmetro internacional, assinado pela maioria dos países). – A obra caía em domínio público, e todo mundo podia lançar edições de bolso, bem mais econômicas. – Isso esclarece as listas de “obras clássicas” de inúmeras editoras.
- Herdeiros podem re-registrar esses direitos autorais – não me pergunte como, nem com quais efeitos.
Fotos (no Brasil) costumavam cair em domínio público 40 anos após a primeira publicação – ou seja, até 1984 (mas a qualidade era péssima). – Se você quiser acesso ao original, com qualidade melhor, provavelmente vai cair na dependência de algum instituto, fundação, ou órgão público, que hoje detém aquele acervo.
“Domínio público” não significa extinção dos “direitos autorais”. – Continua sendo obrigatório respeitar a integridade daquele material, citar o autor etc.
Na maior parte dos casos, isto é o essencial: – Dar o devido crédito ao autor – e não deturpar, como se ele tivesse produzido uma coisa diferente.
E não é só por “respeito ao autor”. – É também por respeito ao leitor / visitante / pesquisador etc. – que tem todo o direito de saber quem foi o autor, qual a data (muitas vezes, o local, o objeto retratado), e desse modo, poder conferir a autenticidade da “informação” (escrita, visual, musical, pictórica etc.).