Formatação de textos, como resolver o problema do Ctrl c Ctrl v?

Boa tarde senhores, seguinte:

Trabalho com diagramação de textos diversos usando a ferramenta LaTex para tal diagramação. Ocorre que por vezes, quando obtenho um texto via “ctrl c ctrl v” ele fica ocupando somente metade da tela. Daí tenho que pegar linha por linha e sair deletando no final de cada linha para que a linha inferior “suba” e ocupe a posição correta do espaço. Óbvio que por vezes isso é terrível, por exemplo, nesse exato momento estou com um texto que tem 8 mil linhas…

Há algum meio de por exemplo: Selecionar o texto todo e aplicar algo que o deixe ocupando todo o corpo de edição?

Como fica…

Como é pra ser…

3 curtidas

Olha, é um problemão isso, ainda não encontrei solução. O problema está que “escondido” no texto a copiar estão quebras de linha (na maioria que vi, em HTML, mas ocorre igualmente em PDFs aleatórios). E não achei como solucionar isso… mas o LaTeX não tem alguma opção de colar sem formatação, como Word, Writer etc.?

Acompanhando aqui pra ver se aprendo mais algo…

1 curtida

É terrível… No meu caso isso corre muito quando o material vem de PDF. Até já andaram me dizendo que formatasse o texto inicialmente no Nano ou no Vim, mas era um malabarismo tão grande, mas tão grande, que tenho a impressão de que se eu deletar uma a uma das linhas do texto defeituoso, ainda sairia mais rápido… rs…

2 curtidas

Isso não é bem um problema do LaTeX ou do editor de texto, mas do material fonte (provavelmente é um PDF).

Não há uma solução fácil além desse trabalho de formiguinha limpando as linhas, ou usar procurar e substituir/ferramentas de manipulação de texto. Se estiver disposto, eu tenho um script para a a ferramenta de terminal sed que faz isso de modo “satisfatório” para mim (apesar de ainda precisar de intervenção manual com cabeçalhos).

2 curtidas

Não Não… Você tem razão. Não é um problema do LaTeX não. Já sobre o script, rapaz… infelizmente tenho uma enorme certeza de que não saberei usar…

:sweat:

Não é tão difícil, enviei ele aqui: https://pastebin.com/raw/Pvb907gE

Botão direito → Salvar link como → Bote qualquer nome (ex: condensa.sed) e marque como executável (igual a um arquivo baixado).

Se estiver no Vim, pode usar ele direto de lá, com o comando: %!/home/joao/Downloads/condensa.sed

Se não, pode fazer o seguinte (use aspas, para os espaços não serem interpretados como uma sequência arquivos em vez de, bem, um arquivo com espaços no nome):

/home/joao/Downloads/condensa.sed 'Documentos/original' > 'Documentos/condensado'

Um aviso é que, dessa maneiras, ele não pergunta antes de sobrescrever arquivos.

2 curtidas

Cópia de arquivo pdf?

Se for , o problema está no aplicativo de leitura do pdf.

A solução é bem simples.

Use o pdf do firefox, ele copiará sem quebra de linha

Se quiser abrir na base de largura da página

about:config

procure por:

pdfjs.defaultZoomValue

e definie para page-width

Já o chromium, copia a formatação com base na escrita

3 curtidas

Bom, eu uso o Vim, daí é fácil pq a gente pode usar comandos de linha de comando para formatar o texto. Mas vou tentar montar um outro comando:
Aqui, vou imaginar que tu copiou o colou o texto em um documento .txt sem formatação, OK?

$ sed 's/^\s*[A-Z]/\n&/' [ARQUIVO].txt | fmt -w 600

O que ocorre aqui?
O sed vai incluir uma linha em branco antes de todas as linhas em que começarem com uma letra Capital. O \s* é para se certificar que pode ou não haver espaços em branco antre o começo de uma linha e a primeira letra Capital.
Depois, usamos a feramento fmt para formatar as linhas. Ele só não vai deixar tudo na mesma linha quando houver uma linha em branco para separar um parágrafo do outro… A opção -w 600 diz para o fmt dobrar as linhas a cada 600 caráters.

No vim, eu seleciono o texto inteiro que quero formatar e rodo

:!fmt -w 600

Infelizmente, se houver letras maiúsculas de um nome próprio, etc, ele vai entender que é necessário quebrar alí, então não é um método 100 garantido…

Se for de uma página na internet, acho que vale a pena tu usar um browser em cli para fazer o download da página e trabalhar com o texto dele.

$ w3m -dump -T text/html -cols 600 [URL]
1 curtida

Bem, quase deu certo. Ocorre que por algum motivo, o texto que tem 192 páginas, só copia umas 5…

tenta usar o pdftotext

Tente parâmetros -layout ou -raw

Eu não me lembro agora, mas pode ver o manual ou ajuda do pacote

exemplo

pdftotext -layout entrada.pdf saída.txt
oui
pdftotext -raw entrada.pdf saída.txt

veja o texto depois para ver se está ok.

o arquivo pertence ao pacote

https://archlinux.org/packages/extra/x86_64/poppler/

Ou tente com pdf do chrome ou chromium

1 curtida

um outro caminho

é instalar o pdf2djvu e o djvulibre

pdf2djvu boot-silencioso.pdf > teste.djvu
djvutxt teste.djvu saída.txt

1 curtida

Infelizmente, nada feito.
A dica funcionou em si, ou seja, o pdf2djvu e o djvulibre funcionaram no sentido de criar o arquivo djvu e o arquivo txt, mas ainda assim, permanecem com o problema da formatação do texto inadequada quando o levo para o editor do LaTeX seja ele no TeXStudio ou no Sublime Text.


Documento TXT


Documento djvu (copiado para o Sublime)

:frowning_face:

Valha, eu já estava aplicando a linha… rs…

ok…
acho que encontrei…já tinha feito um teste , mas não sei como fica para copiar para tex

use o calibre

pacman -S calibre

e converta para txt ou docx

ele salvará em ~/Biblioteca do calibre

Pode tentar para ebook e copiar…

Só testando para ver

Deu certo…

Não ficou assim um primor, mas deu certo mesmo assim. Bem melhor que eu sair deletando 8 mil linhas de texto uma por uma… rs…

Olha só:

Explicação: O texto acima veio do Calibre no formato TXT após conversão de PDF para TXT.

E vai facilitar demais a minha vida, porque esse tipo de formatação “inadequada” me era disparado o maior entrave, uma enorme perca de tempo para primeiro deixar o texto “correto” no editor LaTeX para só depois formatar/diagramar o texto. Era um tempo gigantesco… Valeu demais e mais uma vez muito obrigado pela atenção.

4 curtidas

Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.