Programa ou funçãono Linux que localiza arquivos em duplicidade?

Pirapora · Outubro 22, 2021, 1:34am

Conhecem algum?

Em uma coleção muito grande de arquivos, possa ser que exista o mesmo arquivo com nome diferente. Gostaria de evitar isso. Sei que tem como fazer o checksum de cada um, mas fazer isso e comparar manualmente não é nada produtivo.

Capezotte · Outubro 22, 2021, 1:59am

A comparação pode ser automatizada por terminal:

sha256sum * | sort | uniq -D -w 64

sha256sum * vai exibir, por linha, o checksum (sha256) de cada arquivo na pasta, no formato CHECKSUM ARQUIVO.

Por um encanamento para o sort, as linhas vão ser reordenadas em ordem alfabética, colocando arquivos com checksums iguais em sequência (o que é importante para etapa seguinte).

O uniq suprime (por padrão) ou exibe apenas (com a opção -D) linhas consecutivas iguais.

Como só queremos que a comparação seja realizada apenas apenas com checksum, pode-se passar -w 64 para ele considerar apenas os 64 primeiros caracteres (ou seja, o checksum) ao dizer se são linhas iguais ou não.

No fim, os arquivos duplicados serão exibidos, no formato CHECKSUM ARQUIVO. Se forem poucos, dá para realizar o trabalho manualmente, se não, mais um pouco de processamento pode automatizar essa parte também.