GParted travando constantemente no Debian 12 - receio de nova perda de dados

Deutriex · Agosto 3, 2023, 9:28am

Estou tendo problemas com o GParted no Debian 12. Estava particionando o disco para migrar meus dados da partição NTFS para a EXT4 e de repente o programa GParted começa a travar no meio de uma operação crítica (mover uma partição EXT4 de tamanho considerável e redimensioná-la). Desperado, tentei de tudo para que o processo voltasse à normalidade, mas o GParted por algum motivo usava 100% de uma das threads do CPU.

Tentei ver o que estava acontecendo e vi que ele estava rodando o comando e2image no dispositivo /dev/sdb para fazer a moção da partição de uma das partições do meu HD externo. Pesquisei no htop como estava o processo de I/O e o programa não reportava qualquer atividade no disco. Rodei o comando lsblk para listar os discos e de repente o HD externo mudou sua identificação no sistema para /dev/sda (!)

De repente, o Debian 12 travou ao tentar gravar um vídeo com minha placa de captura no macOS e tive que reiniciar a máquina. Ao abrir o GParted para ver o estrago, vi que a partição a ser redimensionada está com espaço náo alocado. O programa sugere o uso do comado e2fsck para corrigir o problema do sistema de arquivos EXT4, mas mais uma vez o GParted começa a travar em na etapa de verificação do sistema de arquivos EXT4 e o htop não reporta quaisquer atividades de I/O no disco externo. O disco externo parece nem fazer aquele barulho que ele está girando.

Gravei um vídeo para demostrar o problema (Sem edição pois ainda estou procurando um bom programa de edição de vídeos no macOS, de preferência gratuíto):

Tenho medo de ter que enfrentar perda de dados novamente, pois já passei isso por duas vezes no Linux, uma destruindo o Ubuntu após tentar rodar um script Python e outra de misteriorisamente quase todo o conteúdo de uma pasta do HD externo formatado em NTFS sumir e não conseguir recuperar os dados posteriormente.

Estou começando a ficar cabreiro com este negócio de perda de dados e backup, domingo fiquei o dia inteiro fazendo o backup do sistema do notebook onde o Debian está instalado (16 horas para copiar o disco de 4TB). Quero reduzir ao máximo ficar gastando tempo resolvendo problemas de computador, semana passada deu ruim na minha saúde mental por conta disso. Quero gastar mais temo fazendo coisas produtivas no computador.

eddiecsilva · Agosto 3, 2023, 11:03am

Olá @Deutriex, tudo bem contigo?

Eu entendo que a gente muitas vezes precisa trabalhar com o recurso que a gente tem, mas nesse seu relato me parece que você está assumindo riscos grandes demais em ações perigosas por si só.

Eu já observei esse comportamento de dizer que “não está respondendo” em diversos programas no Linux, isso geralmente ocorre quando ele está processando algo em segundo plano e a interface fica “morta”. O meu conselho nestes casos é realmente esperar e ver o processo está andando de alguma forma.

Existe uma chance do disco ter sido desligado no meio do processo por conta do gerenciamento de energia das portas USB, se não me engano, já tivemos problemas assim relatados por aqui. Se o disco está em processo de leitura e escrita, em tese isso não deveria ocorrer.

Minha sugestão é que você nunca faça ações complexas como redimensionar e realocar partições ao mesmo tempo, quanto maior a quantidade de dados, maior a chance de algo no meio do processo dar errado.

Se possível, quebre essa atividade em outras menores e vá movendo os dados em lotes. Assim, você consegue ter mais controle sobre o processo e reduz a chance de perder dados. Tenha em mente que discos externos ficam limitados por diversos fatores como: velocidade da porta USB, velocidade do disco e tipo de conexão da unidade externa.

Realocar terabytes de dados em um cenário assim, pode facilmente levar algumas dezenas de horas.

Deleterium · Agosto 3, 2023, 2:13pm

Eu ainda acho que o fato do disco estar sendo requisitado ao máximo no processo de escrita e leitura fez com que, em algum momento, houvesse uma proteção de curto-circuito no USB, causando o desligamento do disco. Alguns segundos depois o hardware volta a alimentar o dispositivo e ele volta a funcionar. Porém, claro, contudo, já melou a operação que estava acontecendo. Esse é um cenário possível se a porta USB é versão 2.0, mas não parece ser o caso porque se foram copiados 4 TB em 16 horas, a velocidade média foi 72 MB/s, compatível com velocidades máximas de HD mecânico.

Outra coisa que pode acontecer nos HDD usb, é que a qualidade deles é ruim quando estão ficando quase lotados, causando por vezes travamentos pois o firmware precisa realocar dados para conseguir gravar. Ver diferenças entre HDD PMR (alta qualidade/profissional) e SMR (baixo custo/doméstivo.

Um terceiro ponto que é minha preferência, eu evito de usar disco NTFS em gravação pois não é nativo do sistema. Se for necessário, melhor usar as ferramentas do Windows para copiar os arquivos.

Deutriex · Agosto 6, 2023, 5:53am

Testei em uma distro diferente, o Rescuezilla, desta vez fora do case USB, conectando o HD diretamente na placa mãe, mas desta vez o Gparted travou e dá um glitch bizarro. Vou ver até amanhã e se continuar assim vou tentar recuperar os dados e colocar em outros discos.

Deleterium · Agosto 6, 2023, 2:08pm

Esse caso tá mais parecido com degradação do disco, provavelmente bad blocks. Use o comando sudo smartctl -a /dev/sdb e mostre pra gente a tabela de informações, ou analise pra ver se tem erros não corrigíveis.

Deutriex · Agosto 7, 2023, 4:14pm

Eis a saída do comando especificado:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-67-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     HGST Ultrastar He6
Device Model:     HGST HUS726060ALA640
Serial Number:    AR11001EV17NGB
LU WWN Device Id: 5 000cca 231c09120
Firmware Version: AHGNT1E2
User Capacity:    6.001.175.126.016 bytes [6,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Aug  7 13:08:56 2023 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(   57) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 889) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   131   131   054    Pre-fail  Offline      -       87
  3 Spin_Up_Time            0x0007   200   200   024    Pre-fail  Always       -       500 (Average 497)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3593
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   130   130   020    Pre-fail  Offline      -       12
  9 Power_On_Hours          0x0012   092   092   000    Old_age   Always       -       58874
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       338
 22 Helium_Level            0x0023   100   100   025    Pre-fail  Always       -       6579300
192 Power-Off_Retract_Count 0x0032   090   090   000    Old_age   Always       -       12751
193 Load_Cycle_Count        0x0012   090   090   000    Old_age   Always       -       12751
194 Temperature_Celsius     0x0002   166   166   000    Old_age   Always       -       36 (Min/Max 15/57)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 1
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 58365 hours (2431 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 63 94 5c ca 40  Error: ICRC, ABRT 99 sectors at LBA = 0x00ca5c94 = 13261972

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 03 00 f8 54 ca 40 00   4d+10:27:16.218  WRITE DMA EXT
  25 03 18 a8 96 f8 40 00   4d+10:27:16.175  READ DMA EXT
  35 03 30 68 38 5f 40 00   4d+10:27:16.173  WRITE DMA EXT
  25 03 80 f8 96 f2 40 00   4d+10:27:16.139  READ DMA EXT
  35 03 00 68 30 5f 40 00   4d+10:27:16.135  WRITE DMA EXT

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Neste PC em específico também tenho o Windows e o CrystalDiskInfo reporta alerta no disco com 1 setor realocado.

Deleterium · Agosto 8, 2023, 2:36am

Indica que houve um setor realocado há mais de 21 dias atrás (caso vc deixe o computador ligado o dia inteiro). Então não deve ter relação com os seus travamentos recentes.

De qualquer forma, também o disco está bem velhinho. É estimado um tempo de vida com confiabilidade para os discos rígidos de 5 anos. Só de tempo ligado já tem mais de 6 anos o seu disco, sem contar que ele é 7200 rpm.

As partes móveis já devem estar bem desgastadas. Pode ser que o travamento esteja ligado ao aquecimento do disco, uma vez que com as folgas pode ser que aumente o atrito de funcionamento, então acaba esquentando ainda mais o disco. Fique atento se ele funcionar bem nos primeiros minutos mas começar a apresentar problemas depois de um tempo funcionando. Eu já tive um disco que parava de funcionar logo depois de ligar. Só consegui copiar os arquivos esfriando ele numa caixa térmica.

Deutriex · Agosto 9, 2023, 10:35pm

Sim, o HD foi fabricado em novembro de 2013. Entretanto estou em forte contenção de gastos e só gostaria de comprar outro HD se fosse estritamente necessário. Comprei ele já usado em um grande site de e-commerce há alguns anos.

Infelizmente tive nova perda de dados. Copiei os arquivos da partição com problemas para outro lugar e quando terminei de ver vi que boa parte dos arquivos de mídia estão corrompidos, embora outros ainda estão intactos. Como estes dados não eram tão importantes não resta outra alternativa além de aceitar a perda. A boa notícia é que se livrei do NTFS no Linux e todos meus HDs externos estão formatados em EXT4 agora.

Mas de qualquer forma estou tomando precauções maiores e estou desenvolvendo uma distro Linux baseado em Debian para me auxiliar no processo de fazer backup semanal de todos os dados da minha máquina no final de semana. Estou com problemas com a distro, mas isso é assunto para outro tópico.

thespation · Agosto 12, 2023, 10:36pm

Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.