Estou tendo problemas com o GParted no Debian 12. Estava particionando o disco para migrar meus dados da partição NTFS para a EXT4 e de repente o programa GParted começa a travar no meio de uma operação crítica (mover uma partição EXT4 de tamanho considerável e redimensioná-la). Desperado, tentei de tudo para que o processo voltasse à normalidade, mas o GParted por algum motivo usava 100% de uma das threads do CPU.
Tentei ver o que estava acontecendo e vi que ele estava rodando o comando e2image no dispositivo /dev/sdb para fazer a moção da partição de uma das partições do meu HD externo. Pesquisei no htop como estava o processo de I/O e o programa não reportava qualquer atividade no disco. Rodei o comando lsblk para listar os discos e de repente o HD externo mudou sua identificação no sistema para /dev/sda (!)
De repente, o Debian 12 travou ao tentar gravar um vídeo com minha placa de captura no macOS e tive que reiniciar a máquina. Ao abrir o GParted para ver o estrago, vi que a partição a ser redimensionada está com espaço náo alocado. O programa sugere o uso do comado e2fsck para corrigir o problema do sistema de arquivos EXT4, mas mais uma vez o GParted começa a travar em na etapa de verificação do sistema de arquivos EXT4 e o htop não reporta quaisquer atividades de I/O no disco externo. O disco externo parece nem fazer aquele barulho que ele está girando.
Gravei um vídeo para demostrar o problema (Sem edição pois ainda estou procurando um bom programa de edição de vídeos no macOS, de preferência gratuíto):
Tenho medo de ter que enfrentar perda de dados novamente, pois já passei isso por duas vezes no Linux, uma destruindo o Ubuntu após tentar rodar um script Python e outra de misteriorisamente quase todo o conteúdo de uma pasta do HD externo formatado em NTFS sumir e não conseguir recuperar os dados posteriormente.
Estou começando a ficar cabreiro com este negócio de perda de dados e backup, domingo fiquei o dia inteiro fazendo o backup do sistema do notebook onde o Debian está instalado (16 horas para copiar o disco de 4TB). Quero reduzir ao máximo ficar gastando tempo resolvendo problemas de computador, semana passada deu ruim na minha saúde mental por conta disso. Quero gastar mais temo fazendo coisas produtivas no computador.
Olá @Deutriex, tudo bem contigo?
Eu entendo que a gente muitas vezes precisa trabalhar com o recurso que a gente tem, mas nesse seu relato me parece que você está assumindo riscos grandes demais em ações perigosas por si só.
Eu já observei esse comportamento de dizer que “não está respondendo” em diversos programas no Linux, isso geralmente ocorre quando ele está processando algo em segundo plano e a interface fica “morta”. O meu conselho nestes casos é realmente esperar e ver o processo está andando de alguma forma.
Existe uma chance do disco ter sido desligado no meio do processo por conta do gerenciamento de energia das portas USB, se não me engano, já tivemos problemas assim relatados por aqui. Se o disco está em processo de leitura e escrita, em tese isso não deveria ocorrer.
Minha sugestão é que você nunca faça ações complexas como redimensionar e realocar partições ao mesmo tempo, quanto maior a quantidade de dados, maior a chance de algo no meio do processo dar errado.
Se possível, quebre essa atividade em outras menores e vá movendo os dados em lotes. Assim, você consegue ter mais controle sobre o processo e reduz a chance de perder dados. Tenha em mente que discos externos ficam limitados por diversos fatores como: velocidade da porta USB, velocidade do disco e tipo de conexão da unidade externa.
Realocar terabytes de dados em um cenário assim, pode facilmente levar algumas dezenas de horas.
3 curtidas
Eu ainda acho que o fato do disco estar sendo requisitado ao máximo no processo de escrita e leitura fez com que, em algum momento, houvesse uma proteção de curto-circuito no USB, causando o desligamento do disco. Alguns segundos depois o hardware volta a alimentar o dispositivo e ele volta a funcionar. Porém, claro, contudo, já melou a operação que estava acontecendo. Esse é um cenário possível se a porta USB é versão 2.0, mas não parece ser o caso porque se foram copiados 4 TB em 16 horas, a velocidade média foi 72 MB/s, compatível com velocidades máximas de HD mecânico.
Outra coisa que pode acontecer nos HDD usb, é que a qualidade deles é ruim quando estão ficando quase lotados, causando por vezes travamentos pois o firmware precisa realocar dados para conseguir gravar. Ver diferenças entre HDD PMR (alta qualidade/profissional) e SMR (baixo custo/doméstivo.
Um terceiro ponto que é minha preferência, eu evito de usar disco NTFS em gravação pois não é nativo do sistema. Se for necessário, melhor usar as ferramentas do Windows para copiar os arquivos.
2 curtidas
Testei em uma distro diferente, o Rescuezilla, desta vez fora do case USB, conectando o HD diretamente na placa mãe, mas desta vez o Gparted travou e dá um glitch bizarro. Vou ver até amanhã e se continuar assim vou tentar recuperar os dados e colocar em outros discos.
Esse caso tá mais parecido com degradação do disco, provavelmente bad blocks. Use o comando sudo smartctl -a /dev/sdb
e mostre pra gente a tabela de informações, ou analise pra ver se tem erros não corrigíveis.
1 curtida
Eis a saída do comando especificado:
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-67-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: HGST Ultrastar He6
Device Model: HGST HUS726060ALA640
Serial Number: AR11001EV17NGB
LU WWN Device Id: 5 000cca 231c09120
Firmware Version: AHGNT1E2
User Capacity: 6.001.175.126.016 bytes [6,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Mon Aug 7 13:08:56 2023 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 57) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 889) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 131 131 054 Pre-fail Offline - 87
3 Spin_Up_Time 0x0007 200 200 024 Pre-fail Always - 500 (Average 497)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 3593
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 1
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 130 130 020 Pre-fail Offline - 12
9 Power_On_Hours 0x0012 092 092 000 Old_age Always - 58874
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 338
22 Helium_Level 0x0023 100 100 025 Pre-fail Always - 6579300
192 Power-Off_Retract_Count 0x0032 090 090 000 Old_age Always - 12751
193 Load_Cycle_Count 0x0012 090 090 000 Old_age Always - 12751
194 Temperature_Celsius 0x0002 166 166 000 Old_age Always - 36 (Min/Max 15/57)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 1 occurred at disk power-on lifetime: 58365 hours (2431 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 63 94 5c ca 40 Error: ICRC, ABRT 99 sectors at LBA = 0x00ca5c94 = 13261972
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 03 00 f8 54 ca 40 00 4d+10:27:16.218 WRITE DMA EXT
25 03 18 a8 96 f8 40 00 4d+10:27:16.175 READ DMA EXT
35 03 30 68 38 5f 40 00 4d+10:27:16.173 WRITE DMA EXT
25 03 80 f8 96 f2 40 00 4d+10:27:16.139 READ DMA EXT
35 03 00 68 30 5f 40 00 4d+10:27:16.135 WRITE DMA EXT
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Neste PC em específico também tenho o Windows e o CrystalDiskInfo reporta alerta no disco com 1 setor realocado.
Indica que houve um setor realocado há mais de 21 dias atrás (caso vc deixe o computador ligado o dia inteiro). Então não deve ter relação com os seus travamentos recentes.
De qualquer forma, também o disco está bem velhinho. É estimado um tempo de vida com confiabilidade para os discos rígidos de 5 anos. Só de tempo ligado já tem mais de 6 anos o seu disco, sem contar que ele é 7200 rpm.
As partes móveis já devem estar bem desgastadas. Pode ser que o travamento esteja ligado ao aquecimento do disco, uma vez que com as folgas pode ser que aumente o atrito de funcionamento, então acaba esquentando ainda mais o disco. Fique atento se ele funcionar bem nos primeiros minutos mas começar a apresentar problemas depois de um tempo funcionando. Eu já tive um disco que parava de funcionar logo depois de ligar. Só consegui copiar os arquivos esfriando ele numa caixa térmica.
1 curtida
Sim, o HD foi fabricado em novembro de 2013. Entretanto estou em forte contenção de gastos e só gostaria de comprar outro HD se fosse estritamente necessário. Comprei ele já usado em um grande site de e-commerce há alguns anos.
Infelizmente tive nova perda de dados. Copiei os arquivos da partição com problemas para outro lugar e quando terminei de ver vi que boa parte dos arquivos de mídia estão corrompidos, embora outros ainda estão intactos. Como estes dados não eram tão importantes não resta outra alternativa além de aceitar a perda. A boa notícia é que se livrei do NTFS no Linux e todos meus HDs externos estão formatados em EXT4 agora.
Mas de qualquer forma estou tomando precauções maiores e estou desenvolvendo uma distro Linux baseado em Debian para me auxiliar no processo de fazer backup semanal de todos os dados da minha máquina no final de semana. Estou com problemas com a distro, mas isso é assunto para outro tópico.
1 curtida
Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.