Minha partição Linux "morreu", o que pode ter acontecido?

No momento estou usando Windows, mas pretendo instalar uma distribuição Linux assim que eu comprar um SSD mês que vem.

No dia 24 de junho, ocorreram alguns problemas no meu sistema operacional openSUSE Tumbleweed: não consegui mais acessar meu banco de dados PostgreSQL, aparentemente havia algumas pequenas corrupções nos torrents que eu baixava e a cópia de arquivos no Dolphin estava dando error 5. Quando pus o sistema para reiniciar, não consegui mais acessar meu usuário; o sistema operacional meio que carregava, mas o sistema gráfico não subia e eu não consegui acessar minha conta de usuário (acho que cheguei na parte que pede login e senha – modo texto, até porque o servidor gráfico não subiu –, mas não gravei qual era a mensagem de erro :slightly_frowning_face:, se é que o sistema mostrou alguma).

Não sei se isso tem alguma relevância, mas eu tinha instalado o openSUSE em partições ext4 porque essa era o sistema que eu havia usado nas minhas instalações Linux anteriores.

No mesmo HDD, tinha uma instalação do Windows 10 que funcionava normalmente; assim pude criar uma pendrive bootável contendo o Kubuntu que usei para recuperar alguns arquivos da partição /home dos quais eu não tinha feito backup ainda (estou sempre fazendo backup, mas esse evento me pegou de surpresa, tinha coisa que eu não havia salvo ainda). No fim decidi formatar esse mesmo HDD por completo e deixei apenas o Windows 10. Meu uso está normal, baixo meus conteúdos sem qualquer corrupção, bancos de dados funcionam sem problemas e copio e colo arquivos sem qualquer dor de cabeça. Em resumo, está tudo bem.

Rodei o comando de diagnóstico de disco rígido do Windows e nenhum problema foi encontrado. Até mesmo o programa CrystalDiskInfo não acusou nada de grave, apesar de apontar Health Status como Caution, temperatura a 36ºC e as seguintes observações:

Attribute name Current Worst Threshold Raw Values
Reallocated Sectors Count 100 100 50 000000002648
Uncorrectable Sector Count 100 100 0 000000000013

Será que é meu HDD que esteja morrendo? Não há evidências concretas que apontem pra isso (softwares de diagnóstico não mostram nenhum problema real e continuo usando o HDD normalmente). Independente de quem seja o culpado (HDD com problemas ou configuração não ideal para o openSUSE), instalarei um SSD no meu notebook de qualquer jeito, minha dúvida é se continuarei com o openSUSE Tumbleweed ou não.

E então, vocês têm alguma hipótese do que pode ter acontecido? Um sistema operacional não “morre” assim do nada.

Eu acho que esse disco não está bom. Do que eu pude entender desses dados que você colocou, há 100 setores realocados, quando o limite é 50, e 100 setores “incorrigíveis” quando o limite é 0.

4 curtidas

Antes de formatar, você não tentou fazer boot em alguma live e rodar sudo fsck -y caminho_da_partição primeiro pra tentar corrigir o sistema de arquivos? Eu tenho um SSD que já está morrendo e eu sempre tinha que fazer isso quando usava ext4 pra conseguir bootar o Linux instalado novamente. Hoje uso o xfs que aparentemente é mais robusto, tive que corrigir o sistema de arquivos duas ou três vezes enquanto que com o ext4 era uma atividade semanal

pelo menos com base nesses 2 atributos, seu disco está ok. Pessoal frequentemente não sabe ler os dados SMART, vamos dar uma esclarecida.

Current

Esse é o valor atual, é um valor instantâneo do momento. Usando temperatura como um marcador seria a temperatura nesse exato momento. É importante saber que esse valor muitas vezes é normalizado (transformado em algo que caiba entre 0 e 100, ou 0 e 1, etc).

worst

Esse é o pior valor em que seu dispositivo já chegou em algum momento, seria a pior temperatura máxima digamos que o seu disco esteve em algum momento da vida dele, se ele já chegou em algum momento em 42 graus, seria esse valor. É importante saber que esse valor muitas vezes é normalizado (transformado em algo que caiba entre 0 e 100, ou 0 e 1, etc)

threshold

Esse é o pior valor possível se chegar neste valor ou passar deste valor a fabricante considera que seu disco falhou. É importante saber que esse valor muitas vezes é normalizado (transformado em algo que caiba entre 0 e 100, ou 0 e 1, etc).

raw value

Esse de fato é o valor real, no caso, não normalizado, no seu caso você tem 13 setores incorrigíveis e 2648 realocados.


O valor emcurrent no seu caso, é o valor normalizado, Ou seja, seu disco estaria morrendo se o valor current em um desses 2 fosse igual ou menor que o threshold.

Só te aconselharia a colocar aqui o print de algum app, tipo os dados smart no gnome-disks ou algo assim, de todos os atributos. Alguns apps tem a coluna When_Failed que ajuda a não cometer erros de leitura. Outra questão importante é, fique observando, seu disco pode estar no início de uma falha catastrófica e esses valores podem evoluir, mas pelo menos, com base nesses 2 atributos, ainda é considerado OK.

Exemplo de um HD OK:

4 curtidas

Eu não conhecia esse comando. Tentarei me lembrar dele na próxima vez se um problema desses ocorrer comigo de novo.


Seu SSD tem quantos anos? Queria saber da longevidade de um SSD porque vou comprar um de 960GB. Eu gostaria que ele tivesse a durabilidade do HD do meu notebook antigo que já tem mais de 10 anos…

Eu adoraria que meu SSD durasse uma década se não for pedir demais, ou pelo menos 5 anos na pior das hipósteses.


Hmm, pergunta de um “noob”: por que você não usa Btrfs? Pergunto isso porque esse sistema de arquivos parece ser o mais popular hoje em dia no que diz respeito aos “substitutos”(?) do Ext4. Estou em dúvida entre o Fedora e o OpenSUSE e, se não me engano, ambas as distribuições sugerem o Btrfs.




Valeu pela aula!


É isso que posso mostrar no momento:

Pelo visto alguma coisa deu errado em algum momento e esse HDD perdeu alguns setores como já sabemos, a questão é, ainda a sua fabricante não considera que seu HD falhou, ele está OK, mas realmente é uma boa ficar de olho, você de fato perdeu alguns setores por algum motivo, seja falta repentina de energia, queda física, etc.

O meu conselho é, não escreva muito mais nesse HDD até poder migrar os dados para outro dispositivo, quando puder migre os dados e dai faça uma bateria de testes formatando e usando algo que escreva em todos os setores.

Se isso não for possível, siga observando toda semana, e se os números começarem a subir nesses 2 atributos no valor raw, se prepare para perder o HDD.

Outra questão, não cometa o erro de achar que BTRFS vai te salvar neste caso, tenha backup. BTRFS como proteção de dados, no geral, é inútil fora de um setup RAID corretamente configurado para redundância, e independente disso, não substitui o backup.


Quanto a duração de um SSD, se eu puder contribuir, diria para você ficar tranquilo:


esse SSD começous com wear-leveling em 100 e eu ainda nem cheguei em 50 que seria metade. Ele tem mais de 4 anos, isso é apenas o tempo em que ficou ligado.

3 curtidas

De uma forma ou de outra, trocarei o HDD pelo SSD mês que vem, não farei nenhuma formatação no notebook até lá. Perguntei sobre o Btrfs porque cogitei em usá-lo como sistema de arquivos no meu futuro SSD, mas andei lendo e parece que há umas incompatibilidades do Btrfs com máquinas virtuais do VirtualBox e com bancos de dados PostgreSQL (duas coisas que uso); parece que há meios de contornar esses problemas, mas acho que vou de ext4 mesmo, pelo menos na partição /home.

Toda a vida usei ext4, mas também sigo o mesmo esquema de particionamento há mais de 10 anos, até mesmo partição swap eu crio…

Estou na dúvida entre o Kubuntu, openSUSE Tumbleweed e Fedora Workstation (para esses dois últimos, o Btrfs é o sistema de arquivos sugerido).

O que você pessoalmente acha da configuração de pôr a partição raiz / como Btrfs e a partição /home como ext4?

Eu usei BTRFS por muitos anos, não é um sistema de arquivos ruim, mas se você não planeja usar os diferenciais, como por exemplo RAID + checksum (sim, os 2 juntos), snapshots, etc, daria preferência ao EXT4 que tem mais anos nas costas.

1 curtida

Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.