[Ajuda] Meu PC está com comportamentos estranhos, desde reinício súbito até desconexão do armazenamento

Boas!

Pessoal, estou com um comportamento muito estranho no meu PC. De uns tempos pra cá, aleatoriamente ele reinicia de forma súbita (como se tivesse pressionado o botão reset do gabinete), ou mesmo ele simplesmente “desconecta” o SSD interno, causando CPU indo a 100% e erros de I/O por todo o sistema.

Ele começou com esse comportamento há mais ou menos uns 9 meses, e não fiz nenhuma alteração “grande” nele (não troquei de distro - nem mesmo formatei, nem troquei nenhum componente de hardware). No início, fazia isso uma ou duas vezes por semana, no máximo. Eu desmontava, fazia uma limpeza geral nos componentes, e o problema parecia sanado.

Porém, de mais ou menos um mês pra cá, está bem impossível. Eu percebi que ele geralmente faz isso quando entra em algum workload muito alto. Como trabalho com desenvolvimento .NET, principalmente quando eu abro o JetBrains Rider - durante a inicialização, ele joga tudo a 100%, desde disco e CPU até GPU. Tem vezes que ele faz isso 4, 5 vezes no dia (ou até mais), assim como tem vezes que eu passo dois ou três dias com ele ligado direto e não acontece nada… ATÉ eu abrir o JetBrains Rider, e PAH, dá algum problema desses.

Curiosamente, se eu faço testes de benchmark (CPU com CPU-X, GPU com FurMark), ele não apresenta nenhum problema. Já cheguei a deixar 2h ele rodando os testes em paralelo, e nada. Também já rodei o Memtest e não deu nenhum problema. O SSD não cheguei a fazer um teste “real”, no máximo coloquei ele no meu laptop (que é mais fraco) e fiz as mesmas coisas, e nele não apresentou nenhum problema.

Minha dúvida é se alguém já experienciou algo parecido. Não necessariamente com o Rider, mas algum tipo de comportamento “anormal” quando o PC entra em um workload muito alto. E também se eu consigo fazer algum tipo de diagnóstico para saber onde realmente está o problema: se é a fonte que não está aguentando entregar energia suficiente, se é algum componente (memória, SSD, GPU, placa mãe) apresentando falha intermitente, se é algum bug do sistema que uma formatada resolveria…

Já cheguei a testar alterações de software, como trocar a versão dos drivers da GPU, testar outro kernel, limpar a BIOS (via interface e retirando a pilha do CMOS). Também, como dito, fiz testes de stress na CPU, na GPU, teste de integridade nas memórias e “teste de padaria” no SSD, colocando ele no meu laptop (que tem um hardware mais fraco, porém a GPU também é Nvidia e o processador é Intel) da forma como estava (sistema, sofwares, arquivos etc), e rodou tranquilamente.

Se vale de alguma coisa, essas são as specs do meu PC:

Placa mãe: Biostar B550M-H
CPU: AMD Ryzen 5 3600X
Memória: 2x 32GB DDR4 Corsair
SSD: Kingston NV1 1TB M.2
GPU: Asus Nvidia GTX 1660 Super OC 6GB c/ driver nvidia-driver-580-open
SO: Linux Mint 22.2 Cinnamon c/ Kernel 6.8.0-86-generic

Obrigado desde já!

1 curtida

Começando pela base é ver se aparece erro no log do sistema. Sei que muitas vezes que acontece reinício ou travamento não chega a registrar, mas pode ser que apareça algo estranho antes disso. Eu tentaria manter uma janela do terminal aberta com sudo journalctl -f enquanto realizo a operação que pode causar o reinício e veria se aparece algo estranho.

Valeu pela dica!

Testei aqui, e não apareceu nada no log. Tentei 4 vezes, uma olhando pra janela do terminal, e as outras 3 fazendo o output pra um arquivo ( sudo journalctl -f > log.txt ), na primeira vez o arquivo só tinha os logs normais do sistema, e nas outras duas o arquivo simplesmente estava vazio.

Como eu sei que só de abrir o Rider tem, sei lá 90% de chances de acontecer, eu consegui fazer o problema acontecer nas quatro vezes que testei. Infelizmente o log não ajudou em nada.

Alguma outra ideia? rs

Me cheira forte a problema de hardware. Acho que a única forma de saber 100% é na tentativa e erro, ir diagnosticando as peças. Pode ser falha na entrega de energia. Como você mencionou que num workload pesado ele começa a apresentar problemas, eu chutaria que talvez a fonte não esteja entregando energia suficiente de pico ou a placa mãe esteja com algum problema nos VRMs, algo desse tipo. Eu já vi máquinas apresentando problemas na porta SATA, desplugando USB, reboot aleatório e todo tipo de coisa bizarra só por causa da fonte. Tenta tirar da máquina tudo que puxa energia e deixar só o essencial pra bootar. Se tiver overclock ou XMP ativo tenta jogar tudo pros defaults pra ver se tem alguma diferença. Se possível, tenta com outra fonte pra ver o que acontece.

Tenta usar o lm-sensors pra monitorar por cima as tensões da placa, ele mostra mais ou menos quanto tá a linha de 5V, 12V, etc. Dá pra monitorar pela BIOS, mas acredito que em idle as tensões devem ser estáveis.

Outra coisa que tu pode tentar também é iniciar a máquina com uma memória só e testar, depois testar com a outra, pra descartar eventuais problemas nelas. Geralmente o que dá mais problema é memória e fonte mesmo, são as partes mais sensíveis ao tempo.

Pois é, eu também to com suspeita de hardware… Mas infelizmente não tenho um hardware secundário aqui pra testar peça por peça :cry: … Se eu conseguisse uma pista do que pode ser, compraria o componente relacionado (moba, gpu, memória, fonte etc), mas não queria gastar dinheiro sem ter pelo menos uma pista de qual componente tá chorando kk…

Vou tentar essa do lm-sensors pra ver se dá algum indício… Às vezes pode não ser exatamente a fonte, mas o lm-sensors pode mostrar qual linha tá puxando mais e, com isso, me dar uma pista de qual componente tá jogando a toalha.

Também vou tentar essa de desconectar as coisas. Até que não tem muitas coisas conectadas (só um switch KVM com mouse, teclado, webcam e um dongle wifi usb), mas vale o teste - vai que o KVM tá causando algum tipo de oscilação de energia ou sei lá.

Por hora, nada de overclock, e o XMP eu desabilitei há bastante tempo porque não me impactava tanto kk

Valeu pelas dicas! :smiley:

monitora a temperatura quando abre esse programa pesado talvez o cooler deu ruim e ou precisa de pasta termica nova.
volta as config do bios para o padrão talvez tem algum overclock causasndo instabilidade.

Testa com outro sistema tambem recomendo

pelo menos para testes.

Ja tentou remover ese programa por completo e reistalar ou atualizar?
talvez pesquizar se outra pessoa teve problemas pareci

se vc instalou a versão flatpak do rider pode tambem liberar os snaps no linux mint e instalar a versão snap ou compilar o programa direto se não quizer usar snaps e ver se da alguma diferença

@sparrow Valeu pelas dicas!

Eu monitorei as temperaturas quando abria o Rider, e estava tudo dentro do normal (CPU em picos de 70~80 graus, no máximo, mas geralmente rodando entre 50 e 60), além de outras atividades no PC. Pasta térmica acredito que não seja, pois fiz uma limpeza completa no PC há algumas semanas e troquei ela por uma da Rise Mode (muito boa por sinal, recomendo). No geral, a refrigeração do PC eu dei uma “trabalhada”, porque resolvi “zipar” o PC um tempo atrás (rsrs) e coloquei ele no gabinete HX100 da Pichau, que é quase um gabinete pra mini ITX, mas suporta placas mATX e fonte ATX. Porém, na época, estava dando bastante superaquecimento, então enchi ele de fans (tem 3 fans 120mm + 1 fan 80mm + o cooler do CPU + as duas fans da GPU - tudo com um fluxo de ar bem organizado, puxando ar frio por baixo e lateral e jogando ar quente pra cima e trás, seguindo a ideia de “ar quente sobe”.

Infelizmente ainda não estava (não estou) com muto tempo livre para formatar, e a minha placa não tem um segundo slot NVME pra testar com um outro SSD (pensando em manter as mesmas condições, pra validar se poderia ser algum problema no SSD, no barramento PCIe, na placa mãe et). Então continuei no Mint mesmo.

Sim! Estou com a última versão disponível do Rider, e não estou usando nenhum empacotamento (nem DEB, nem Flatpak, nem SNAP). Só baixo o .tar.gz do site da JetBrains e extraio.

Contudo, acredito ter encontrado um possível “culpado” (ou culpada, talvez).

Passei essa última noite em claro testando tirar componente por componente, conexão por conexão, testando tudo, e tentando encontrar o problema. Algumas coisas não consegui testar, tipo trocar fonte, trocar CPU e GPU - minha CPU não tem vídeo integrado. Em todos os testes que fiz de memória, rodando liveUSB, conectando e desconectando HD e um monte de USBs, ele continuava com os mesmos sintomas. O ponto positivo é que descartei SSD, memórias, acessórios USB e um HD secundário, como causas do problema. Mas ainda fiquei com placa mãe, CPU, GPU e fonte como suspeitos.

Fiz algumas pesquisas, perguntei bastante pro ChatGPT, e tudo indicava algo com o SSD, principalmente pela intermitência dele estar desconectando e causando erros de I/O. Mas, como eu já havia testado mesmo sem o SSD, não fazia sentido. Tive um “estalo”, e pensei que poderia ser algo relacionado às linhas PCIe, que são usadas apenas pelo SSD NVME e pela GPU. Não sei se existe essa possibilidade, mas arrisquei que a GPU poderia estar com algum problema irradiando por todo o PCIe, não apenas às linhas dela, e conflitando com o SSD. Também reforçou essa minha ideia quando, em alguns testes, logo antes de reiniciar, os monitores começaram a apresentar artefatos estranhos e piscadas na imagem.

Como meu uso de GPU não é tão alto (não jogo no PC nem nada do tipo), tentei o mais básico: sair do driver da Nvidia e colocar o Nouveau. O PC funcionou perfeitamente, e então lembrei que, mais ou menos quando esses problemas começaram, eu havia colocado o driver open da Nvidia. Agora, fico na dúvida se o problema é a nível de software (algum tipo de bug no driver) ou se a minha GPU está com algum problema de hardware que só veio à tona com o driver open da Nvidia. Testei também o driver mais recente sem ser o open e, de acordo com o gerenciador de drivers do Mint, é o 535.274.02, e está funcionando perfeitamente também. Já faz horas que estou com o PC ligado, fiz várias atividades de alta carga com e sem o Rider, reiniciei o PC várias vezes, e nenhum problema aparente (grazaDeus :folded_hands: )

Vou monitorar por mais algum tempo. Se ficar tudo estável, venho aqui comentar para caso mais alguém tenha algum tipo de problema semelhante.

1 curtida

Depois de um dia inteiro sem nenhuma interrupção, acredito que a troca do driver da Nvidia do nvidia-driver-580-open para o nvidia-driver-535 tenha realmente resolvido o problema. Não sei dizer se é bug a nível de software (driver bugado ou incompatível) ou hardware (algum problema na GPU que veio à tona com o driver atualizado), mas posso dizer que meu PC está estável de novo (até mais do que antes, pra ser sincero).

Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.