🚨 Regressão no Kernel ameaça GPUs AMD Séries R5, R7, R9 e RX (Tongas e Polaris)

@EntusiastaDeVelharia! Rapaz, que situação intrigante. Esse ‘resumo da ópera’ está com cara de que o problema é físico, mas vamos tentar isolar isso antes de condenar o hardware.

Pelo seu relato das portas USB e rede falhando durante o Furmark no Windows, o sintoma aponta fortemente para uma instabilidade no barramento PCIe ou queda de tensão nas linhas de 12V/5V da placa-mãe. Quando a R9 380 (que é uma placa ‘sedenta’ por energia) puxa carga, ela pode estar causando um ripple (ruído elétrico) que derruba os controladores secundários.

Visão Realista e Conselhos Técnicos:

  1. O Log “Cego”: Como o Mint trava após a descriptografia (onde o kernel carrega os drivers de vídeo reais), tente bootar com o parâmetro nomodeset no GRUB. Se o sistema subir, o problema é a inicialização do driver amdgpu. Para ver o que houve no boot anterior que falhou, use o comando: journalctl -b -1 -e (Isso mostra o final do log do último boot mal sucedido).

  2. A Regressão do Kernel: Já que o calor do nosso bug no Launchpad subiu para 42 :fire:, sabemos que os Kernels 6.6+ estão terríveis para a R9 380. Se o Mint/Ubuntu tentar carregar o driver nessas versões, ele vai dar tela preta ou congelar o barramento.

  3. Teste de “Sobrevivência”: Tente baixar o clock e o Power Limit da placa pelo Windows (via Afterburner) e veja se o USB/Rede param de cair. Se pararem, sua placa-mãe (ou o VRM dela) pode estar pedindo arrego.

  4. Custo-Benefício: Se confirmar que a placa-mãe está instável, às vezes não compensa o conserto. Mas, antes de desistir, tente limpar os contatos do slot PCIe e da GPU com álcool isopropílico. Parece simples, mas em hardware GCN isso salva vidas.

Sobre o nosso Bug: No GitLab o silêncio continua há 3 dias, mas no Launchpad a pressão só aumenta com esses 42 pontos! O seu caso reforça que precisamos de um driver estável, pois qualquer instabilidade de software nessas placas ‘parrudas’ acaba estressando todo o resto do conjunto.

Não joga a toalha ainda! Tenta o nomodeset e conta para a gente se os logs revelam algum I/O Error ou GPU Hang. Estamos na torcida aqui! :penguin::hammer_and_wrench:

Cara, parece sintoma de placa mãe. Mas realmente não sou especialista, então somente uma rotina de testes de hardware poderia definir se existe algum driver defeituoso.

1 curtida

Com relação aos testes com KDE:

Nenhuma distro com KDE, seja nova ou antiga (kernel recente ou antigo), está rodando com wayland. Dado que o GNOME não apresentou mais problemas com ACPI desligado, creio que o problema de tela preta possa estar entre Wayland e kwin. Acredito que possa estar ligado a refresh rate (pois o GNOME também ficou com tela preta ao tentar modificar para 120 Hz), mas não tenho ctz. Estou sem tempo para modificar fixar isso direto no grub e testar. Quem sabe outro dia :sweat_smile:

1 curtida

@EntusiastaDeVelharia! O @sr_llucas levantou uma bola importante sobre a placa-mãe, e os testes dele com o KDE trazem pistas valiosas sobre o nosso “fantasma”.

Como o calor do bug no Launchpad já subiu para 42 e o GitLab segue em silêncio, o foco agora é te dar o caminho das pedras para isolar se o seu problema é físico ou apenas mais uma peça desse quebra-cabeça de software.

:hammer_and_wrench: Diagnóstico e Ação

O fato de portas USB e rede falharem durante o estresse da GPU no Windows é um sinal clássico de instabilidade no barramento PCIe ou queda de tensão. A R9 380 puxa muita energia, e isso pode estar gerando ruído elétrico na sua placa-mãe.

O que eu faria no seu lugar:

  • Logs do “Boot Cego”: Como o sistema trava logo após a descriptografia, tente usar o parâmetro nomodeset no GRUB. Se conseguir acesso ao terminal, use o comando journalctl -b -1 -e para ler o log do último boot que falhou e procurar por erros de GPU Hang ou I/O.

  • A Pista do Refresh Rate: O @sr_llucas notou que o GNOME deu tela preta ao tentar subir para 120 Hz e que o KDE/Wayland/kwin não sobe de jeito nenhum. Tente forçar o monitor para 60 Hz fixos via linha de comando ou no Windows para ver se a estabilidade volta.

  • Saúde do Hardware: Antes de condenar tudo, limpe os contatos da GPU e do slot PCIe com álcool isopropílico. Em arquiteturas GCN, isso resolve problemas de comunicação que parecem “morte” da placa.

  • Underclock como Teste: No Windows, use o Afterburner para baixar o Power Limit da placa. Se a rede e o USB pararem de cair, você confirmou que a fonte ou os VRMs da placa-mãe não estão aguentando o tranco.

Visão Realista: Seu hardware de 3 anos não deveria estar “aposentado”, mas essa regressão do Kernel (6.6+) que estamos combatendo deixa tudo mais sensível. Se for apenas software, o patch que estamos cobrando vai resolver. Se for hardware, esses testes de sub-tensão vão te dar a certeza sem gastar dinheiro antes da hora.

Não desiste da “velharia” ainda! Tenta o log e manda aqui para a gente analisar. :penguin::flexed_biceps:

É óbvio que estes testes não estão em ambiente controlado, mas servem para outras pessoas tentarem as mesmas estratégias, e podem acabar encontrando soluções assim como eu acabei encontrando para rodar o Wayland.

Minha intenção não é dizer que existe o não existe um problema. Mas acredito que algumas mudanças do X11 para o Wayland possam estar restringindo hardware, ou modos de operação deles. Daí vem a adaptação de cada um. Dessa forma, espero estar ajudando para que mais alguém consiga rodar o Wayland tb, pois ele é o futuro das distros Linux.

1 curtida

Concordo plenamente, @sr_llucas! Seus testes são fundamentais justamente porque o Wayland é o futuro, e ver usuários como você encontrando caminhos para fazê-lo rodar ajuda a entender onde o código está ‘engasgando’. Essa troca de estratégias é a alma do Linux! :penguin::sparkles:

Atualmente, eu sigo utilizando o X11 por ele me entregar uma maior compatibilidade e estabilidade com a minha R9 380, mas reconheço que o Wayland é o caminho inevitável. O meu contraponto é que, embora a gente consiga se adaptar com essas manobras, o hardware não deveria ser restringido por uma falha de software que antes não existia. Por isso, a luta pelo patch oficial continua.

Pessoal, o calor do bug já chegou em 48! :fire:

Se alcançarmos a marca de 100 de calor, o status muda de ‘problema isolado’ para ‘prioridade técnica’ no radar da Canonical e da AMD. Essa não será uma vitória minha, mas de toda a nossa comunidade Diolinux e de milhares de usuários de placas Tonga e Polaris pelo mundo que não querem descartar um hardware potente por causa de um bug.

Vamos transformar esses testes do Lucas e a persistência de vocês em uma solução definitiva? Quem ainda não confirmou o bug no Launchpad, clica lá! Cada clique é um passo para salvarmos nossas GPUs. :rocket::flexed_biceps:

:police_car_light: Alerta Geral: O “Bug das GPUs AMD” é maior do que parece! Vamos agir antes que sua placa vire peso de papel?

Olá, pessoal!

Passando para atualizar vocês sobre a nossa luta técnica para salvar as GPUs AMD no Linux. O que começou como uma investigação na minha R9 380 (Tonga) revelou algo mais sério: a regressão no Kernel 6.6+ tem potencial para atingir todas as arquiteturas GCN 3.0 (Tonga) e 4.0 (Polaris - RX 400/500).

O risco é real: Se não barrarmos essa forma de “limpeza de código” que ignora drivers legados agora, as próximas da lista podem ser as gerações que vocês estão usando hoje. Com os preços de hardware nas alturas, manter nossas placas funcionando não é apenas economia, é um direito!

Minha proposta de reciprocidade: Eu já fiz o trabalho pesado de git bisect e isolamento do código. Agora, me coloco à disposição de cada um de vocês: se você tem uma placa AMD e está sofrendo com travamentos ou problemas ao suspender o sistema no Ubuntu 24.04 ou kernels recentes, eu ajudo você a relatar o seu bug de forma técnica.

Como podemos vencer essa batalha juntos? Precisamos levar o “calor” do nosso reporte no Launchpad dos atuais 48 para no mínimo 100. Quando chegarmos lá, a Canonical e a AMD não poderão mais ignorar o volume de usuários afetados.

  1. Acesse o link: Bug #2142389 no Launchpad

  2. Clique em “This bug affects you”.

  3. Comente brevemente o modelo da sua placa (ex: “Affects my RX 580 as well”).

Essa é a hora da comunidade Diolinux mostrar sua força. Hoje eu ajudo a salvar a sua Tonga e Polaris, amanhã a comunidade salva a sua próxima placa. A tecnologia passa, mas a nossa união fica!

Conto com vocês. Vamos chegar nesse 100! :hammer_and_wrench::penguin:

Atualizando: O bug foi confirmado em mais distros (vimos relatos até no Arch). A luta não é só pelo Ubuntu, é pela saúde do Kernel para todos. Já passamos da metade do caminho para os 100 de calor! Quem mais se junta à causa hoje?

Não sei se é um caso isolado ou não mas meu vizinho tem uma R7 260X 1GB que foi minha e vendi para ele. Ele usa o Linux mint 21.2 com kernel 5.15 feliz da vida.

1 curtida

Obrigado pelo relato, @Rimana21! O caso do seu vizinho não é isolado, ele é, na verdade, a prova viva do que estamos defendendo aqui.

O Linux Mint 21.2 com o Kernel 5.15 funciona perfeitamente porque esse Kernel é anterior à ‘regressão’ (o erro de código) que foi introduzida nas versões mais recentes (como a 6.8 que usamos no Zorin ou Ubuntu 24.04). Isso confirma o que isolamos no Git Bisect: o hardware dele é robusto e o driver era estável, até que uma atualização de Kernel trouxe esse bug de energia.

O grande perigo é que, quando esse vizinho precisar atualizar o sistema por segurança ou para usar softwares novos, ele vai ‘herdar’ esse problema e a placa dele pode começar a dar tela preta no Suspend.

É por isso que a sua ajuda e a dele são tão importantes agora! Estamos lutando para que esse hardware (que ainda tem muita lenha para queimar, como a R7 dele e a minha R9) não seja ‘aposentado’ por um erro de software. Já alcançamos 62 de calor, mas precisamos chegar aos 100 para que os desenvolvedores deem prioridade máxima e corrijam isso antes que chegue ao Kernel 7.0 de forma definitiva.

Pode dar esse ‘clique de mestre’ lá para nós?

  1. Acesse: Bug #2142389 no Launchpad

  2. Clique em ‘Yes, this bug affects me’.

Vamos garantir que o vizinho continue feliz, não só no Kernel 5.15, mas em todos os que virão! :penguin::flexed_biceps:

isso e preocupante honestamente

https://gitlab.freedesktop.org/drm/amd/-/work_items/5123#note_3454219

4 curtidas

Concordo plenamente, @bad_at_usernames. É preocupante ver como um problema que afeta a usabilidade básica (suspender o PC) pode acabar perdido em discussões de prioridade em grandes repositórios.

O clima lá no GitLab às vezes parece distante da realidade de quem usa o hardware no dia a dia. Mas é exatamente por isso que não podemos recuar. Quando o desenvolvimento oficial hesita, o peso da comunidade no Launchpad é o que vira o jogo.

Subimos para 66 de calor graças a pessoas como você que estão atentas. Cada voto ‘Yes, this bug affects me’ é um recado claro: ‘Nosso hardware ainda é potente e não aceitamos que ele seja inutilizado por um erro de software’.

Estamos chegando perto dos 100 de calor. Quando batermos essa marca, o status do bug muda de relevância e eles são obrigados a olhar para o nosso Git Bisect com a seriedade que o caso exige.

Obrigado por estar de olho no front! Vamos transformar essa preocupação em votos. Quem ainda não registrou o problema lá, o momento é agora:

:link: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/2142389

A união faz o Kernel!

Após a suspensão do sistema no Zorin OS 18 (baseado no Ubuntu 24.10, kernel 6.17.0-14), o sistema às vezes retoma, mas a tela permanece preta (sem sinal). O sistema continua funcionando (ventoinhas/LEDs ativos), mas o monitor não exibe imagem. Somente uma reinicialização forçada restaura o vídeo.

Agora você explicou o problema detalhado e vou te dizer..
Eu já tive esse problema no linux mint 22.1 Xia quando eu usava o FX-8350 com a 6500XT em dual boot com o peppermint na época pois o kernel do Xia entrava em conflito com os drivers da 6500XT
Eu resolvi temporariamente substituindo o kernel 6.8.0-28/29 se não me engano MAS… temporariamente como disse.

Eu reportei seu problema para a IA gemini se ela pode ajudar e aqui está as soluções se caso você queira analisar.

Esse comportamento de “tela preta após suspensão” é um clássico de kernel e drivers de vídeo, especialmente em sistemas baseados no Ubuntu 24.10, que utiliza versões de kernel e Mesa muito recentes.
Considerando que o sistema continua ligado, o problema geralmente é o handshake entre o driver de vídeo e o monitor que falha na hora de “acordar”.Aqui estão os caminhos mais eficazes para resolver isso no Zorin OS 18:1.
Desativar o Modo de Suspensão Profunda (Deep Sleep)Muitas vezes o kernel tenta colocar o hardware em um estado de energia (S3) que a BIOS ou o driver não conseguem restaurar corretamente. Mudar para o modo s2idle costuma resolver.

1° Abra o terminal e edite o arquivo do GRUB:
sudo nano /etc/default/grub

2° Localize a linha GRUB_CMDLINE_LINUX_DEFAULT.

3° Adicione o parâmetro mem_sleep_default=s2idle dentro das aspas. Exemplo:
GRUB_CMDLINE_LINUX_DEFAULT=“quiet splash mem_sleep_default=s2idle”

4° Salve (Ctrl+O, Enter) e saia (Ctrl+X).
5° Atualize o GRUB: sudo update-grub e reinicie.

  1. Reinicialização do Driver de Vídeo (Script de Retomada)
    Se o driver “trava” no estado de baixo consumo, podemos forçar o sistema a recarregar as configurações de vídeo no momento da retomada.

Crie um script em /lib/systemd/system-sleep/:
sudo nano /lib/systemd/system-sleep/fix-video

#!/bin/sh
case $1/$2 in
post/*)
# Força o reconhecimento do monitor
echo “detect” > /sys/class/drm/card0/device/power_method
;;
esac

(Dê permissão de execução: sudo chmod +x /lib/systemd/system-sleep/fix-video).
Nesse caso o script precisa está mais ou menos assim como na imagem abaixo.

  1. Ajuste de Gerenciamento de Energia da GPU
    No Zorin (GNOME), o GDM (gerenciador de login) às vezes entra em conflito com a suspensão. Tente desativar a suspensão do monitor separadamente da suspensão do sistema nas configurações de energia, ou verifique se o Wayland está ativo.

° Se estiver usando Wayland, tente mudar para Xorg na tela de login (clicando na engrenagem no canto inferior direito).
O Xorg costuma ser mais resiliente com suspensão em kernels recentes.

  1. Parâmetro de Kernel para AMD/NVIDIA
    Se você estiver usando hardware específico, adicionar amdgpu.dc=0 ou nomodeset (como último recurso, embora este último tire o desempenho) pode ajudar a isolar se o problema é o recurso Display Core do driver.

Dica de mestre: Da próxima vez que acontecer, antes de puxar a tomada, tente o atalho Ctrl + Alt + F3 para ver se o terminal (TTY) aparece.
Se aparecer imagem no terminal, o problema é apenas no servidor gráfico, e não no kernel inteiro!

Como está o comportamento dos logs do sistema (journalctl -b -1 -e) após um desses travamentos?
Eles costumam dar a pista exata se o driver de vídeo “crashou”.

Quando falamos de GPUs das séries R7 e R9 (arquitetura GCN mais antiga), o problema de “tela preta no resume” no Ubuntu 24.10/Zorin 18 é quase certamente um conflito de driver.

Essas placas vivem em um “limbo”: elas podem usar o driver antigo (radeon) ou o driver moderno (amdgpu). Por padrão, o Linux muitas vezes carrega o driver antigo, que tem um gerenciamento de energia (DPM) bem problemático com suspensão.

Aqui está o “pulo do gato” para ele resolver isso:

1. Forçar o Driver Moderno (AMDGPU)

O driver amdgpu é muito mais estável para retomar de suspensões. Ele precisa dizer ao kernel para ignorar o driver antigo e usar o novo.

1° Peça para ele abrir o terminal e editar o GRUB:
sudo nano /etc/default/grub

2° Na linha GRUB_CMDLINE_LINUX_DEFAULT, ele deve adicionar os seguintes parâmetros: radeon.si_support=0 radeon.cik_support=0 amdgpu.si_support=1 amdgpu.cik_support=1

° SI = Southern Islands (R7 240, R9 270, 280, etc.)
° CIK = Sea Islands (R7 260, R9 290, 390, etc.)

Salvar, rodar sudo update-grub e reiniciar. Isso faz a GPU rodar com a tecnologia mais atual disponível para ela.

2. Desativar o “ASPM” (Active State Power Management)

Essas GPUs R7/R9 às vezes entram em conflito com o gerenciamento de energia do barramento PCIe da placa-mãe ao acordar.

Se a dica acima não bastar, ele pode adicionar este parâmetro também no GRUB: pcie_aspm=off

3. O Truque do Terminal (Workaround rápido)

Se ele estiver no meio de um trabalho e a tela ficar preta ao voltar, antes de reiniciar no botão, ele pode tentar:

1° Pressionar Ctrl + Alt + F2 (para entrar no terminal cego).
2° Esperar 2 segundos e pressionar Ctrl + Alt + F1 (ou F7) para voltar para a interface.
3° Isso muitas vezes força o driver a fazer o re-init do sinal de vídeo para o monitor.

4. Firmware da GPU

Como o Zorin 18/Ubuntu 24.10 é muito novo para essas placas, vale conferir se os pacotes de firmware estão completos: sudo apt update && sudo apt install linux-firmware

Essas GPUs R7 e R9 são verdadeiros “tanques de guerra”, mas o gerenciamento de energia delas no kernel 6.x às vezes precisa desse empurrãozinho manual para entender que o monitor precisa ligar de novo.

Isso é só uma solução temporária rapaz, depois que montei um Ryzen isso não aconteceu mais.
Espero que isso ajuda, você pode analisar e verificar se algumas dessas soluções podem resolver seu problema.

Eu só fiquei curioso com o que você disse sobre a série RX pois as GPUs RX6400 pra cima não vejo nenhum problema com kernels mais novos.

Eu fiz o voto lá no site, espero que isso te ajude de alguma maneira.
Uma ótima semana.

1 curtida

Que aula de proatividade, @Rimana21! Muito obrigado pelo tempo que você dedicou pesquisando e até consultando a IA para me ajudar. É esse tipo de união que faz a comunidade Linux ser o que é.

Você tocou em pontos técnicos muito válidos. As sugestões que a IA te deu, como mudar para o s2idle ou forçar o driver amdgpu em placas antigas, são excelentes paliativos. Elas funcionam como um ‘curativo’ que faz o sistema voltar a funcionar, mas elas não curam a ferida.

Por que estamos buscando a solução na raiz? Como técnico, eu prezo por um sistema o mais padrão (out-of-the-box) possível. O usuário comum não deveria ter que editar o GRUB ou criar scripts de terminal para uma função básica como suspender o computador. O que eu descobri no Git Bisect é que o erro está em uma linha de código específica que ‘quebrou’ algo que funcionava perfeitamente antes.

Se usarmos apenas os paliativos, o bug continua lá, escondido, e vai afetar o próximo usuário que instalar o Linux. Minha meta com esses 100 de calor é fazer com que os desenvolvedores corrijam o código-fonte. Assim, a solução vem via atualização oficial para todos: para mim no Zorin, para o seu vizinho no Mint e para milhares de outros.

Sobre a série RX: Você perguntou sobre as RX 6400+; elas realmente são mais resilientes por serem modernas. O problema maior está no ‘meio do caminho’, como a série RX 400/500 e as R9, que usam uma gestão de energia que o Kernel novo passou a tratar de forma errada.

Valeu demais pelo seu voto! Já subimos para 66 e cada um desses cliques é um passo para que o Linux continue sendo esse sistema incrível que respeita o nosso hardware, seja ele novo ou um ‘tanque de guerra’ antigo.

Uma ótima semana para você também e vamos pra cima desses 100!

Após alguns testes, não acredito que o problema que estou tendo esteja relacionado a uma regressão. O KDE continua sem funcionar, porém não tive nenhum problema com os testes no GNOME (o que indica fortemente que o kernel está ok).

Acredito que o KDE evoluiu para utilizar arquitetura de seu compositor, utilizando soluções mais modernas e consistentes com o Wayland. Neste processo, estou provavelmente tendo um bug, muito mais relacionado ao meu hardware especificamente, do que uma realidade do sistema.

Procurei bastante e achei pessoas tendo este mesmo problema com o KDE a anos. Infelizmente, nenhuma das soluções propostas a época resolveram meu problema.

No mais, sigo no bom e velho X11 com o 24.04 LTS. Até essa base ficar obsoleta, meu hardware também assim ficará rsrsrsrs.

1 curtida

Análise cirúrgica, @sr_llucas! Compartilho da sua escolha: também sigo no X11 por pura estabilidade. No cenário atual, ele ainda é o nosso ‘colete à prova de balas’ para garantir que o hardware responda como esperado, enquanto o Wayland e os novos compositores ainda ajustam o passo com drivers de GPUs veteranas.

Muito obrigado pelo seu voto e pelo apoio técnico! O fato de você ter validado o comportamento em diferentes interfaces ajuda muito a cercar o problema.

Gostaria de te pedir um apoio extra: para quem ler seu comentário e também estiver passando por instabilidades parecidas, peço que nos ajudem a atingir a meta de 100 de calor no Launchpad. Isso tiraria nossa demanda da ‘fila comum’ e a colocaria como prioridade máxima para os desenvolvedores da Canonical.

https://www.phoronix.com/forums/forum/linux-graphics-x-org-drivers/open-source-amd-linux/1632980-regression-amdgpu-gcn-3-0-s3-resume-failure-kernel-6-8-post-content#post1632980

Pessoal, chegamos a 66 de calor! Um recorde para uma GPU antiga. Quem tiver uma Polaris ou Tonga e quiser testar um comando de log para me ajudar, comenta aqui, temos que chegar ao mínimo de 100 para ganhar atenção qualificada…

Isso me acontecia na minha R9 270X, onde do completo nada com uso intenso, todos os Linux’s que eu havia testado, ocorria o erro da imagem, junto do som congelarem (E o Numlock também), que me forçava a reinicialização.

1 curtida

Relato importante, @LukAura! Esse travamento total que ‘mata’ até o NumLock é o sinal mais claro de que o driver perdeu a comunicação com a GPU. Nas séries R9 200, isso costuma ser um conflito de como o Kernel moderno tenta gerenciar as frequências de energia (DPM).

O que você viveu é exatamente o que estamos tentando evitar que se torne a regra para as séries R9 e RX. O hardware é potente, mas o software está ‘soltando a mão’ dessas placas.

Se você ainda tiver esse hardware ou quiser ajudar a evitar que outros passem pelo mesmo sufoco de reboot forçado, seu voto no nosso reporte oficial é crucial. Já estamos com 66 de calor e o status de CONFIRMADO. Falta pouco para os 100 e forçarmos uma correção definitiva da Canonical e da AMD!

Como ajudar:

  1. Acesse: Bug #2142389 no Launchpad

  2. Marque ‘Yes, this bug affects me’

Valeu por compartilhar sua experiência, isso dá ainda mais base técnica para a nossa mobilização! :rocket:

1 curtida

Claro, eu ajudo sim!

1 curtida