Erro em amdgpu, crasha video

Estou usando o manjaro faz uma semana mais ou menos, estou tendo problemas no amdgpu, aleatoriamente dependendo do que abro, seja uma guia nova no firefox, ou algum aplicativo, não consegui achar algo que resolva na internet, tambem não é placa de video pois testei outra e não parou o crash, ja formatei para ver se era algum arquivo corrompido e não resolveu, possivelmente algum problema de pacote ou configuração.

jun 14 18:04:22 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: GPU fault detected: 146 0x0000480c for process TeamSpeak pid 14428 thread TeamSpeak:cs0 pid 14444
jun 14 18:04:22 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu:   VM_CONTEXT1_PROTECTION_FAULT_ADDR   0x00000000
jun 14 18:04:22 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu:   VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x0E04800C
jun 14 18:04:22 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: VM fault (0x0c, vmid 7, pasid 32775) at page 0, read from 'TC0' (0x54433000) (72)
jun 14 18:04:32 mereira-pc kernel: [drm:amdgpu_dm_atomic_commit_tail [amdgpu]] *ERROR* Waiting for fences timed out!
jun 14 18:04:32 mereira-pc kernel: [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx timeout, signaled seq=818875, emitted seq=818877
jun 14 18:04:32 mereira-pc kernel: [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process TeamSpeak pid 14428 thread TeamSpeak:cs0 pid 14444
jun 14 18:04:32 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: GPU reset begin!
jun 14 18:04:36 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: failed to suspend display audio
jun 14 18:04:36 mereira-pc kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring kiq_2.1.0 test failed (-110)
jun 14 18:04:36 mereira-pc kernel: [drm:gfx_v8_0_hw_fini [amdgpu]] *ERROR* KCQ disable failed
jun 14 18:04:37 mereira-pc kernel: amdgpu: cp is busy, skip halt cp
jun 14 18:04:37 mereira-pc kernel: amdgpu: rlc is busy, skip halt rlc
jun 14 18:04:37 mereira-pc kernel: CPU: 5 PID: 13699 Comm: kworker/u16:4 Not tainted 5.18.0-1-rt11-MANJARO #1
jun 14 18:04:37 mereira-pc kernel: Hardware name: Gigabyte Technology Co., Ltd. To be filled by O.E.M./970A-DS3P, BIOS FA 10/21/2014
jun 14 18:04:37 mereira-pc kernel: Workqueue: amdgpu-reset-dev drm_sched_job_timedout [gpu_sched]
jun 14 18:04:37 mereira-pc kernel: Call Trace:
jun 14 18:04:37 mereira-pc kernel:  <TASK>
jun 14 18:04:37 mereira-pc kernel:  dump_stack_lvl+0x44/0x58
jun 14 18:04:37 mereira-pc kernel:  amdgpu_do_asic_reset+0x31/0x4a2 [amdgpu]
jun 14 18:04:37 mereira-pc kernel:  amdgpu_device_gpu_recover_imp.cold+0x558/0x8fa [amdgpu]
jun 14 18:04:37 mereira-pc kernel:  amdgpu_job_timedout+0x196/0x1d0 [amdgpu]
jun 14 18:04:37 mereira-pc kernel:  ? __switch_to+0x2c8/0x450
jun 14 18:04:37 mereira-pc kernel:  drm_sched_job_timedout+0x66/0xf0 [gpu_sched]
jun 14 18:04:37 mereira-pc kernel:  process_one_work+0x20a/0x420
jun 14 18:04:37 mereira-pc kernel:  worker_thread+0x4a/0x3b0
jun 14 18:04:37 mereira-pc kernel:  ? _raw_spin_lock_irqsave+0x23/0x50
jun 14 18:04:37 mereira-pc kernel:  ? process_one_work+0x420/0x420
jun 14 18:04:37 mereira-pc kernel:  kthread+0x10a/0x130
jun 14 18:04:37 mereira-pc kernel:  ? kthread_complete_and_exit+0x20/0x20
jun 14 18:04:37 mereira-pc kernel:  ret_from_fork+0x22/0x30
jun 14 18:04:37 mereira-pc kernel:  </TASK>
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: BACO reset
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: GPU reset succeeded, trying to resume
jun 14 18:04:37 mereira-pc kernel: [drm] PCIE GART of 256M enabled (table at 0x000000F400300000).
jun 14 18:04:37 mereira-pc kernel: [drm] VRAM is lost due to GPU reset!
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring comp_1.2.0 test failed (-110)
jun 14 18:04:37 mereira-pc kernel: [drm] UVD and UVD ENC initialized successfully.
jun 14 18:04:37 mereira-pc kernel: [drm] VCE initialized successfully.
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: recover vram bo from shadow start
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: recover vram bo from shadow done
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: amdgpu 0000:01:00.0: amdgpu: GPU reset(2) succeeded!
jun 14 18:04:37 mereira-pc kernel: kfd kfd: amdgpu: skipped device 1002:699f, PCI rejects atomics 730<0
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm] Skip scheduling IBs!
jun 14 18:04:37 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:37 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:37 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:37 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
jun 14 18:04:38 mereira-pc kernel: [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!

Se precisar de mais algum log eu mando.

Precisamos disto:

1 curtida
System:
  Kernel: 5.10.121-1-MANJARO arch: x86_64 bits: 64 Desktop: Cinnamon v: 5.2.7
    Distro: Manjaro Linux
Machine:
  Type: Desktop System: Gigabyte product: N/A v: N/A
    serial: <superuser required>
  Mobo: Gigabyte model: 970A-DS3P serial: <superuser required>
    UEFI: American Megatrends v: FA date: 10/21/2014
CPU:
  Info: 8-core model: AMD FX-8300 bits: 64 type: MT MCP cache: L2: 8 MiB
  Speed (MHz): avg: 1405 min/max: 1400/4000 cores: 1: 1428 2: 1412 3: 1406
    4: 1393 5: 1406 6: 1402 7: 1403 8: 1397
Graphics:
  Device-1: AMD Lexa PRO [Radeon 540/540X/550/550X / RX 540X/550/550X]
    driver: amdgpu v: kernel
  Display: x11 server: X.Org v: 21.1.3 with: Xwayland v: 22.1.2 driver: X:
    loaded: amdgpu unloaded: modesetting,radeon gpu: amdgpu
    resolution: 1600x900~60Hz
  OpenGL: renderer: AMD Radeon RX 550 / 550 Series (polaris12 LLVM 13.0.1
    DRM 3.40 5.10.121-1-MANJARO)
    v: 4.6 Mesa 22.1.1
Audio:
  Device-1: AMD SBx00 Azalia driver: snd_hda_intel
  Device-2: AMD Baffin HDMI/DP Audio [Radeon RX 550 640SP / 560/560X]
    driver: snd_hda_intel
  Device-3: Generalplus USB Audio Device type: USB
    driver: hid-generic,snd-usb-audio,usbhid
  Sound Server-1: ALSA v: k5.10.121-1-MANJARO running: yes
  Sound Server-2: PulseAudio v: 16.0 running: yes
  Sound Server-3: PipeWire v: 0.3.52 running: yes
Network:
  Device-1: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet
    driver: r8169
  IF: enp3s0 state: up speed: 100 Mbps duplex: full mac: <filter>
Drives:
  Local Storage: total: 223.57 GiB used: 169.83 GiB (76.0%)
  ID-1: /dev/sda vendor: SanDisk model: SSD PLUS 240GB size: 223.57 GiB
Partition:
  ID-1: / size: 218.71 GiB used: 169.83 GiB (77.6%) fs: ext4 dev: /dev/sda2
  ID-2: /boot/efi size: 299.4 MiB used: 288 KiB (0.1%) fs: vfat
    dev: /dev/sda1
Swap:
  Alert: No swap data was found.
Sensors:
  System Temperatures: cpu: 31.5 C mobo: N/A gpu: amdgpu temp: 39.0 C
  Fan Speeds (RPM): N/A
Info:
  Processes: 267 Uptime: 1m Memory: 7.73 GiB used: 1.71 GiB (22.1%)
  Shell: Bash inxi: 3.3.18

@JG22, vem ver isso aqui

1 curtida

Teste passar amdgpu.dpm=0 como parâmetro de kernel, caso persista tente utilizar uma versão mais nova do kernel.

usando monitor conexão usb-c?

1 curtida

Já tentou usar o Kernel 5.15 em diante? No notebook que tenho full AMD com Manjaro tive alguns problemas de instabilidade com o Kernel 5.10 e no desktop, RX 580, só comecei a ter paz quando o Kernel 5.17 chegou.

reportaram para o mesa problema parecido, creio… [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125! (#1780) · Issues · drm / amd · GitLab

qual diretorio e arquivo que modifico? não sei o diretorio das cfg do kernel

não, DVI-D

Testando, o problema que o erro é randomico, até agora não ocorreu dnv, fui testando umas livrarias e até diminuiu a frequencia que ocorre, agora ja está bem usavel, n sei se algo de kernel msm pq até na instalação ocorreu,testei outras distros e tambem dava o mesmo problema

1 curtida

sim, parece que ainda não encontraram uma solução exata

Parâmetros do kernel - ArchWiki

2 curtidas

Atualizei o kernel, testei as versoes 5.15, 5.17 e 5.18, todas aumentaram a frequencia do erro, a mais estavel esta a 5.10, já o parametro kernel não senti diferença.

Teste com este outro parâmetro amdgpu.noretry=0


Como já mencionado, há outros relatos de usuários, com problemas próximos a este, minha recomendação, claro se já não tentou, seria testar com outras distribuições como o Pop Os, para verificar se este problema persiste.


Tente as instruções neste link → AMDGPU - ArchWiki.


Caso este erro, apareceu depois de alguma atualização tente realizar o “downgrade” da mesma.

Nossa mano, to tendo exatamente esse problema, achei que era algo relacionado a hardware e que minha placa de vídeo tava pifando, que alívio! QUE ALÍVIO! (No meu caso só ocorre quando clico na aba “Shading” do Blender. Desinstalei o opencl, reiniciei, instalei novamente e reinstalei o kernel pra recarregar os headers, reiniciei novamente não alterei nenhuma versão, só fiz reinstalar mesmo. Até hoje uso o opencl 20.40 porque é o que funciona no Blender 2.93. Estou utilizando o Kernel 5.15. Ao que parece, o problema se foi, já cliquei várias vezes em situações diferentes na aba shading e tá carregando normal.

tendi irei tentar, tambem pensei que era alguma coisa de hardware, mas testei outra placa aqui e deu o mesmo erro e ela ta funcionando certinho

1 curtida

Tendi, tenta fazer um downgrade no driver tbm, pode ser isso talvez, você mudou recentemente do Pipewire pro Pulse ou vice-versa? Vi que nos meus logs, todas as vezes que ocorreram esse erro tinha alguma mensagem relacionada a disposito de audio, embora a maioria das mensagens fosse sobre a GPU, talvez pode ter algo a ver já que troquei pro Pipewire faz 3 dias

nao mudei nao, mesmo na instalacao do linux da o erro, todas distros que testei

Fazendo uns testes do AMDGPU que @null mandou o link ai, por enquanto nao tive mais crashs, se der tudo certo eu mando algumas coisas que fiz aqui