Boot lento nos servidores, mesmo com SSD

Recentemente, atualizei os servidores da minha empresa com novos discos SSD para servidores (DC500R) para ter um melhor desempenho/armazenamento. Ao todo, foram 12 discos de 1.92 TB da Kingston. O problema é que pelo systemd-analyze o tempo de boot no HD é de pouco menos de 20 segundos, enquanto no SSD é de 18 segundos.

Todos os servidores executam o Arch Linux com XFCE (com o mínimo) + Nextcloud + MariaDB + UFW + Argo (Cloudflare) + Btrfs + Kernel 5.10 LTS. Na troca dos HD para SSD, os sistemas foram reinstalados do zero, não sobrando nada dos anteriores. Mas, o problema ainda se manteve.

Alguém já passou por algo parecido e sabe o que pode estar acontecendo com esses servidores? Alguma limitação das placas? Versão do Kernel?

Vc usa lvm?
Logs estão configurados?

Veja se ajuda

É um servidor tipo Dell, HP ? a partir de qual momento você começa a contar o boot?

18s é algo muito bom para um servidor principalmente se for um servidor como um Dell, HP, IBM que demoram um pouco para iniciar ainda mais com vários serviços subindo junto, mas o que eu já percebi em servidores é que sistema montado em BTRFS o boot fica mais lento com relação a a outros sistemas de arquivos. Outro vilão é o NextCloud.

acho que é obvio que o vilão são as propiás maquinas, o próprio systemd diz que quem esta mais demorando para iniciar é o firmware não o sistema, então vc pode desativar o serviço que for não haverá impacto relevante.
uma opção é dar boot direto pelo kernel usando o método efistub.

A verdade que há outras questões a considerar.
O tempo de boot em si nem sempre vai refletir por excelência o quanto houve de aumento ou não de performance. Você precisa verificar mais sobre a redução no tempo de acesso ao disco, a taxa de transferência média e quanto será mantido isso ao passo que com HD mecânico tudo isso seria maior o tempo e ficando ainda mais lento com fragmentação e etc.

Como já dito por outro colega acima, o tempo de firmware é quase 50% do processo e baixar o tempo de userspace vai varia muito pouco na prática ao desabilitar algum serviço…

Sapeca ai o blame para detectar o serviço ou entrada que demora mais tempo carregando.
Aqui no meu caso para você ver:

Startup finished in 2.467s (firmware) + 1.224s (loader) + 6.157s (kernel) + 9.378s (userspace) = 19.228s
graphical.target reached after 9.354s in userspace

E tem bastante coisa instalada, e etc… Olha como o meu em firware é rapido, porque tem menos processos de check de itens e etc ja que não está como servidor. Porém, no user e kernel veja quanto a mais…

Também, outros pontos, por curiosidade:
. Você liga e desliga o servidor diariamente?
. Chegou a fazer uma coleta de dados de tempo de acesso, latência, transferência e etc com os discos em HD para comprar?
. Os hds estão em modo RAID? Como estão configurados…
. Quais são os servidores? Estão todos em sata3, ahci, em modo gpt com efi?
. Você quem fez o esquema de partição ou usou a default?

Enfim, são muitos pontos variáveis para controle da performance dos discos após boot também.
Conte mais para entendermos melhor e encontrar soluções.

Sucesso!

1 curtida

Passei a madrugada toda tentando resolver esse problema e consegui. Por algum motivo, o problema estava no firmware da controladora RAID, não sendo um defeito no hardware/sistema. Ao alternar o kernel LTS para a versão estável (5.10.60>5.13.12) o sistema simplesmente fluiu, dando boot em menos de 10 segundos, como era o esperado. O que me resta agora é congelar as atualizações do kernel no sistema e só aplicar patch de segurança. No mais, obrigado a todos pela ajuda.

1 curtida

Se está tudo ok. Coloque como resolvido.

Este tópico foi fechado automaticamente 3 dias depois da última resposta. Novas respostas não são mais permitidas.