Uma avalanche de bots de IA está repetidamente derrubando partes do nosso site
Publicado em 18 de maio de 2025 por marja
Sempre tivemos bots visitando nosso site. Eles eram, em sua maioria, bots gentis, como os rastreadores que mantêm os bancos de dados dos mecanismos de busca atualizados. Esses bots gentis começam olhando nossos arquivos robots.txt antes de fazer qualquer coisa e respeitam as restrições definidas nesses arquivos.
No entanto, as coisas mudaram. Assim como outros sites, como a Wikipédia , estamos sendo cada vez mais visitados por scrapers de IA, bots que vasculham a internet em busca de qualquer coisa que possam encontrar para treinar aplicativos de IA. Eles geralmente são extremamente ávidos por informações, então baixam muito, muito mais do que um usuário comum faria. Além disso, muitos deles são indelicados: não respeitam as regras definidas em nossos arquivos robots.txt, escondem quem realmente são, não colocam uma pequena pausa entre as solicitações – pelo contrário, bombardeiam nossos servidores com solicitações de muitos e muitos endereços IP diferentes ao mesmo tempo. O resultado é que partes do mageia.org, como nosso Bugzilla , Wiki e Fóruns , tornam-se inacessíveis.
Abaixo você pode ver a carga da CPU de um dos nossos servidores mais importantes, onde, entre outras coisas, nossos fóruns e wiki estão localizados:
[segue]