Site do Mageia sob ataque

Uma avalanche de bots de IA está repetidamente derrubando partes do nosso site

Publicado em 18 de maio de 2025 por marja

Sempre tivemos bots visitando nosso site. Eles eram, em sua maioria, bots gentis, como os rastreadores que mantêm os bancos de dados dos mecanismos de busca atualizados. Esses bots gentis começam olhando nossos arquivos robots.txt antes de fazer qualquer coisa e respeitam as restrições definidas nesses arquivos.

No entanto, as coisas mudaram. Assim como outros sites, como a Wikipédia , estamos sendo cada vez mais visitados por scrapers de IA, bots que vasculham a internet em busca de qualquer coisa que possam encontrar para treinar aplicativos de IA. Eles geralmente são extremamente ávidos por informações, então baixam muito, muito mais do que um usuário comum faria. Além disso, muitos deles são indelicados: não respeitam as regras definidas em nossos arquivos robots.txt, escondem quem realmente são, não colocam uma pequena pausa entre as solicitações – pelo contrário, bombardeiam nossos servidores com solicitações de muitos e muitos endereços IP diferentes ao mesmo tempo. O resultado é que partes do mageia.org, como nosso Bugzilla , Wiki e Fóruns , tornam-se inacessíveis.

Abaixo você pode ver a carga da CPU de um dos nossos servidores mais importantes, onde, entre outras coisas, nossos fóruns e wiki estão localizados:

[segue]

6 curtidas

Sera que Cloudflare resolve o problema?

Isso fica com cara de Ataques DDoS movidos por IA

1 curtida

Nem tenho roupa pra um debate sobre essas coisas…

O que percebo, é que está surgindo um problemão – totalmente novo – em escala planetária.

Até aqui, ouvíamos falar de hackers movidos por interesses “simples” – por exemplo, ganhar dinheiro, ou protestar contra algum governo ou contra alguma grande corporação, ou sabotagem de infraestrutura por parte de algum país inimigo. – Havia alguma “lógica”, alvos definidos, e pouco interesse em gastar tempo, trabalho, recursos, para sabotar uma distro comunitária, por exemplo.

O que o cara do Mageia está falando, revela um cenário de “cada um por si”, de “todos contra todos”, sem qualquer “lógica”, e sem qualquer limite – numa “simples” busca desenfreada por informações para treino de IAs:

Bloquear os endereços IP usados ​​é inútil, pois eles mudam constantemente para novos. Um dos nossos administradores de sistemas acabou de me contar sobre um grande problema: “proxies móveis”, em que bots fazem proxy de suas solicitações por meio dos telefones de usuários desavisados. Isso faz com que as solicitações pareçam muito mais legítimas e difíceis de bloquear sem também bloquear usuários reais. Muito disso acontece sem que os usuários saibam que seus telefones estão sendo usados ​​dessa forma. Alguns aplicativos incluem proxies junto com algum jogo ou outro aplicativo e os escondem em letras miúdas nos termos de serviço. No ano passado, foi relatado que o Google havia removido vários desses aplicativos de sua loja.

Além de celulares, existem dispositivos de IoT e também computadores comuns que acabaram em botnets por não estarem bem protegidos. Eles podem ser usados ​​para raspagem de IA e provavelmente já o são.

Nossos administradores de sistemas conseguem, repetidamente, mitigar o problema, mas é um “jogo de gato e rato”, então é provável que o problema ocorra novamente.

Imagino que logo será desenvolvida uma “nova geração” de ferramentas para proteção, nesse “salve-se quem puder” – mas receio que isso leve a um novo grau de concentração – pois os pequenos são sempre os primeiros a botar a língua pra fora.

1 curtida

Já vi vários anúncios semelhantes em projetos de código aberto. Os bots dessas empresas de IA estão sendo uma verdadeira praga.

Inclusive, lembro de um desses anúncios trouxe dados sobre o tráfego malicioso e o país mais usado como base de operações era… o Brasil.

Além do anti-DDOS há ferramentas específicas, como AI Labyrinth.

Há também soluções “locais” como o Anubis (adotado, por exemplo, na Arch Wiki – a página com fundo marrom) que colocam todo mundo que visita a página para passar um tempo rodando um algoritmo semelhante a mineração de bitcoin, e o Nepenthes (que é uma versão “local” do AI Labyrinth).

3 curtidas

Não sei se é por isto, e a quanto tempo, mas a wiki do arch usa verificação e captcha a todo momento enquanto navego por lá, crio que garante uma proteção quanto a esse problema.

2 curtidas

Parece que o caminho contra AI é usar AI mesmo.

Paradoxo da IA