Ferramentas de IA são treinadas com muitos dados, incluindo o código-fonte open-source. Quando elas geram um novo código ou documentação, podem produzir conteúdo de baixa qualidade, redundante ou até mesmo incorreto. Esse “lixo de IA” acaba inserido em repositórios open-source, seja por desenvolvedores, seja por sistemas automatizados.
O código gerado pode conter erros sutis, não seguir as melhores práticas de codificação ou ser menos eficiente do que o escrito por humanos, exigindo mais tempo e esforço na sua revisão, correção e refatoramento.
Se manter projetos open-source já é um desafio, a adição de conteúdo de baixa qualidade aumenta a carga de trabalho dos mantenedores, que gastam mais tempo analisando pull requests e commits para identificar e remover esse “lixo”.
O código gerado por IA muitas vezes carece de clareza e de comentários adequados, tornando-o difícil de entender e manter, a longo prazo. E a sua proliferação mina a confiança na qualidade e na confiabilidade de um projeto, fator vital para a sua adoção e sustentabilidade.
Se os repositórios livres se tornarem saturados com “lixo de IA”, criará um ciclo vicioso, onde as IAs serão treinadas com dados de baixa qualidade, perpetuando o problema. Uma solução é o trabalho conjunto entre os desenvolvedores destas ferramentas e a comunidade do código aberto.
Isso inclui o desenvolvimento de melhores instrumentos para detecção de conteúdo gerado por IA, a educação de desenvolvedores sobre seu uso responsável e a implementação de políticas mais rigorosas na contribuição de código.