ChatGPT está... piorando?

Um estudo conduzido por pesquisadores das universidades de Stanford e Berkeley concluiu que os padrões de respostas do chatGPT 3.5 e 4 tem mudado ao longo do tempo. Uma vez que as atualizações do chat não são explícitas e o código-fonte é fechado, só é possível inferir as mudanças mediante uma rotina de testes.

Os testes foram realizados em março e junho de 2023 com ambas as versões da inteligência conversacional e concluído que:

  • Em março, a acurácia do GPT-4 ao identificar números primos era de 97,6% e do GPT-3 era de 86,8%;
  • Em junho, a acurácia do GPT-4 ao identificar números primos pelas mesmas perguntas de antes, era de 2,4% e do GPT-3 era de 7,4%;
  • A disponibilidade do GPT-4 em responder perguntas sensíveis era 21%, enquanto no GPT-3.5, 8%, em junho os números caíram para 5% e 2%, respectivamente.
  • O código-fonte gerado pelas duas inteligências estão menos funcionais, enquanto 52% daqueles gerados pelo GPT-4 já funcionam sem ajustes em março, apenas 10% apresentavam resultado similar em junho. Para o GPT 3.5, as percentagens são 22% e 2%, respectivamente;
  • Por outro lado, os testes de identificação visual demonstraram um pequeno acréscimo, o GPT-4 subiu de 24,6% de acurácia para 27.4%, enquanto o GPT-3.5, de 10,3% para 12,2%.

A grande variação de qualidade de resposta apresentada pelo chatGPT indica a importância da tecnologia continuar sob monitoramento.

4 curtidas