O chatbot da startup chinesa DeepSeek obteve apenas 17% de precisão em um teste de confiabilidade realizado pela NewsGuard, ficando em décimo lugar entre 11 concorrentes, incluindo grandes modelos ocidentais como o ChatGPT e o Google Gemini. A auditoria revelou que o chatbot repetiu informações falsas em 30% das vezes e forneceu respostas vagas ou inúteis em 53% das interações relacionadas a notícias. Como resultado, o modelo teve uma taxa de reprovação de 83%, superando a taxa média de falhas de 62% dos concorrentes ocidentais. Esse desempenho gerou questionamentos sobre a alegação da DeepSeek de que sua tecnologia superaria, em termos de custo-benefício, os modelos da OpenAI e da Microsoft.
A NewsGuard utilizou as mesmas 300 solicitações que havia aplicado a outros chatbots, incluindo 30 perguntas baseadas em alegações falsas amplamente divulgadas online. Durante o teste, o DeepSeek forneceu respostas imprecisas em relação a eventos recentes, como o assassinato de um executivo e um acidente aéreo. Em algumas ocasiões, o modelo repetiu a posição do governo chinês sobre temas, mesmo quando os questionamentos não estavam relacionados à China. Esses erros evidenciam uma vulnerabilidade comum entre os chatbots de IA, que podem ser manipulados para disseminar informações falsas, dependendo das solicitações feitas pelos usuários.
Apesar dos erros, a principal inovação do DeepSeek não está na precisão das respostas, mas na sua capacidade de fornecer informações a um custo significativamente menor que outros modelos de IA. Segundo especialistas, o modelo tem potencial para impactar a indústria de inteligência artificial, oferecendo soluções mais acessíveis, embora sua confiabilidade ainda esteja longe de atender aos padrões exigidos por especialistas em comunicação e verificação de fatos.