Um artigo recente analisou o desempenho de sete ferramentas de pesquisa baseadas em inteligência artificial, comparando sua eficácia na produção de relatórios detalhados sobre desafios da implementação de IA generativa no ensino básico. As ferramentas gerais, como ChatGPT, Gemini, Grok e Perplexity, mostraram limitações na seleção de fontes acadêmicas, enquanto plataformas especializadas, como Elicit, SciSpace e Undermind, apresentaram resultados mais robustos, ainda que restritos a bases de dados abertas. O teste revelou problemas como opacidade, alucinações e viés na seleção de fontes, destacando a necessidade de aprimoramento para uso acadêmico rigoroso.
O estudo apontou que, apesar das promessas, as ferramentas atuais não substituem métodos tradicionais de revisão bibliográfica, sendo mais adequadas para exploração inicial de temas ou formulação de hipóteses. A Gemini foi a que melhor incorporou fontes acadêmicas, mas com apenas cinco citações em 58 fontes utilizadas, enquanto o Undermind se destacou por priorizar artigos de alto impacto. A falta de acesso a indexadores consolidados, como Scopus e Web of Science, limita a profundidade das pesquisas realizadas por essas plataformas.
O artigo conclui que, embora as ferramentas de pesquisa profunda representem um avanço, sua adoção na academia exige cautela e uma abordagem híbrida, combinando IA com supervisão humana. Questões como transparência, replicabilidade e ética precisam ser endereçadas para garantir a integridade científica. Enquanto isso, essas tecnologias podem ser úteis para gestores públicos e pesquisadores iniciantes, desde que utilizadas de forma crítica e complementar.