ChatGPT supera habilidade diagnóstica de médicos em estudo nos EUA

Plataforma de inteligência artificial atingiu a pontuação máxima em análise de diagnósticos, mas houve mais erros na capaciedade de raciocínio clínico; entenda

Por Redação Galileu


Médico segurando celular National Cancer Institute/Unsplash

Entre as profissões que têm a inteligência artificial (IA) como aliada está a medicina. Segundo um estudo publicado no periódico Jama Network Open, a tecnologia já é capaz de se igualar a médicos na hora de cravar diagnósticos.

A pesquisa foi conduzida por estudiosos do Centro Médico Beth Israel Deaconess (BIDMC), em Boston, nos Estados Unidos. A equipe utilizou uma ferramenta denominada revised-IDEA (r-IDEA), que foi desenvolvida para avaliar o raciocínio clínico dos médicos e da plataforma de inteligência artificial chatbot GPT-4, da empresa estadunidense Open AI.

Foram recrutados para o estudo 21 médicos assistentes e 18 residentes. Cada um trabalhou em um dos 20 casos clínicos selecionados. A investigação era composta por quatro estágios sequenciais de raciocínio diagnóstico, e os participantes foram instruídos a escrever e justificar suas análises clínicas em cada estágio.

Paralelamente, o chatbot GPT-4 — plataforma baseada em modelo de linguagem grande (LLM, na sigla em inglês) — recebeu instruções idênticas às dos médicos e avaliou todos os 20 casos clínicos. Mais conhecido como ChatGPT, o sistema é capaz de entender e gerar textos semelhantes aos escritos por humanos.

"A primeira etapa é a triagem dos dados, quando o paciente conta o que está incomodando e você obtém os sinais vitais", explica a autora principal Stephanie Cabral, residente no terceiro ano em medicina interna no BIDMC, em comunicado. "A segunda etapa é a revisão do sistema, quando você obtém informações adicionais do paciente. A terceira é o exame físico, e a quarta é a realização de testes diagnósticos e exames de imagem."

As respostas geradas por IA foram avaliadas pela ferramenta r-IDEA e obtiveram as melhores pontuações: a média dos médicos assistentes foi 9; dos residentes, 8; e do ChatGPT, 10. Houve um empate entre os médicos e a plataforma em relação à precisão do diagnóstico.

Por outro lado, na avaliação de raciocínio clínico, houve erros mais frequentes nas respostas pelo chatbot do que pelos residentes. Isso demonstra que a tecnologia é útil como uma ferramenta de auxílio, e não de substituição da avaliação clínica humana.

"Estudos iniciais sugeriam que a IA poderia fazer diagnósticos, se todas as informações lhe fossem fornecidas", destaca Adam Rodman, pesquisador do BIDMC. "O que nosso estudo mostra é que a IA demonstra um raciocínio real — talvez um raciocínio melhor do que as pessoas em múltiplos passos do processo. Temos uma chance única de melhorar a qualidade e a experiência da assistência médica para os pacientes."

Mais recente Próxima Homem com implante da Neuralink joga Mario Kart com a mente; veja vídeo

Leia mais