ChatGPT ainda não é muito bom no diagnóstico de doenças (acerta em apenas 49% das vezes), mostra novo estudo

Uma equipe de pesquisadores médicos da Escola de Medicina e Odontologia Schulich da Western University descobriu que o ChatGPT ainda não está pronto para ser usado em ambientes de diagnóstico para doenças humanas. Pesquisas anteriores e evidências anedóticas mostraram que modelos de linguagem grande (LLM) como o ChatGPT podem fornecer resultados impressionantes em algumas solicitações, como escrever um poema de amor para a namorada, mas também podem retornar respostas incorretas ou bizarras.

Bioestimulador de colágeno: Como funciona a técnica de rejuvenescimento usada por Kéfera e Bella Campos
Saiba riscos desses penteados: Por que rabo de cavalo e trança podem dar dor de cabeça?

Por isso, especialistas sugerem cautela ao usar os resultados produzidos por um desses modelos para tópicos importantes como conselhos de saúde. No novo estudo, pesquisadores do Canadá avaliaram quão bem o ChatGPT diagnosticaria doenças humanas se apresentasse sintomas de pacientes reais, conforme descrito em estudos de casos reais.

Eles escolheram 150 estudos de caso do Medscape, um site online criado e usado por profissionais médicos para fins informativos e educacionais, que foram acompanhados por um diagnóstico preciso e conhecido. Eles treinaram o ChatGPT 3.5 com dados pertinentes, como histórico do paciente, resultados laboratoriais e resultados de exames de consultório, e então solicitaram um diagnóstico e/ou um plano de tratamento.

Depois que a ferramenta retornou uma resposta, a equipe de pesquisa classificou seus resultados com base no quão próximo chegou do diagnóstico correto. Eles também avaliaram o quão bem ele relatou sua justificativa para chegar ao diagnóstico, incluindo a oferta de citações – uma parte importante do diagnóstico médico. Eles então calcularam a média das pontuações recebidas para todos os estudos de caso e os resultados, publicados no site de acesso aberto PLOS ONE, mostraram que o ChatGPT deu um diagnóstico correto apenas 49% das vezes.

Os investigadores observam que, embora o ChatGPT tenha obtido uma pontuação fraca, fez um bom trabalho ao descrever como chegou ao diagnóstico – uma característica que pode ser útil para estudantes de medicina, por exemplo. Eles também observaram que a inteligência artificial era razoavelmente bom em descartar possíveis doenças. No entanto, concluem que essa ferramenta ainda não está pronta para uso em ambientes de diagnóstico.

Um estudo anterior, publicado no JAMA Pediatrics em janeiro, apresentou uma taxa de acerto ainda menor para diagnósticos pediátricos. O trabalho, conduzido por um trio de especialistas do Centro Médico para Crianças Cohen, em Nova York, nos EUA, concluiu que a taxa de acerto para diagnóstico de doenças em crianças foi de somente 17% de acerto, e 83% de erro.

Ainda assim, os pesquisadores ponderam que "a maioria dos diagnósticos incorretos gerados pelo chatbot pertenciam ao mesmo sistema de órgãos do diagnóstico correto (por exemplo, psoríase e dermatite seborreica).

Por outro lado, existem trabalhos que apontam taxas altas de acerto. Um deles, que contou com pesquisadores da Universidade de Harvard, nos Estados Unidos, analisou 36 casos clínicos e apresentou uma precisão de 71,7% ao identificar os diagnósticos. Existem também casos específicos em que a ferramenta foi capaz de dar um diagnóstico preciso, quando médicos falharam.

Um menino foi diagnosticado com uma doença rara pelo ChatGPT depois de em 17 médicos, ao longo de três anos, falharam. Cansada de ver o filho doente e sem uma solução, a mãe compartilhou com o ChatGPT todos os sintomas e dados das ressonâncias magnéticas que a criança realizou ao longo dos anos.

Imediatamente, a ferramenta sugeriu um diagnóstico: síndrome da medula ancorada, condição rara que faz com que a medula vertebral se fixe de forma anormal ao canal, restringindo o fluxo sanguíneo à medida que as crianças crescem. Depois de receber o diagnóstico, o menino passou por uma cirurgia para corrigir a medula e se recupera com sucesso.

Diante disso, especialistas acreditam que há muito potencial para o uso desse tipo da ferramenta na medicina, só não agora. Em reportagem sobre o assunto, especialistas ouvidos pelo GLOBO disseram que nos próximos 10 anos existirá ferramentas tão potentes capazes de analisar informações de exames, históricos de pacientes e dados genéticos para fornecer, com precisão, sugestões de diagnósticos e melhores tratamentos para o profissional.

Mais recente Próxima José Dirceu tem alta hospitalar e seguirá tratamento para obstrução com estatinas

Inscreva-se na Newsletter: Saúde em dia

Saúde

ChatGPT ainda não é muito bom no diagnóstico de doenças (acerta em apenas 49% das vezes), mostra novo estudo

Segundo pesquisadores, ferramenta ainda não está precisa o suficiente para a identificação de doenças humanas

O orientação da segurança do STF aos ministros sobre o 7 de setembro

PDRN, lipolíticos, exossomas: cresce uso indevido de cosméticos injetáveis no Brasil; especialistas alertam para os riscos

MP ganha ação movida contra prédio que faz sombra na Praia de São Conrado

Sheron Menezzes, Natália Lage, Luciana Paes e Debora Lamm vão estrelar nova série do Globoplay

Vitaminas podem melhorar a memória? Qual suplemento pode te ajudar segundo estudo de Harvard

Metade das crianças refugiadas ao redor do mundo está fora da escola, aponta estudo da ONU

Impeachment de Alexandre de Moraes: a próxima aposta de aliados de Bolsonaro para pressionar Pacheco

Contas públicas: andamento de ‘pente-fino’ em benefícios neste ano indica dificuldades para 2025

Qual a ambição educacional do Brasil?

Ações da Hello Kitty disparam 86% em meio à onda de calor em Tóquio