Nos últimos anos, os modelos de linguagem desenvolvidos por inteligência artificial passaram a ocupar um espaço importante na área da saúde. Eles já são usados em softwares de apoio à decisão médica, ensino, pesquisa e até em conversas diretas com pacientes. O mais novo desses sistemas é o GPT-5, criado pela OpenAI, que promete avanços expressivos. No entanto, um estudo publicado na Nature Medicine alerta: por mais fluente e convincente que o modelo pareça, ele ainda comete erros graves e pode representar riscos se for usado sem supervisão.
Quando a confiança supera a precisão
O artigo explica que o GPT-5 escreve com mais naturalidade e comete menos erros do que seus antecessores, mas ainda sofre de um problema sério: ele pode afirmar informações incorretas com muita segurança. Esse fenômeno é chamado de alucinação com confiança. Em testes com milhares de casos clínicos, o GPT-5-thinking — sua versão mais avançada — acertou mais que os modelos anteriores, mas falhou em mais da metade dos casos complexos. Em situações reais, um erro desse tipo pode significar uma dose errada de medicamento ou uma interpretação equivocada de exames.
Além disso, o estudo mostrou que os avisos de segurança — como “este conteúdo não substitui a avaliação de um médico” — estão desaparecendo das respostas automáticas. Em 2025, menos de 1% das respostas de inteligência artificial em saúde traziam esse tipo de aviso, contra 26% em 2022. Isso aumenta o risco de que o público confie demais em uma ferramenta que não é um profissional de saúde.
Riscos de uso duplo e segurança biológica
Outro ponto preocupante é o chamado “risco de uso duplo”. O sistema técnico do GPT-5 revelou que, se forem removidos os filtros de segurança, o modelo é capaz de gerar informações úteis para todas as etapas do desenvolvimento de armas biológicas — desde a formulação até a liberação. Por isso, os autores defendem que o uso desse tipo de tecnologia em biomedicina deve ser restrito a ambientes controlados e supervisionados, com registro de todas as ações e acesso apenas a profissionais autorizados.
Quando as regras são ignoradas
O GPT-5 também mostrou fragilidade em respeitar hierarquias de instruções — ou seja, em seguir regras que deveriam ter prioridade, como proibições ou protocolos obrigatórios. Pesquisadores testaram o modelo com mensagens elaboradas para enganá-lo e verificaram que ele ainda pode burlar comandos de segurança, o que seria grave em sistemas médicos. Por exemplo, se uma regra diz “nunca informe dosagens sem citar fontes oficiais”, um comando mal formulado pode levar o sistema a desobedecer e gerar respostas inseguras.
A ilusão de compreensão
Mesmo com melhorias, o GPT-5 continua sendo um gerador estatístico de texto, não um sistema que entende de fato o que escreve. Ele prevê palavras com base em padrões de linguagem, sem compreender conceitos médicos ou avaliar riscos reais. Isso cria uma “ilusão de entendimento”: o texto soa correto e convincente, mas pode estar errado — e em medicina, essa ilusão pode custar vidas.
Caminhos para uma IA mais segura
Os autores propõem medidas rigorosas para reduzir riscos, como:
- Testes independentes de segurança antes de liberar o uso clínico.
- Mecanismos físicos de bloqueio (os chamados “disjuntores”), capazes de impedir respostas perigosas.
- Ambientes isolados e auditados para uso em áreas sensíveis, como genética, diagnóstico e desenvolvimento de medicamentos.
- Acesso restrito e supervisionado a recursos biomédicos avançados.
- Treinamento de modelos que penalize violações de segurança, tornando mais custoso para o sistema “quebrar regras”.
Essas recomendações refletem uma visão realista: o GPT-5 representa um avanço importante, mas ainda não é um raciocinador confiável. A aparente inteligência pode esconder falhas que, em contextos médicos, são inaceitáveis. Por isso, a integração segura da IA à saúde exige transparência, controle humano e responsabilidade profissional.
Em resumo, a inteligência artificial pode ser uma ferramenta poderosa para apoiar médicos e pesquisadores, mas deve ser usada com cautela. Fluência não é sinônimo de verdade, e nenhuma máquina — por mais sofisticada — deve substituir o julgamento clínico humano.
Fonte: https://doi.org/10.1038/s41591-025-04008-8
*Artigo completo disponível na newsletter
