Publicado este ano, o artigo “Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine“, em português do Brasil “Falhas ocultas por trás da precisão de nível especialista da visão multimodal do GPT-4 na medicina”[1], conduziu um estudo comparativo entre o ChatGPT, alunos de medicina e médicos especialistas.
No artigo, o GPT-4V foi usado sem internet, correspondendo a um humano sem acesso à consulta livre.
De forma bastante resumida pode-se dizer que o resultado foi o seguinte:
Precisão Superior: GPT-4V superou médicos em questões de múltipla escolha (81,6% vs. 77,8%).
Problemas Identificados: Apesar da alta precisão, 35,5% das justificativas de GPT-4V eram falhas, especialmente na compreensão de imagens (27,2%).
Desempenho Humano: Médicos tiveram melhor desempenho em cenários de consulta (open-book) com 95,2% de acertos.
Conclusão: GPT-4V precisa de avaliações mais detalhadas antes da integração clínica para avaliação de imagens e, como próximos passos, um novo estudo que compare o GPT-4V com acesso à internet, ou seja, consultando livremente como os médicos que obtiveram 95,2% de acertos.
Referência:
- Jin, Q., Chen, F., Zhou, Y. et al. Falhas ocultas por trás da precisão de nível de especialista da visão multimodal GPT-4 na medicina. npj Digit. Med. 7, 190 (2024).