Ir para o conteúdo Pular para o rodapé

Falhas ocultas por trás da precisão de nível especialista da visão multimodal do GPT-4 na medicina

Publicado este ano, o artigo “Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine“, em português do Brasil “Falhas ocultas por trás da precisão de nível especialista da visão multimodal do GPT-4 na medicina”[1], conduziu um estudo comparativo entre o ChatGPT, alunos de medicina e médicos especialistas.

No artigo, o GPT-4V foi usado sem internet, correspondendo a um humano sem acesso à consulta livre.

De forma bastante resumida pode-se dizer que o resultado foi o seguinte:

Precisão Superior: GPT-4V superou médicos em questões de múltipla escolha (81,6% vs. 77,8%).

Problemas Identificados: Apesar da alta precisão, 35,5% das justificativas de GPT-4V eram falhas, especialmente na compreensão de imagens (27,2%).

Desempenho Humano: Médicos tiveram melhor desempenho em cenários de consulta (open-book) com 95,2% de acertos.

Conclusão: GPT-4V precisa de avaliações mais detalhadas antes da integração clínica para avaliação de imagens e, como próximos passos, um novo estudo que compare o GPT-4V com acesso à internet, ou seja, consultando livremente como os médicos que obtiveram 95,2% de acertos.

Referência:

  1. Jin, Q., Chen, F., Zhou, Y. et al. Falhas ocultas por trás da precisão de nível de especialista da visão multimodal GPT-4 na medicina. npj Digit. Med. 7, 190 (2024).

https://serx.app/lk/26669eb4

× Quero saber +