PROGRAMA DE PÓS-GRADUAÇÃO EM ODONTOLOGIA (PPGO)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
3216/7797

Notícias


Banca de DEFESA: ARTHUR MARQUES ANDRADE

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: ARTHUR MARQUES ANDRADE
DATA: 08/04/2026
HORA: 08:00
LOCAL: Auditório do PPGO
TÍTULO: Desempenho e estabilidade de modelos de linguagem de grande escala na odontologia quanto à consistência teórica e ao planejamento protético radiográfico.
PALAVRAS-CHAVES: Odontologia; Inteligência Artificial Generativa; Modelos de Linguagem de Grande Escala; Planejamento de Prótese Dentária; Prótese Dentária.
PÁGINAS: 110
GRANDE ÁREA: Ciências da Saúde
ÁREA: Odontologia
RESUMO: A incorporação de modelos de linguagem de grande escala (Large Language Models - LLMs) na odontologia exige validação quanto à acurácia, estabilidade semântica e aplicabilidade clínica, especialmente em contextos que envolvem raciocínio diagnóstico e interpretação radiográfica para planejamento protético. Esta dissertação teve como objetivo avaliar o desempenho, a estabilidade do raciocínio e a confiabilidade clínica de LLMs na odontologia, por meio de duas investigações complementares. No primeiro estudo, avaliou-se o desempenho do ChatGPT no Exame Nacional de Proficiência em Odontologia (2024), considerando acurácia, consistência e similaridade semântica das justificativas. Foram analisadas 720 respostas geradas a partir de 40 questões, distribuídas em 12 condições experimentais que combinaram versão do modelo, tipo de prompt e modo de envio. A acurácia global foi de 71,1% (512/720), variando de 60,0% a 82,5%. A versão do modelo, o tipo de comando, o modo de envio e a presença de imagens não apresentaram associação significativa com a correção das respostas no modelo misto generalizado, enquanto a temática da questão foi o único preditor significativo de desempenho (χ²=28,780; p=0,037). A concordância entre operadores na versão gratuita foi moderada (κ=0,521; IC95% 0,395-0,646), com concordância simples global de 80,8%. A análise de similaridade semântica mostrou escores médios entre 0,710 e 0,801, indicando elevada estabilidade semântica das justificativas, mesmo diante de diferenças operacionais de uso. No segundo estudo, avaliou-se a qualidade das respostas geradas por ChatGPT Plus e Google Gemini Plus na interpretação de 90 radiografias destinadas ao planejamento protético, sendo 30 panorâmicas de pacientes edêntulos, 30 periapicais para avaliação de pilares de prótese parcial removível e 30 periapicais para planejamento de prótese fixa sobre dente. As respostas foram analisadas por dois especialistas em Prótese Dentária em oito domínios distintos, por meio de escala Likert de cinco pontos. Os escores médios globais foram 3,13±0,85 para ChatGPT Plus e 3,45±0,91 para Gemini Plus. O modelo linear misto mostrou efeito significativo da plataforma, com superioridade do Gemini Plus (p<0,001), e do tipo de imagem, com pior desempenho nas radiografias periapicais destinadas ao planejamento de prótese fixa sobre dente (p<0,001). Não houve interação significativa entre plataforma e contexto radiográfico. O mesmo padrão foi observado nos domínios individuais. Não existiu variância atribuída ao avaliador. Conclui-se que os LLMs apresentam acurácia moderada e elevada estabilidade semântica em avaliações teóricas, sendo o tema da questão o principal determinante do desempenho. Na interpretação radiográfica para planejamento protético, observou-se desempenho intermediário, com superioridade consistente do Gemini Plus, porém com limitações no geral, porém, mais pronunciadas em casos de prótese fixa sobre dente. Os achados sustentam o uso cauteloso dessas tecnologias como ferramentas auxiliares no ensino e no apoio à decisão, sem substituição do julgamento clínico especializado em nenhum cenário.
MEMBROS DA BANCA:
Presidente(a) - 3475634 - MAYARA ABREU PINHEIRO
Externo(a) à Instituição - RAPHAEL CAVALCANTE COSTA
Interno(a) - 2332212 - YURI WANDERLEY CAVALCANTI