PROGRAMA DE PÓS-GRADUAÇÃO EM ODONTOLOGIA (PPGO)
UNIVERSIDADE FEDERAL DA PARAÍBA
- Telefone/Ramal
-
3216/7797
Notícias
Banca de QUALIFICAÇÃO: ARTHUR MARQUES ANDRADE
Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: ARTHUR MARQUES ANDRADE
DATA: 03/03/2026
HORA: 14:00
LOCAL: Uso de recursos à distância
TÍTULO: Desempenho e estabilidade de modelos de linguagem de grande
escala na odontologia quanto à consistência teórica e ao planejamento protético
radiográfico
PALAVRAS-CHAVES: Odontologia; Inteligência Artificial Generativa; Modelos de
Linguagem de Grande Escala; Planejamento de Prótese Dentária; Prótese Dentária.
PÁGINAS: 65
RESUMO: A crescente incorporação de modelos de linguagem de grande escala
(Large Language Models LLMs) na odontologia exige validação científica quanto à
sua acurácia, estabilidade lógica, consistência semântica e aplicabilidade clínica,
especialmente em contextos que demandam raciocínio diagnóstico estruturado e
interpretação radiográfica para planejamento protético. Assim, esta dissertação teve
como objetivo geral avaliar o desempenho, a estabilidade do raciocínio e a
confiabilidade clínica de LLMs na odontologia. Para atingir esse propósito, o trabalho
foi estruturado em duas investigações complementares. O primeiro estudo teve como
finalidade analisar a acurácia, a estabilidade argumentativa e a coerência semântica
das respostas de um LLM (ChatGPT) em um exame nacional de proficiência
odontológica, utilizando-o como referência padronizada de avaliação teórica. O
segundo estudo foi delineado para avaliar a precisão e a qualidade clínica das
respostas geradas por LLMs na interpretação de radiografias odontológicas
destinadas ao planejamento protético. Foram avaliadas 720 respostas geradas a
partir das 40 questões do Exame Nacional de Proficiência em Odontologia (2024),
distribuídas em 18 condições experimentais que combinaram diferentes versões do modelo, tipos de prompt e modos de interação. A acurácia global foi de 71,1%
(512/720), variando entre 60,0% e 82,5%. O domínio do conhecimento foi o principal
preditor de desempenho (χ²=188; p<0,001). A presença de imagem associou-se à
redução da chance de acerto na regressão logística (OR=0,343; IC95% 0,1530,769;
p=0,009), embora esse efeito não tenha sido mantido no modelo misto generalizado.
A análise de similaridade semântica das justificativas revelou escores médios entre
0,71 e 0,80, e as variáveis experimentais explicaram apenas 12,7% da variabilidade
total (R²=0,127), indicando elevada estabilidade estrutural do raciocínio gerado pelo
modelo. No segundo estudo, foram selecionadas 90 radiografias digitais provenientes
de banco institucional, sendo 30 panorâmicas de pacientes edêntulos totais, 30
periapicais para planejamento de prótese parcial removível e 30 periapicais para
prótese fixa. Foi elaborado um comando clínico padronizado contendo instruções
específicas para análise diagnóstica e planejamento protético, o qual foi aplicado de
forma idêntica a ambas as plataformas (ChatGPT Plus e Google Gemini Plus),
garantindo controle das variáveis linguísticas. Cada imagem foi inserida
individualmente, sem fornecimento de informações clínicas adicionais, e as respostas
foram coletadas integralmente e armazenadas para análise posterior. As respostas
geradas por ChatGPT Plus e Google Gemini Plus foram avaliadas por dois
especialistas em Prótese Dentária em oito domínios clínicos, utilizando escala Likert
de cinco pontos. Na análise descritiva, os escores globais médios situaram-se na
faixa intermediária da escala (3,03,7), com desempenho consistentemente superior
do Gemini Plus em relação ao ChatGPT Plus. Modelos lineares mistos foram
aplicados considerando chatbot e tipo de imagem como efeitos fixos e caso e
avaliador como efeitos aleatórios. A partir destes modelos lineares mistos, observouse efeito principal estatisticamente significativo do chatbot sobre o escore global
(p<0,001), sendo a média estimada do Gemini Plus superior à do ChatGPT Plus, com
diferença aproximada de 0,32 pontos. O tipo de imagem também influenciou
significativamente o desempenho (p<0,001), sendo as radiografias periapicais
destinadas à prótese fixa associadas a escores inferiores. Não houve interação
significativa entre chatbot e tipo de imagem (p>0,05), indicando estabilidade do
padrão comparativo entre plataformas nos diferentes contextos radiográficos Resultados semelhantes foram observados nos domínios individuais, com destaque
para o domínio integridade, no qual se verificou diferença superior a 0,5 ponto, com
médias estimadas maiores para o Gemini (p<0,001). A variância atribuída ao
avaliador foi mínima, reforçando a robustez das estimativas obtidas. Conclui-se que
os LLMs demonstram acurácia moderada e elevada estabilidade semântica em
avaliações teóricas, além de desempenho clínico intermediário na interpretação
radiográfica em Prótese Dentária, com diferenças entre plataformas e sensibilidade
à complexidade da imagem. Do ponto de vista clínico e educacional, os achados
sustentam a integração cautelosa dessas tecnologias como ferramentas auxiliares no
ensino e no apoio à decisão, ressaltando, contudo, a necessidade de validação
contínua das respostas e a manutenção do julgamento clínico especializado como
elemento central na condução de casos complexos.
MEMBROS DA BANCA:
Externo(a) à Instituição - GUILHERME ALMEIDA BORGES
Presidente(a) - 3359058 - RENALLY BEZERRA WANDERLEY E LIMA