PROGRAMA DE PÓS-GRADUAÇÃO EM ODONTOLOGIA (PPGO)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
3216/7797

Notícias


Banca de QUALIFICAÇÃO: ARTHUR MARQUES ANDRADE

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: ARTHUR MARQUES ANDRADE
DATA: 03/03/2026
HORA: 14:00
LOCAL: Uso de recursos à distância
TÍTULO: Desempenho e estabilidade de modelos de linguagem de grande escala na odontologia quanto à consistência teórica e ao planejamento protético radiográfico
PALAVRAS-CHAVES: Odontologia; Inteligência Artificial Generativa; Modelos de Linguagem de Grande Escala; Planejamento de Prótese Dentária; Prótese Dentária.
PÁGINAS: 65
RESUMO: A crescente incorporação de modelos de linguagem de grande escala (Large Language Models – LLMs) na odontologia exige validação científica quanto à sua acurácia, estabilidade lógica, consistência semântica e aplicabilidade clínica, especialmente em contextos que demandam raciocínio diagnóstico estruturado e interpretação radiográfica para planejamento protético. Assim, esta dissertação teve como objetivo geral avaliar o desempenho, a estabilidade do raciocínio e a confiabilidade clínica de LLMs na odontologia. Para atingir esse propósito, o trabalho foi estruturado em duas investigações complementares. O primeiro estudo teve como finalidade analisar a acurácia, a estabilidade argumentativa e a coerência semântica das respostas de um LLM (ChatGPT) em um exame nacional de proficiência odontológica, utilizando-o como referência padronizada de avaliação teórica. O segundo estudo foi delineado para avaliar a precisão e a qualidade clínica das respostas geradas por LLMs na interpretação de radiografias odontológicas destinadas ao planejamento protético. Foram avaliadas 720 respostas geradas a partir das 40 questões do Exame Nacional de Proficiência em Odontologia (2024), distribuídas em 18 condições experimentais que combinaram diferentes versões do modelo, tipos de prompt e modos de interação. A acurácia global foi de 71,1% (512/720), variando entre 60,0% e 82,5%. O domínio do conhecimento foi o principal preditor de desempenho (χ²=188; p<0,001). A presença de imagem associou-se à redução da chance de acerto na regressão logística (OR=0,343; IC95% 0,153–0,769; p=0,009), embora esse efeito não tenha sido mantido no modelo misto generalizado. A análise de similaridade semântica das justificativas revelou escores médios entre 0,71 e 0,80, e as variáveis experimentais explicaram apenas 12,7% da variabilidade total (R²=0,127), indicando elevada estabilidade estrutural do raciocínio gerado pelo modelo. No segundo estudo, foram selecionadas 90 radiografias digitais provenientes de banco institucional, sendo 30 panorâmicas de pacientes edêntulos totais, 30 periapicais para planejamento de prótese parcial removível e 30 periapicais para prótese fixa. Foi elaborado um comando clínico padronizado contendo instruções específicas para análise diagnóstica e planejamento protético, o qual foi aplicado de forma idêntica a ambas as plataformas (ChatGPT Plus e Google Gemini Plus), garantindo controle das variáveis linguísticas. Cada imagem foi inserida individualmente, sem fornecimento de informações clínicas adicionais, e as respostas foram coletadas integralmente e armazenadas para análise posterior. As respostas geradas por ChatGPT Plus e Google Gemini Plus foram avaliadas por dois especialistas em Prótese Dentária em oito domínios clínicos, utilizando escala Likert de cinco pontos. Na análise descritiva, os escores globais médios situaram-se na faixa intermediária da escala (3,0–3,7), com desempenho consistentemente superior do Gemini Plus em relação ao ChatGPT Plus. Modelos lineares mistos foram aplicados considerando chatbot e tipo de imagem como efeitos fixos e caso e avaliador como efeitos aleatórios. A partir destes modelos lineares mistos, observouse efeito principal estatisticamente significativo do chatbot sobre o escore global (p<0,001), sendo a média estimada do Gemini Plus superior à do ChatGPT Plus, com diferença aproximada de 0,32 pontos. O tipo de imagem também influenciou significativamente o desempenho (p<0,001), sendo as radiografias periapicais destinadas à prótese fixa associadas a escores inferiores. Não houve interação significativa entre chatbot e tipo de imagem (p>0,05), indicando estabilidade do padrão comparativo entre plataformas nos diferentes contextos radiográficos Resultados semelhantes foram observados nos domínios individuais, com destaque para o domínio integridade, no qual se verificou diferença superior a 0,5 ponto, com médias estimadas maiores para o Gemini (p<0,001). A variância atribuída ao avaliador foi mínima, reforçando a robustez das estimativas obtidas. Conclui-se que os LLMs demonstram acurácia moderada e elevada estabilidade semântica em avaliações teóricas, além de desempenho clínico intermediário na interpretação radiográfica em Prótese Dentária, com diferenças entre plataformas e sensibilidade à complexidade da imagem. Do ponto de vista clínico e educacional, os achados sustentam a integração cautelosa dessas tecnologias como ferramentas auxiliares no ensino e no apoio à decisão, ressaltando, contudo, a necessidade de validação contínua das respostas e a manutenção do julgamento clínico especializado como elemento central na condução de casos complexos.
MEMBROS DA BANCA:
Externo(a) à Instituição - GUILHERME ALMEIDA BORGES
Externo(a) à Instituição - MARIANA BARBOSA CÂMARA DE SOUZA
Presidente(a) - 3359058 - RENALLY BEZERRA WANDERLEY E LIMA