PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA (PPGI)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
Não informado

Notícias


Banca de QUALIFICAÇÃO: SARAH ANDRADE TOSCANO DE CARVALHO

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: SARAH ANDRADE TOSCANO DE CARVALHO
DATA: 25/08/2025
HORA: 09:00
LOCAL: Laboratório ARIA
TÍTULO: Aplicação de Modelos BERT na Classificação de Consultas Fiscais: Uma Abordagem Baseada em Dados Reais da SEFAZ-PB
PALAVRAS-CHAVES: BERT, Processamento de Linguagem Natural, Classificação de Texto, Aumento de Dados, ICMS, IPVA, SefazVirtual.
PÁGINAS: 50
RESUMO: A classificação automática de consultas fiscais submetidas a sistemas públicos digitais, como o SefazVirtual da Secretaria da Fazenda do Estado da Paraíba (SEFAZ - PB), é um desafio devido à sobreposição temática entre categorias e à ambiguidade linguística, agravados pela escassez de dados. A pesquisa tem como objetivo principal realizar a aplicação de modelos baseados na arquitetura BERT (Bidirectional Encoder Representations from Transformers) para mitigar esses problemas, avaliando estratégias de fine-tuning combinadas a aumento de dados e enriquecimento semântico por meio de definições de rótulos. O conjunto de dados, composto por mensagens distribuídas em cinco categorias relacionadas ao Imposto sobre Circulação de Mercadorias e Serviços (ICMS) e ao Imposto sobre a Propriedade de Veículos Automotores (IPVA), passou por pré-processamento com anonimização (em conformidade com a Lei Geral de Proteção de Dados – LGPD), normalização textual, tokenização e remoção de palavras irrelevantes. Foram conduzidas duas configurações experimentais de treinamento: BERT-base e BERT-large, cada uma testada em duas versões do conjunto de dados — original e enriquecido, sendo este último obtido por reescrita controlada das consultas com apoio do ChatGPT e pela ampliação das definições de rótulos. Os resultados foram comparados com o desempenho do modelo LLaMA 70B em cenários de zero-shot e few-shot prompting. A avaliação, baseada em acurácia, precisão, revocação e F1-Score, mostrou que o aumento de dados elevou a acurácia do BERT-large de 0,62 para 0,77 e do BERT-base de 0,62 para 0,66, enquanto o LLaMA 70B alcançou at ́e 0,87 em few-shot com 20 exemplos. Esses resultados confirmam a viabilidade de arquiteturas transformer ajustadas ao domínio fiscal como alternativa eficiente para otimizar o encaminhamento de consultas e reduzir atrasos. Como próximos passos, prevê-se a ampliação do conjunto de dados para novas categorias da SEFAZ-PB e a investigação de modelos transformer adicionais ou arquiteturas mais leves que mantenham bom desempenho com menor custo computacional.
MEMBROS DA BANCA:
Interno - 1743917 - THAIS GAUDENCIO DO REGO
Interno - 2813926 - TIAGO MARITAN UGULINO DE ARAUJO
Externo ao Programa - 3089218 - TELMO DE MENEZES E SILVA FILHO
Externo ao Programa - 1827772 - YURI DE ALMEIDA MALHEIROS BARBOSA