PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA (PPGI)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
Não informado

Notícias


Banca de QUALIFICAÇÃO: DAVID PEREIRA GALVAO JUNIOR

Uma banca de QUALIFICAÇÃO de DOUTORADO foi cadastrada pelo programa.
DISCENTE: DAVID PEREIRA GALVAO JUNIOR
DATA: 27/02/2026
HORA: 14:00
LOCAL: Centro de Informática
TÍTULO: Problema da Subamostra não Viesada
PALAVRAS-CHAVES: subamostragem, otimização, aprendizagem de máquina
PÁGINAS: 36
RESUMO: Este trabalho propõe a formulação do Problema da Subamostragem Não Viesada (USP — \textit{Unbiased Subsampling Problem}), cujo objetivo é selecionar subconjuntos de treinamento capazes de preservar a capacidade de generalização do modelo original, minimizando a introdução de viés estatístico. A motivação central reside na necessidade de reduzir o custo computacional e a complexidade do treinamento sem comprometer o desempenho preditivo, particularmente o erro fora da amostra ($E_{out}$). O método proposto estrutura-se em duas etapas principais: (i) pré-processamento estatístico das variáveis, com aplicação hierárquica de técnicas de normalização, destacando-se o Escore Normal Inverso como a transformação mais eficaz, e (ii) seleção orientada de subamostras com base na preservação das propriedades distributivas e estruturais do conjunto original. A avaliação empírica foi conduzida em três grupos distintos de bases de dados, caracterizados por diferentes níveis de heterogeneidade estrutural, dimensionalidade numérica e complexidade categórica. Os resultados indicam que a eficácia da subamostragem guiada depende fortemente da estrutura estatística do conjunto de dados. Em bases com maior heterogeneidade ou redundância informacional (grupo A), observou-se redução consistente do erro médio $E_{out}$ em comparação com métodos clássicos e amostragem aleatória. No grupo B, verificou-se desempenho equivalente entre abordagens regularizadas, sugerindo representatividade amostral já adequada. Por outro lado, em bases de alta dimensionalidade numérica ou elevada complexidade categórica (grupo C), a redução do conjunto de treinamento comprometeu a generalização, com superioridade do método clássico. Adicionalmente, constatou-se que a ausência de regularização conduz sistematicamente a \textit{overfitting}, evidenciado por reduções artificiais do $E_{in}$ (erro na base de treino) acompanhadas de aumento em $E_{out}$. Conclui-se que o benefício da subamostragem não está associado ao tamanho absoluto da base de dados, mas à sua estrutura estatística e distribuição das variáveis, sendo particularmente vantajosa em cenários com redundância estrutural e heterogeneidade controlada.
MEMBROS DA BANCA:
Presidente(a) - 1175878 - LUCIDIO DOS ANJOS FORMIGA CABRAL
Interno(a) - 1893777 - BRUNO JEFFERSON DE SOUSA PESSOA
Interno(a) - 2551745 - GILBERTO FARIAS DE SOUSA FILHO
Externo(a) ao Programa - 1214252 - LUCIANO CARLOS AZEVEDO DA COSTA
Externo(a) à Instituição - THIAGO GOUVEIA DA SILVA