PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA (PPGI)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
Não informado

Notícias


Banca de DEFESA: EWERTON LOPES SILVA DE OLIVEIRA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: EWERTON LOPES SILVA DE OLIVEIRA
DATA: 23/02/2015
HORA: 14:00
LOCAL: Escola de Redes
TÍTULO: Classificação de tópicos para textos curtos em redes sociais
PALAVRAS-CHAVES: Inteligência artificial, aprendizagem de máquina, classificação de texto, rede sociais
PÁGINAS: 90
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Sistemas de Informação
RESUMO: Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas.
MEMBROS DA BANCA:
Presidente - 2798885 - ANDREI DE ARAUJO FORMIGA
Interno - 2636257 - NATASHA CORREIA QUEIROZ LINO
Interno - 1743917 - THAIS GAUDENCIO DO REGO
Externo à Instituição - THIAGO PEREIRA FALCAO