PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA (PPGI)

UNIVERSIDADE FEDERAL DA PARAÍBA

Telefone/Ramal
Não informado

Notícias


Banca de QUALIFICAÇÃO: EWERTON LOPES SILVA DE OLIVEIRA

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: EWERTON LOPES SILVA DE OLIVEIRA
DATA: 29/08/2014
HORA: 08:00
LOCAL: CI/UFPB
TÍTULO: Uma avaliação do uso combinado de características para classificação automática de textos curtos
PALAVRAS-CHAVES: Inteligência artificial, aprendizagem de máquina, classificação de texto, rede sociais
PÁGINAS: 55
RESUMO: Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimento relacionados a saúde pública em geral. Essas pesquisas objetivaram essencialmente correlacionar o volume de informação coletada sobre uma determinada doença (por exemplo, gripe ou a dengue) com informações divulgadas por agências de governo (Culotta 2010; Lampos & Cristianini 2010, 2011; Lampos et al. 2010; Chen et al. 2010; Achrekar et al. 2011; Gomide et al. 2012) contribuindo para o surgimento de aplicações online de monitoramento da saúde pública. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o framework de aprendizagem supervisionada. De acordo com Sriram et al. [2010] e Tuarob et. al. [2013], a utilização de métodos de técnicas de classificação baseadas na representação por saco de palavras (bag-of-words) não estão adequados para a classificação de texto em ambientes de mídia social onde esparsividade e ruídos são comuns. Partindo disso, a pesquisa aqui proposta procura estudar melhorias do processo de classificação através da combinação de múltiplas características extraídas de mensagens curtas (tweets), tendo como base o trabalho de Tuarob et al. [2014]. No entanto, diferentemente dos autores, além do foco na extração (e uso combinado) de várias características para fins de redução de limitações no método de representação de documentos bag-of-words, avalia-se a exploração de técnicas de pré-processamento mais agressivas assim como a seleção de atributos mais discriminativos dentro dos tipos de características extraídas (sintáticas ou semânticas), na expectativa de reduzir a dimensionalidade envolvida e otimizar o processo de classificação. Em experimentação piloto, observou-se que o uso de medidas de pré-processamento sugeridas, em comparação com resultados recentes divulgados na literatura, oferece performance equiparável pela utilização de modelo de classificação menos complexo (Naive Bayes), fornecendo indícios práticos da relevância da pesquisa proposta.
MEMBROS DA BANCA:
Presidente - 2798885 - ANDREI DE ARAUJO FORMIGA
Interno - 1723491 - CLAUIRTON DE ALBUQUERQUE SIEBRA
Interno - 1743917 - THAIS GAUDENCIO DO REGO