Seleção de atributos para aprendizagem multirrótulo

Spolaôr, Newton

doi:10.11606/T.55.2014.tde-25032015-160505

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.55.2014.tde-25032015-160505

Documento

Tese de Doutorado

Autor

Spolaôr, Newton (Catálogo USP)

Nome completo

Newton Spolaôr

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2014-09-24

Imprenta

São Carlos, 2014

Orientador

Monard, Maria Carolina (Catálogo USP)
Lee, Huei Diana - (Coorientador) (Catálogo USP)

Banca examinadora

Monard, Maria Carolina (Presidente)
Hruschka Júnior, Estevam Rafael
Lee, Huei Diana
Lorena, Ana Carolina
Meira, Carlos Alberto Alves

Título em português

Seleção de atributos para aprendizagem multirrótulo

Palavras-chave em português

Construção de rótulos
Ganho de informação
ReliefF
Revisão sistemática
Seleção de atributos multirrótulo

Resumo em português

A presença de atributos não importantes, i.e., atributos irrelevantes ou redundantes nos dados, pode prejudicar o desempenho de classificadores gerados a partir desses dados por algoritmos de aprendizado de máquina. O objetivo de algoritmos de seleção de atributos consiste em identificar esses atributos não importantes para removê-los dos dados antes da construção de classificadores. A seleção de atributos em dados monorrótulo, nos quais cada exemplo do conjunto de treinamento é associado com somente um rótulo, tem sido amplamente estudada na literatura. Entretanto, esse não é o caso para dados multirrótulo, nos quais cada exemplo é associado com um conjunto de rótulos (multirrótulos). Além disso, como esse tipo de dados usualmente apresenta relações entre os rótulos do multirrótulo, algoritmos de aprendizado de máquina deveriam considerar essas relações. De modo similar, a dependência de rótulos deveria também ser explorada por algoritmos de seleção de atributos multirrótulos. A abordagem filtro é uma das mais utilizadas por algoritmos de seleção de atributos, pois ela apresenta um custo computacional potencialmente menor que outras abordagens e utiliza características gerais dos dados para calcular as medidas de importância de atributos. tais como correlação de atributo-classe, entre outras. A hipótese deste trabalho é trabalho é que algoritmos de seleção de atributos em dados multirrótulo que consideram a dependência de rótulos terão um melhor desempenho que aqueles que ignoram essa informação. Para tanto, é proposto como objetivo deste trabalho o projeto e a implementação de algoritmos filtro de seleção de atributos multirrótulo que consideram relações entre rótulos. Em particular, foram propostos dois métodos que levam em conta essas relações por meio da construção de rótulos e da adaptação inovadora do algoritmo de seleção de atributos monorrótulo ReliefF. Esses métodos foram avaliados experimentalmente e apresentam bom desempenho em termos de redução no número de atributos e qualidade dos classificadores construídos usando os atributos selecionados.

Título em inglês

Feature selection for multi-label learning

Palavras-chave em inglês

Information gain
Label construction
Multi-label feature selection
ReliefF
Systematic review

Resumo em inglês

Irrelevant and/or redundant features in data can deteriorate the performance of the classifiers built from this data by machine learning algorithms. The aim of feature selection algorithms consists in identifying these features and removing them from data before constructing classifiers. Feature selection in single-label data, in which each instance in the training set is associated with only one label, has been widely studied in the literature. However, this is not the case for multi-label data, in which each instance is associated with a set of labels. Moreover, as multi-label data usually exhibit relationships among the labels in the set of labels, machine learning algorithms should take thiis relatinship into account. Therefore, label dependence should also be explored by multi-label feature selection algorithms. The filter approach is one of the most usual approaches considered by feature selection algorithms, as it has potentially lower computational cost than approaches and uses general properties from data to calculate feature importance measures, such as the feature-class correlation. The hypothesis of this work is that feature selection algorithms which consider label dependence will perform better than the ones that disregard label dependence. To this end, ths work proposes and develops filter approach multi-label feature selection algorithms which take into account relations among labels. In particular, we proposed two methods that take into account these relations by performing label construction and adapting the single-label feature selection algorith RelieF. These methods were experimentally evaluated showing good performance in terms of feature reduction and predictability of the classifiers built using the selected features.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

teseRevisada_NewtonSpolaor.pdf (53.91 Mbytes)

Data de Publicação

2015-03-25

Trabalhos decorrentes

AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.

CHERMAN, E., et al. Lazy Multi-label Learning Algorithms Based on Mutuality Strategies [doi:10.1007/s10846-014-0144-4]. Journal of Intelligent & Robotic Systems [online], 2014, p. 1-16.
SPOLAOR, N., et al. A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach [doi:10.1016/j.entcs.2013.02.010]. Electronic Notes in Theoretical Computer Science [online], 2013, vol. 292, p. 135-151.
TOMAS, J. T., et al. A Framework to Generate Synthetic Multi-label Datasets [doi:10.1016/j.entcs.2014.01.025]. Electronic Notes in Theoretical Computer Science [online], 2014, vol. 302, p. 155-176.
SPOLAOR, N., et al. Filter Approach Feature Selection Methods to Support Multi-label Learning Based on ReliefF and Information Gain [doi:10.1007/978-3-642-34459-6_8]. In 21th Brazilian Symposium on Artificial Intelligence, Curitiba, 2012. Advances in Artificial Intelligence - SBIA 2012, Lecture Notes in Artificial Intelligence. : Spinger, 2012.
SPOLAOR, N., CHERMAN, E., e MONARD, M. C. Uso do ReliefF para Seleção de Atributos em Dados Multirrótulo. In Conferencia Latinoamericana de Informática, Qhito, 2011. Anais CLEI.Qhito, 2011. Dispon?vel em: http://www.labic.icmc.usp.br/pub/mcmonard/SpolaorCLEI2011.pdf.
SPOLAOR, NEWTON, et al. ReliefF for Multi-label Feature Selection [doi:10.1109/BRACIS.2013.10]. In 2013 Brazilian Conference on Intelligent Systems (BRACIS), Fortaleza. 2013 Brazilian Conference on Intelligent Systems. : IEEE, 2013.
TOMAS, J. T., et al. A Framework to Generate Synthetic Multi-label Datasets. In Conferencia Latinoamericana de Informática, Caracas, 2013. Proceedings of the XXXIX Latin American Computing Conference - Special Edition., 2013. Available from: http://www.labic.icmc.usp.br/pub/mcmonard/TomasCLEI2013.pdf.
TOMAS, J. T., et al. Geração de Conjuntos de Dados Sintéticos para Aprendizado Multirrótulo. In Simpósio de Iniciação Científica da USP, São Paulo, 2012. 20 SIICUSP.São Paulo : USP, 2012. Resumo. Dispon?vel em: http://https://uspdigital.usp.br/siicusp/cdOnlineTrabalhoVisualizarResumo?numeroInscricaoTrabalho=1202&numeroEdicao=20.
CARVALHO, V. A. M., et al. A Framework for Multi-label Exploratory Data Analysis: ML-EDA. In Conferencia Latinoamericana de Informática, Montevideo, 2014. Anais da XL Conferencia Latinoamericana de Informática. : IEEE, 2014. Dispon?vel em: http://www.labic.icmc.usp.br/pub/mcmonard/CarvalhoCLEI2014.pdf.
CARVALHO, V. A. M., SPOLAOR, N., e MONARD, M. C. Análise Exploratória de Dados Multirrótulo. In Simpósio de Iniciação Científica da USP, São Paulo, 2012. 20 SIICUSP.São Paulo : USP, 2012. Resumo. Dispon?vel em: http://https://uspdigital.usp.br/siicusp/cdOnlineTrabalhoVisualizarResumo?numeroInscricaoTrabalho=1016&numeroEdicao=20.
CHERMAN, E., et al. Algoritmos de Aprendizado Baseado em Grafos para Classificação Multirrótulo. In Encontro Nacional de Inteligencia Artificial, Fortaleza, 2013. Anais do X Encontro Nacional de Inteligencia Artificial.Fortaleza : SBC, 2013. Dispon?vel em: http://www.lbd.dcc.ufmg.br/colecoes/eniac/2013/0060.pdf.
REIS, D. M., et al. Extensões do Algoritmo de Aprendizado de Máquina Multirrótulo BRKNN. In Encontro Nacional de Inteligencia Artificial, Curitiba, 2012. Anais do IX Encontro Nacional de Inteligência Artificia.Curitiba : SBC, 2012. Dispon?vel em: http://www.lbd.dcc.ufmg.br/colecoes/enia/2012/0043.pdf.