Aprendizado de máquina multirrótulo: explorando a dependência de rótulos e o aprendizado ativo

Cherman, Everton Alvares

doi:10.11606/T.55.2014.tde-30042014-143953

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2014.tde-30042014-143953

Documento

Tesis Doctoral

Autor

Cherman, Everton Alvares (Catálogo USP)

Nombre completo

Everton Alvares Cherman

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2014-01-10

Publicación

São Carlos, 2014

Director

Monard, Maria Carolina (Catálogo USP)

Tribunal

Monard, Maria Carolina (Presidente)
Baranauskas, José Augusto
Batista, Gustavo Enrique de Almeida Prado Alves
Carvalho, Alexandre Plastino de
Silva, Altigran Soares da

Título en portugués

Aprendizado de máquina multirrótulo: explorando a dependência de rótulos e o aprendizado ativo

Palabras clave en portugués

Aprendizado ativo
Aprendizado de máquina
Aprendizado multirrótulo
Dependência de rótulos

Resumen en portugués

Métodos tradicionais de aprendizado supervisionado, chamados de aprendizado monorrótulo, consideram que cada exemplo do conjunto de dados rotulados está associado a um único rótulo. No entanto, existe uma crescente quantidade de aplicações que lidam com exemplos que estão associados a múltiplos rótulos. Essas aplicações requerem métodos de aprendizado multirrótulo. Esse cenário de aprendizado introduz novos desafios que demandam abordagens diferentes daquelas tradicionalmente utilizadas no aprendizado monorrótulo. O custo associado ao processo de rotulação de exemplos, um problema presente em aprendizado monorrótulo, é ainda mais acentuado no contexto multirrótulo. O desenvolvimento de métodos para reduzir esse custo representa um desafio de pesquisa nessa área. Além disso, novos métodos de aprendizado também devem ser desenvolvidos para, entre outros objetivos, considerar a dependência de rótulos: uma nova característica presente no aprendizado multirrótulo. Há um consenso na comunidade de que métodos de aprendizado multirrótulo têm a capacidade de usufruir de melhor eficácia preditiva quando considerada a dependência de rótulos. Os principais objetivos deste trabalho estão relacionados a esses desafios: reduzir o custo do processo de rotulação de exemplos; e desenvolver métodos de aprendizado que explorem a dependência de rótulos. No primeiro caso, entre outras contribuições, um novo método de aprendizado ativo, chamado score dev, é proposto para reduzir os custos associados ao processo de rotulação multirrótulo. Resultados experimentais indicam que o método score dev é superior a outros métodos em vários domínios. No segundo caso, um método para identificar dependência de rótulos, chamado UBC, é proposto, bem como o BR+, um método para explorar essa característica. O método BR+ apresenta resultados superiores a métodos considerados estado da arte

Título en inglés

Multi-label machine learning: exploring label dependency and active learning

Palabras clave en inglés

Active learning
Label dependency
Machine learning
Multi-label learning

Resumen en inglés

Traditional supervised learning methods, called single-label learning, consider that each example from a labeled dataset is associated with only one label. However, an increasing number of applications deals with examples that are associated with multiple labels. These applications require multi-label learning methods. This learning scenario introduces new challenges and demands approaches that are different from those traditionally used in single-label learning. The cost of labeling examples, a problem in single-label learning, is even higher in the multi-label context. Developing methods to reduce this cost represents a research challenge in this area. Moreover, new learning methods should also be developed to, among other things, consider the label dependency: a new characteristic present in multi-label learning problems. Furthermore, there is a consensus in the community that multi-label learning methods are able to improve their predictive performance when label dependency is considered. The main aims of this work are related to these challenges: reducing the cost of the labeling process; and developing multi-label learning methods to explore label dependency. In the first case, as well as other contributions, a new multi-label active learning method, called score dev, is proposed to reduce the multi-labeling processing costs. Experimental results show that score dev outperforms other methods in many domains. In the second case, a method to identify label dependency, called UBC, is proposed, as well as BR+, a method to explore this characteristic. Results show that the BR+ method outperforms other state-of-the-art methods

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

EvertonCherman_defesa.pdf (4.19 Mbytes)

Fecha de Publicación

2014-04-30

Trabajos derivados

ADVERTENCIA: El material descrito abajo se refiere a los trabajos derivados de esta tesis o disertación. El contenido de estos documentos es responsabilidad del autor de la tesis o disertación.

CHERMAN, E., METZ, Jean, and MONARD, M. C. Incorporating label dependency into the binary relevance framework for multi-label classification [doi:10.1016/j.eswa.2011.06.056]. Expert Systems with Applications [online], 2012, vol. 39, p. 1647-1655.
CHERMAN, E., MONARD, M. C., and METZ, Jean. Multi-label Problem Transformation Methods: a Case Study. CLEI Electronic Journal [online], 2011, vol. 14, p. 1-10. Available from: http://www.clei.cl/cleiej/paper.php?id=215.
SPOLAOR, N., et al. A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach [doi:10.1016/j.entcs.2013.02.010]. Electronic Notes in Theoretical Computer Science [online], 2013, vol. 292, p. 135-151.
TOMAS, J. T., et al. A Framework to Generate Synthetic Multi-label Datasets [doi:10.1016/j.entcs.2014.01.025]. Electronic Notes in Theoretical Computer Science [online], 2014, vol. 302, p. 155-176.
CHERMAN, E., et al. Algoritmos de Aprendizado Baseado em Grafos para Classificação Multirrótulo. In Encontro Nacional de Inteligencia Artificial, Fortaleza, 2013. Anais do X Encontro Nacional de Inteligencia Artificial.Fortaleza : SBC, 2013. Dispon?vel em: http://www.lbd.dcc.ufmg.br/colecoes/eniac/2013/0060.pdf.
CHERMAN, E., e MONARD, M. C. Um Estudo sobre Métodos de Classificação Multirrótulo. In Congresso da Academia Trinacional de Ciências, Foz de Iguaçu, 2009. Anais do IV Congresso da Academia Trinacional de Ciências.Foz de Iguaçu : PTI, 2009. Dispon?vel em: http://labic.icmc.usp.br/pub/mcmonard/ChermanC3N09.pdf.
CHERMAN, E., METZ, Jean, and MONARD, M. C. A Simple Approach to Incorporate Label Dependency in Multi-label Classification [doi:10.1007/978-3-642-16773-7_3]. In Mexican International Conference on Artificial Intelligence, Mexico, 2010. Lecture Notes in Computer Science.Estados Unidos : Springer-Verlag, 2010.
CHERMAN, E., METZ, Jean, e MONARD, M. C. Explorando Dependência entre Rótulos no Classificador Multirrótulo Binary Relevance. In Workshop on Computational Intelligence, São Bernardo do Campo, 2010. Anais III Workshop on Computational Intelligence.São Bernardo do Campo : SBC, 2010. Dispon?vel em: http://www.labic.icmc.usp.br/pub/mcmonard/ChermanWCI2010.pdf.
CHERMAN, E., METZ, Jean, e MONARD, M. C. Métodos Multirrótulo Independentes de Algoritmo: Um Estudo de Caso. In Conferência Latinoamericana de Informática, Asuncion de Paraguay, 2010. Anais XXXVI Conferência Latinoamericana de Informática.Asuncion de Paraguay, 2010. Dispon?vel em: http://www.labic.icmc.usp.br/pub/mcmonard/ChermanCLEI2010.pdf.
ABREU, L. F. D., et al. Propostas de Baselines para Medidas de Avaliação de Classificação Multirrótulo. In Simpósio de Iniciação Científica da USP, São Paulo, 2011. 19 SIICUSP.São Paulo : USP, 2011. Resumo. Dispon?vel em: http://https://uspdigital.usp.br/siicusp/cdOnlineTrabalhoVisualizarResumo?numeroInscricaoTrabalho=1355&numeroEdicao=19.
METZ, Jean, et al. A Study on the Selection of Local Training Sets for Hierarchical Classiﬁcation Tasks. In Encontro Nacional de Inteligência Artificial, Natal, 2011. Anais CSBC.Natal : SBC, 2011. Dispon?vel em: http://www.lbd.dcc.ufmg.br/colecoes/enia/2011/0029.pdf.
METZ, Jean, et al. On the Estimation of Predictive Evaluation Measure Baselines for Multi-label Learning [doi:10.1007/978-3-642-34654-5_20]. In IBERAMIA, Cartagena, 2012. Advances In Artificial Intelligence, IBERAMIA 2012, Lecture Notes in Computer Science. : Springer, 2012.
REIS, D. M., et al. Explorando a Capacidade do Algoritmo KNN em Domínios Multirrótulos. In Simpósio de Iniciação Científica da USP, São Carlos, 2011. 19 SIICUSP.São Paulo : USP, 2011. Resumo. Dispon?vel em: http://https://uspdigital.usp.br/siicusp/cdOnlineTrabalhoVisualizarResumo?numeroInscricaoTrabalho=1353&numeroEdicao=19.
REIS, D. M., et al. Extensões do Algoritmo de Aprendizado de Máquina Multirrótulo BRKNN. In Encontro Nacional de Inteligencia Artificial, Curitiba, 2012. Anais do IX Encontro Nacional de Inteligência Artificia.Curitiba : SBC, 2012. Dispon?vel em: http://www.lbd.dcc.ufmg.br/colecoes/enia/2012/0043.pdf.
SPOLAOR, N., et al. Filter Approach Feature Selection Methods to Support Multi-label Learning Based on ReliefF and Information Gain [doi:10.1007/978-3-642-34459-6_8]. In 21th Brazilian Symposium on Artificial Intelligence, Curitiba, 2012. Advances in Artificial Intelligence - SBIA 2012, Lecture Notes in Artificial Intelligence. : Spinger, 2012.
SPOLAOR, N., CHERMAN, E., e MONARD, M. C. Uso do ReliefF para Seleção de Atributos em Dados Multirrótulo. In Conferencia Latinoamericana de Informática, Qhito, 2011. Anais CLEI.Qhito, 2011. Dispon?vel em: http://www.labic.icmc.usp.br/pub/mcmonard/SpolaorCLEI2011.pdf.
SPOLAOR, NEWTON, et al. ReliefF for Multi-label Feature Selection [doi:10.1109/BRACIS.2013.10]. In 2013 Brazilian Conference on Intelligent Systems (BRACIS), Fortaleza. 2013 Brazilian Conference on Intelligent Systems. : IEEE, 2013.
TOMAS, J. T., et al. A Framework to Generate Synthetic Multi-label Datasets. In Conferencia Latinoamericana de Informática, Caracas, 2013. Proceedings of the XXXIX Latin American Computing Conference - Special Edition., 2013. Available from: http://www.labic.icmc.usp.br/pub/mcmonard/TomasCLEI2013.pdf.
TOMAS, J. T., et al. Geração de Conjuntos de Dados Sintéticos para Aprendizado Multirrótulo. In Simpósio de Iniciação Científica da USP, São Paulo, 2012. 20 SIICUSP.São Paulo : USP, 2012. Resumo. Dispon?vel em: http://https://uspdigital.usp.br/siicusp/cdOnlineTrabalhoVisualizarResumo?numeroInscricaoTrabalho=1202&numeroEdicao=20.
CINTRA, M. E., et al. On the Estimation of the Number of Fuzzy Set for Fuzzy Rule-Based Classification Systems [doi:10.1109/HIS.2011.6122107]. In Hybrid Intelligent Systems, Malacca, 2011. Proceedings 11th International Conference on Hybrid Intelligent Systems.Malacca : IEEE, 2011.
Melhores trabalhos do CLEI 2012 - Centro Latinoamericano de Estudios en Informática
Melhores trabalhos do CLEI 2013 - Centro Latinoamericano de Estudios en Informática