• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2022.tde-03102022-171351
Documento
Autor
Nome completo
Antonio Rafael Sabino Parmezan
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2022
Orientador
Banca examinadora
Batista, Gustavo Enrique de Almeida Prado Alves (Presidente)
Cerri, Ricardo
Prati, Ronaldo Cristiano
Rezende, Solange Oliveira
Título em inglês
Hierarchical classification on batch and streaming data with applications to entomology
Palavras-chave em inglês
Batch learning
Concept drift
Data stream
Hierarchical classification
Machine learning
Resumo em inglês
Traditional supervised machine learning algorithms conduct data classification in a flat way, i.e., they seek to associate each example with a class belonging to a finite, devoid of structural dependencies and usually small, set of classes. However, there are more challenging problems in which classes can be divided or grouped into subclasses or superclasses, respectively. This structural dependency between classes demands the application of methods prepared to deal with hierarchical classification. An algorithm for hierarchical classification considers the structural information embedded in the class hierarchy and uses it to decompose the original problems feature space into subproblems with fewer classes. Such decomposition reduces the complexity of the classification function as well as the prediction error. This thesis advances the state-ofthe-art by proposing novel algorithms for hierarchical classification considering two learning paradigms: (i) batch, where learning takes place offline employing a sample of fixed-size examples (ideally) coming from a stationary probability distribution. Each observation within the sample is independently and identically distributed; and (ii) streaming, in which learning is performed online from a usually uninterrupted and ordered sequence of examples available, at various update rates and without human intervention, by systems or devices. The features that describe the streaming examples may drift over time due to the non-stationary nature of the environment in which they are. In this context, the main contributions of this thesis include: (i) the most extensive and comprehensive study ever done to understand the impact of climatic-environmental conditions on the bee and wasp wing-beat frequencies. From the practical standpoint, the work builds base components for (online) (hierarchical) classification of flying insects; (ii) a method that combines local approaches to quickly and efficiently obtain a hierarchical decision model that faithfully represents the music genre identification scenario. We also validated the approach on hymenopteran data; (iii) a reference process that uses optical sensors and hierarchical classifiers to identify pollinating flying insects under natural field conditions. The results obtained provided answers to ten research questions; (iv) the first algorithm for hierarchical classification of data streams. It is based on nearest neighbors and works incrementally; (v) a framework and (vi) a collection of methods for hierarchical labeling of streaming data.
Título em português
Classificação hierárquica de dados em lote e em fluxo contínuo com aplicações para entomologia
Palavras-chave em português
Aprendizado de máquina
Aprendizado em lote
Classificação hierárquica
Fluxo de dados
Mudança de conceito
Resumo em português
Os algoritmos de aprendizado de máquina supervisionado tradicionais conduzem a classificação de dados de maneira plana, ou seja, buscam associar cada exemplo a uma classe pertencente a um conjunto finito, desprovido de dependências estruturais e normalmente pequeno, de classes. No entanto, existem problemas mais desafiadores nos quais as classes podem ser divididas ou agrupadas em subclasses ou superclasses, respectivamente. Essa dependência estrutural entre classes demanda a aplicação de métodos preparados para lidar com a classificação hierárquica. Um algoritmo para classificação hierárquica considera as informações estruturais embutidas na hierarquia de classes e as usa para decompor o espaço de atributos do problema original em subproblemas com menos classes. Tal decomposição reduz a complexidade da função de classificação enquanto aprimora o desempenho preditivo. Esta tese avança o estado da arte ao propor novos algoritmos para classificação hierárquica considerando dois paradigmas de aprendizado: (i) lote, onde o aprendizado ocorre offline a partir de uma amostra de exemplos de tamanho fixo (idealmente) proveniente de uma distribuição de probabilidade estacionária. Cada observação dentro da amostra é independente e identicamente distribuída; e (ii) fluxo contínuo, em que o aprendizado é realizado online a partir de uma sequência ordenada de exemplos usualmente ilimitada que é disponibilizada, em várias taxas de atualização e sem intervenção humana, por sistemas ou dispositivos. Devido à natureza não-estacionária do ambiente no qual estão inseridas, as características que compõem os exemplos de um fluxo contínuo podem variar no decorrer do tempo. Nesse contexto, as principais contribuições desta tese incluem: (i) o estudo mais extenso e abrangente já feito para entender o impacto das condições climáticas-ambientais nas frequências de batimento de asas de abelhas e vespas. Do ponto de vista prático, o trabalho constrói componentes-base para a classificação (hierárquica) (online) de insetos voadores; (ii) um método que combina abordagens locais para obter de forma rápida e eficiente um modelo de decisão hierárquica que representa fielmente o cenário de identificação de gêneros musicais. A abordagem também é validada em dados de himenópteros; (iii) um processo de referência que utiliza sensores ópticos e classificadores hierárquicos para identificar insetos voadores polinizadores em condições naturais de campo. Os resultados obtidos forneceram respostas à dez questões de pesquisa; (iv) o primeiro algoritmo para classificação hierárquica de fluxos de dados. Ele baseia-se em vizinhos mais próximos e funciona de maneira incremental; (v) um framework e (vi) uma coleção de métodos para rotulagem hierárquica de dados em fluxo contínuo.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-10-03
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2023. Todos os direitos reservados.