• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2022.tde-03102022-171351
Document
Auteur
Nom complet
Antonio Rafael Sabino Parmezan
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2022
Directeur
Jury
Batista, Gustavo Enrique de Almeida Prado Alves (Président)
Cerri, Ricardo
Prati, Ronaldo Cristiano
Rezende, Solange Oliveira
Titre en anglais
Hierarchical classification on batch and streaming data with applications to entomology
Mots-clés en anglais
Batch learning
Concept drift
Data stream
Hierarchical classification
Machine learning
Resumé en anglais
Traditional supervised machine learning algorithms conduct data classification in a flat way, i.e., they seek to associate each example with a class belonging to a finite, devoid of structural dependencies and usually small, set of classes. However, there are more challenging problems in which classes can be divided or grouped into subclasses or superclasses, respectively. This structural dependency between classes demands the application of methods prepared to deal with hierarchical classification. An algorithm for hierarchical classification considers the structural information embedded in the class hierarchy and uses it to decompose the original problems feature space into subproblems with fewer classes. Such decomposition reduces the complexity of the classification function as well as the prediction error. This thesis advances the state-ofthe-art by proposing novel algorithms for hierarchical classification considering two learning paradigms: (i) batch, where learning takes place offline employing a sample of fixed-size examples (ideally) coming from a stationary probability distribution. Each observation within the sample is independently and identically distributed; and (ii) streaming, in which learning is performed online from a usually uninterrupted and ordered sequence of examples available, at various update rates and without human intervention, by systems or devices. The features that describe the streaming examples may drift over time due to the non-stationary nature of the environment in which they are. In this context, the main contributions of this thesis include: (i) the most extensive and comprehensive study ever done to understand the impact of climatic-environmental conditions on the bee and wasp wing-beat frequencies. From the practical standpoint, the work builds base components for (online) (hierarchical) classification of flying insects; (ii) a method that combines local approaches to quickly and efficiently obtain a hierarchical decision model that faithfully represents the music genre identification scenario. We also validated the approach on hymenopteran data; (iii) a reference process that uses optical sensors and hierarchical classifiers to identify pollinating flying insects under natural field conditions. The results obtained provided answers to ten research questions; (iv) the first algorithm for hierarchical classification of data streams. It is based on nearest neighbors and works incrementally; (v) a framework and (vi) a collection of methods for hierarchical labeling of streaming data.
Titre en portugais
Classificação hierárquica de dados em lote e em fluxo contínuo com aplicações para entomologia
Mots-clés en portugais
Aprendizado de máquina
Aprendizado em lote
Classificação hierárquica
Fluxo de dados
Mudança de conceito
Resumé en portugais
Os algoritmos de aprendizado de máquina supervisionado tradicionais conduzem a classificação de dados de maneira plana, ou seja, buscam associar cada exemplo a uma classe pertencente a um conjunto finito, desprovido de dependências estruturais e normalmente pequeno, de classes. No entanto, existem problemas mais desafiadores nos quais as classes podem ser divididas ou agrupadas em subclasses ou superclasses, respectivamente. Essa dependência estrutural entre classes demanda a aplicação de métodos preparados para lidar com a classificação hierárquica. Um algoritmo para classificação hierárquica considera as informações estruturais embutidas na hierarquia de classes e as usa para decompor o espaço de atributos do problema original em subproblemas com menos classes. Tal decomposição reduz a complexidade da função de classificação enquanto aprimora o desempenho preditivo. Esta tese avança o estado da arte ao propor novos algoritmos para classificação hierárquica considerando dois paradigmas de aprendizado: (i) lote, onde o aprendizado ocorre offline a partir de uma amostra de exemplos de tamanho fixo (idealmente) proveniente de uma distribuição de probabilidade estacionária. Cada observação dentro da amostra é independente e identicamente distribuída; e (ii) fluxo contínuo, em que o aprendizado é realizado online a partir de uma sequência ordenada de exemplos usualmente ilimitada que é disponibilizada, em várias taxas de atualização e sem intervenção humana, por sistemas ou dispositivos. Devido à natureza não-estacionária do ambiente no qual estão inseridas, as características que compõem os exemplos de um fluxo contínuo podem variar no decorrer do tempo. Nesse contexto, as principais contribuições desta tese incluem: (i) o estudo mais extenso e abrangente já feito para entender o impacto das condições climáticas-ambientais nas frequências de batimento de asas de abelhas e vespas. Do ponto de vista prático, o trabalho constrói componentes-base para a classificação (hierárquica) (online) de insetos voadores; (ii) um método que combina abordagens locais para obter de forma rápida e eficiente um modelo de decisão hierárquica que representa fielmente o cenário de identificação de gêneros musicais. A abordagem também é validada em dados de himenópteros; (iii) um processo de referência que utiliza sensores ópticos e classificadores hierárquicos para identificar insetos voadores polinizadores em condições naturais de campo. Os resultados obtidos forneceram respostas à dez questões de pesquisa; (iv) o primeiro algoritmo para classificação hierárquica de fluxos de dados. Ele baseia-se em vizinhos mais próximos e funciona de maneira incremental; (v) um framework e (vi) uma coleção de métodos para rotulagem hierárquica de dados em fluxo contínuo.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-10-03
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2022. Tous droits réservés.