• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2023.tde-30082023-135843
Document
Auteur
Nom complet
Saulo Martiello Mastelini
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2023
Directeur
Jury
Carvalho, André Carlos Ponce de Leon Ferreira de (Président)
Batista, Gustavo Enrique de Almeida Prado Alves
Paiva, Elaine Ribeiro de Faria
Rocha, Anderson de Rezende
Titre en anglais
Efficient online tree, rule-based and distance-based algorithms
Mots-clés en anglais
Computational performance
Nearest neighbor search
Online machine learning
Regression
Supervised learning
Resumé en anglais
The fast development of digital technologies has given rise to the constant production of data in different forms and from different sources. While at the beginning of machine learning (ML) studies, data scarcity was a relevant problem for many application domains, nowadays, we may have too much information to handle with traditional ML algorithms. Besides, changes in the underlying data distributions that govern the data generation might render traditional ML solutions useless in real-world applications. Online ML (OML) aims to create solutions able to process data incrementally, with limited computation resource usage, and to deal with time-changing data distributions. Despite successfully creating efficient solutions applied in diverse domains, we have seen a recent growing trend in creating OML algorithms that only focus on predictive performance and overlook computational costs. This observation is even more prevalent when considering regression tasks, using decision trees, decision rules, and ensembles thereof, which are among the most popular OML solutions. Decreasing the computational costs of OML solutions could be more relevant than a slight increase in predictive performance from a real-world application standpoint. Hence, in this thesis, we focus on creating improved and efficient OML algorithms whose primary focus is decreasing the time and memory costs of tree and decision rule-based regressors and ensemble-based regressors. The desired bi-product is improving or, at least, leaving the predictive performance unchanged. We also explore an efficient algorithm to perform incremental nearest-neighbor searches. This thesis is organized as an article collection, comprehending our most relevant publications focused on the presented theme. We tackle strategies to create low-error ensemble-based regressors, efficient strategies to build incremental decision tree regressors, propose a fast and accurate decision tree-based ensemble regressor, and explore an efficient and versatile algorithm to perform nearest neighbor search in sliding windows.
Titre en portugais
Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade
Mots-clés en portugais
Aprendizado de máquina incremental
Aprendizado supervisionado
Busca por vizinhos mais próximos
Desempenho computacional
Regressão
Resumé en portugais
O rápido desenvolvimento de tecnologias digitais acarretou a produção constante de grandes volumes de dados, que se apresentam em diferentes formas e vêm de diferentes fontes. No início dos estudos de aprendizado de máquina (AM) a escassez de dados era um problema relevante em muitos domínios de aplicação, atualmente, no entanto, pode-se ter informação em demasia para tratar com algoritmos tradicionais de AM. Além disso, mudanças ao longo do tempo na distribuição probabilística que governa o processo de geração dos dados podem fazer com que as soluções tradicionais de AM se tornem inúteis em aplicações do mundo real. AM online (AMO) é uma área de estudos que busca criar soluções capazes de processar os dados incrementalmente, utilizando recursos computacionais limitados e lidando com distribuições de dados que mudam no decorrer do tempo. Apesar de a literatura em AMO apresentar soluções eficientes que foram aplicadas em domínios de aplicação diversos, existe uma tendência crescente de se criar algoritmos que focam apenas no desempenho preditivo, deixando o custo computacional em segundo plano. Essa observação é ainda mais predominante quando se considera tarefas de regressão que utilizam árvores e regras de decisão, bem como ensembles desses modelos, que estão dentre as soluções mais populares em AMO. Diminuir o custo computacional de soluções de AMO, de um ponto de vista do domínio de aplicação, pode ser mais relevante do que obter um leve aumento no desempenho preditivo. Assim, nessa tese, busca-se criar algoritmos de AMO cujo maior foco é a redução do tempo de processamento e do uso de memória em soluções de regressão baseadas em árvores e regras de decisão, além de ensembles formados por esses tipos de modelos. Um subproduto desejado é melhorar, ou pelo menos não impactar negativamente, o desempenho preditivo dos modelos. Na tese também é explorado um algoritmo eficiente para realizar buscas por vizinhos mais próximos de forma incremental. A tese é organizada como uma coleção de artigos, que compreende as publicações mais relevantes focadas nos temas apresentados. São abordadas estratégias para criar ensembles de regressão com baixo erro preditivo, propostos algoritmos eficientes de regressão incremental baseados em árvores de decisão, bem como um algoritmo para criação de ensembles baseados em árvores de decisão para regressão com baixo custo computacional e baixo erro preditivo. Por fim, é apresentado um algoritmo rápido e versátil para realizar buscas por vizinho mais próximo em janelas deslizantes de dados.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-08-30
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.