• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2019.tde-22082019-105334
Document
Auteur
Nom complet
Jadson Castro Gertrudes
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2019
Directeur
Jury
Lopes, Alneu de Andrade (Président)
Cerri, Ricardo
Lelis, Levi Henrique Santana de
Liang, Zhao
Titre en anglais
Semi-supervised learning approaches with applications in Medicinal Chemistry
Mots-clés en anglais
Density- based clustering
Semi-supervised classification
Semi-supervised clustering
Structure-activity relationship
Resumé en anglais
Semi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry.
Titre en portugais
Abordagens de aprendizado semissupervisionado com aplicações em Química Medicinal
Mots-clés en portugais
Agrupamento baseado em densidade
Agrupamento semissupervisionado
Análise de relação entre estrutura química e atividade biológica
Classificação semissupervisionada
Resumé en portugais
O aprendizado semissupervisionado obteve, no decorrer do tempo, cada vez mais significância na área de big data, uma vez que a lacuna entre a abundância de dados não rotulados coletados de forma rápida e barada e a escassez de dados rotulados que são trabalhosos e caros de obter, está aumentando drasticamente. No presente documento, apresentamos uma visão unificada dos algoritmos de agrupamento baseados em densidade. Depois, utilizamos essa visão unificada para construção de uma ponte entre as áreas de agrupamento e classificação semissupervisionadas. Mostramos que existem relações entre algoritmos de agrupamento baseados em densidade e a abordagem baseada em grafos para classificação transdutiva. Essas relações são então usadas como base para um novo framework de classificação semissupervisionada com base em algoritmos baseados em densidade. Assim, definimos um novo framework que pode ser dividido em pequenos blocos de construção, com base nos algoritmos baseado em densidade. Essa estrutura é eficiente, eficaz e também estatisticamente sólida. Também generalizamos o framework HDBSCAN* para que ele também pudesse realizar agrupamento semissupervisionado utilizando diretamente qualquer fração de dados rotulados que possam estar disponíveis, ao invés de um conjunto de restrições. Resultados experimentais em uma grande coleção de base de dados mostram as vantagens da abordagem proposta tanto para classificação semissupervisionada quanto para o agrupamento semissupervisionado. Além disso, avaliamos os algoritmos de aprendizado semissupervisionados para determinar as relações entre a estrutura química e a atividade biológica em conjuntos de dados da área de Química Medicinal. Os conjuntos de dados avaliados nesta área são caracterizados por um baixo número de exemplos rotulados, alta dimensionalidade e, em alguns casos, não possuem uma relação clara entre estrutura química e atividade biológica, o que dificulta a aplicação de técnicas aprendizado supervisionado. Após implementação e validação das abordagens semissupervisionadas, verificamos que os mesmos podem ser uma boa opção para análise de dados em Química Medicinal.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2019-10-18
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.