Semi-supervised learning approaches with applications in Medicinal Chemistry

Gertrudes, Jadson Castro

doi:10.11606/T.55.2019.tde-22082019-105334

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2019.tde-22082019-105334

Document

Doctoral Thesis

Author

Gertrudes, Jadson Castro (Catálogo USP)

Full name

Jadson Castro Gertrudes

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2019-05-20

Published

São Carlos, 2019

Supervisor

Campello, Ricardo José Gabrielli Barreto (Catálogo USP)

Committee

Lopes, Alneu de Andrade (President)
Cerri, Ricardo
Lelis, Levi Henrique Santana de
Liang, Zhao

Title in English

Semi-supervised learning approaches with applications in Medicinal Chemistry

Keywords in English

Density- based clustering
Semi-supervised classification
Semi-supervised clustering
Structure-activity relationship

Abstract in English

Semi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry.

Title in Portuguese

Abordagens de aprendizado semissupervisionado com aplicações em Química Medicinal

Keywords in Portuguese

Agrupamento baseado em densidade
Agrupamento semissupervisionado
Análise de relação entre estrutura química e atividade biológica
Classificação semissupervisionada

Abstract in Portuguese

O aprendizado semissupervisionado obteve, no decorrer do tempo, cada vez mais significância na área de big data, uma vez que a lacuna entre a abundância de dados não rotulados coletados de forma rápida e barada e a escassez de dados rotulados que são trabalhosos e caros de obter, está aumentando drasticamente. No presente documento, apresentamos uma visão unificada dos algoritmos de agrupamento baseados em densidade. Depois, utilizamos essa visão unificada para construção de uma ponte entre as áreas de agrupamento e classificação semissupervisionadas. Mostramos que existem relações entre algoritmos de agrupamento baseados em densidade e a abordagem baseada em grafos para classificação transdutiva. Essas relações são então usadas como base para um novo framework de classificação semissupervisionada com base em algoritmos baseados em densidade. Assim, definimos um novo framework que pode ser dividido em pequenos blocos de construção, com base nos algoritmos baseado em densidade. Essa estrutura é eficiente, eficaz e também estatisticamente sólida. Também generalizamos o framework HDBSCAN* para que ele também pudesse realizar agrupamento semissupervisionado utilizando diretamente qualquer fração de dados rotulados que possam estar disponíveis, ao invés de um conjunto de restrições. Resultados experimentais em uma grande coleção de base de dados mostram as vantagens da abordagem proposta tanto para classificação semissupervisionada quanto para o agrupamento semissupervisionado. Além disso, avaliamos os algoritmos de aprendizado semissupervisionados para determinar as relações entre a estrutura química e a atividade biológica em conjuntos de dados da área de Química Medicinal. Os conjuntos de dados avaliados nesta área são caracterizados por um baixo número de exemplos rotulados, alta dimensionalidade e, em alguns casos, não possuem uma relação clara entre estrutura química e atividade biológica, o que dificulta a aplicação de técnicas aprendizado supervisionado. Após implementação e validação das abordagens semissupervisionadas, verificamos que os mesmos podem ser uma boa opção para análise de dados em Química Medicinal.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

JadsonCastroGertrudes_revisada.pdf (2.62 Mbytes)

Publishing Date

2019-10-18

Derived works

WARNING: Learn what derived works are clicking here.