Machine Learning Tools for Bioinformatics Problems

Padilha, Victor Alexandre

doi:10.11606/T.55.2020.tde-03122020-111926

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2020.tde-03122020-111926

Documento

Tesis Doctoral

Autor

Padilha, Victor Alexandre (Catálogo USP)

Nombre completo

Victor Alexandre Padilha

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2020-10-01

Publicación

São Carlos, 2020

Director

Carvalho, André Carlos Ponce de Leon Ferreira de (Catálogo USP)
Backofen, Rolf - (Codirector) (Catálogo USP)

Tribunal

Carvalho, André Carlos Ponce de Leon Ferreira de (Presidente)
Cerri, Ricardo
Paschoal, Alexandre Rossi
Simão, Adenilso da Silva

Título en inglés

Machine Learning Tools for Bioinformatics Problems

Palabras clave en inglés

Biclustering
Cas proteins
CRISPR-Cas systems
Gene expression data analysis
Machine learning

Resumen en inglés

In recent years, machine learning techniques have been extensively used for bioinformatics, due to their capacity in solving hard problems by learning a function from a set of known examples, being this function able to make predictions for unseen data. Motivated by these successful applications, we tackle in this thesis three different bioinformatics problems using machine learning techniques. The first problem is related to the use of coherence measures for the analysis of biclustering results in gene expression data analysis. Specifically, we conducted a detailed investigation of the correlations between different bicluster coherence measures on a benchmark of 19 datasets of the Saccharomyces cerevisiae organism. We were able to identify pairs of redundant measures and also observed that such measures did not present any relation with external knowledge available in the form of gene ontologies. The second problem is related to the classification of CRISPR cassettes into their subtypes and the prediction of potentially missing proteins. We proposed a novel tool, called CRISPRcasIdentifier, which integrates classifiers and regressors for these tasks. It outperformed the competitors from the literature on the most recent benchmark dataset available and is the first tool that is able to recommend potentially missing proteins in CRISPR cassettes. The third problem is related to the automatic identification of CRISPR cassettes in bacterial and archaeal genomes. We introduced Casboundary, a new tool that detects CRISPR cassettes based on gene signatures and their relations with neighboring genes. Moreover, this tool is able to point out potentially new cas genes, as demonstrated by a case study. Finally, Casboundary is also capable of decomposing a CRISPR cassette into its modules, which are related to the different stages of the CRISPR systems.

Título en portugués

Ferramentas de Aprendizado de Máquina para Problemas de Bioinformática

Palabras clave en portugués

Análise de dados de expressão gênica
Aprendizado de máquina
Bi-Agrupamento
Proteínas Cas
Sistemas CRISPR-Cas

Resumen en portugués

Recentemente, técnicas de aprendizado de máquina têm sido utilizadas de maneira extensiva em problemas de bioinformática, devido à sua capacidade na resolução de problemas complexos por meio do aprendizado de uma função a partir de uma amostra finita de exemplos, sendo tal função capaz de realizar predições para novos dados. Motivado por essas aplicações bem sucedidas, este trabalho aborda três problemas diferentes de bioinformática por meio de técnicas de aprendizado de máquina. O primeiro problema está relacionado ao uso de medidas de coerência para a análise de resultados de bi-agrupamento em análise de dados de expressão gênica. Especificamente, foi conduzida uma investigação detalhada acerca das correlações entre diferentes medidas de coerência de bi-grupos em uma coleção de 19 bases de dados do organismo Saccharomyces cerevisiae. Com isso, tornou-se possível identificar pares de medidas redundantes e observar que tais medidas não apresentam qualquer relação com conhecimento externo disponível no formato de ontologias de genes. O segundo problema está relacionado à classificação de instâncias do sistema CRISPR em seus diferentes subtipos e a predição de proteínas potencialmente ausentes em tais instâncias. Para isso, uma nova ferramenta, chamada CRISPRcasIdentifier, foi proposta, a qual integra modelos de classificação e regressão para as tarefas mencionadas. Tal ferramenta atingiu melhores resultados do que os competidores encontrados na literatura na base de dados mais recente disponível. Ademais, a CRISPRcasIdentifier é a primeira ferramenta capaz de recomendar proteínas potencialmente ausentes em instâncias do sistema CRISPR. O terceiro problema está relacionado à identificação automática de instâncias do sistema CRISPR em genomas de organismos bacterianos e archaeanos. Para isso, a ferramenta Casboundary foi proposta, a qual detecta instâncias do CRISPR ao considerar as relações entre genes assinatura com seus vizinhos. Além disso, esta ferramenta é capaz de apontar genes cas potencialmente novos, tal como demonstrado em um estudo de caso. Finalmente, a ferramenta Casboundary é capaz de decompor as instâncias do CRISPR em seus diferentes módulos, os quais estão relacionados aos diferentes estágios do sistema CRISPR.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

VictorPadilha_revisada.pdf (5.32 Mbytes)

Fecha de Publicación

2020-12-03

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.