Machine Learning Tools for Bioinformatics Problems

Padilha, Victor Alexandre

doi:10.11606/T.55.2020.tde-03122020-111926

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.55.2020.tde-03122020-111926

Documento

Tese de Doutorado

Autor

Padilha, Victor Alexandre (Catálogo USP)

Nome completo

Victor Alexandre Padilha

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2020-10-01

Imprenta

São Carlos, 2020

Orientador

Carvalho, André Carlos Ponce de Leon Ferreira de (Catálogo USP)
Backofen, Rolf - (Coorientador) (Catálogo USP)

Banca examinadora

Carvalho, André Carlos Ponce de Leon Ferreira de (Presidente)
Cerri, Ricardo
Paschoal, Alexandre Rossi
Simão, Adenilso da Silva

Título em inglês

Machine Learning Tools for Bioinformatics Problems

Palavras-chave em inglês

Biclustering
Cas proteins
CRISPR-Cas systems
Gene expression data analysis
Machine learning

Resumo em inglês

In recent years, machine learning techniques have been extensively used for bioinformatics, due to their capacity in solving hard problems by learning a function from a set of known examples, being this function able to make predictions for unseen data. Motivated by these successful applications, we tackle in this thesis three different bioinformatics problems using machine learning techniques. The first problem is related to the use of coherence measures for the analysis of biclustering results in gene expression data analysis. Specifically, we conducted a detailed investigation of the correlations between different bicluster coherence measures on a benchmark of 19 datasets of the Saccharomyces cerevisiae organism. We were able to identify pairs of redundant measures and also observed that such measures did not present any relation with external knowledge available in the form of gene ontologies. The second problem is related to the classification of CRISPR cassettes into their subtypes and the prediction of potentially missing proteins. We proposed a novel tool, called CRISPRcasIdentifier, which integrates classifiers and regressors for these tasks. It outperformed the competitors from the literature on the most recent benchmark dataset available and is the first tool that is able to recommend potentially missing proteins in CRISPR cassettes. The third problem is related to the automatic identification of CRISPR cassettes in bacterial and archaeal genomes. We introduced Casboundary, a new tool that detects CRISPR cassettes based on gene signatures and their relations with neighboring genes. Moreover, this tool is able to point out potentially new cas genes, as demonstrated by a case study. Finally, Casboundary is also capable of decomposing a CRISPR cassette into its modules, which are related to the different stages of the CRISPR systems.

Título em português

Ferramentas de Aprendizado de Máquina para Problemas de Bioinformática

Palavras-chave em português

Análise de dados de expressão gênica
Aprendizado de máquina
Bi-Agrupamento
Proteínas Cas
Sistemas CRISPR-Cas

Resumo em português

Recentemente, técnicas de aprendizado de máquina têm sido utilizadas de maneira extensiva em problemas de bioinformática, devido à sua capacidade na resolução de problemas complexos por meio do aprendizado de uma função a partir de uma amostra finita de exemplos, sendo tal função capaz de realizar predições para novos dados. Motivado por essas aplicações bem sucedidas, este trabalho aborda três problemas diferentes de bioinformática por meio de técnicas de aprendizado de máquina. O primeiro problema está relacionado ao uso de medidas de coerência para a análise de resultados de bi-agrupamento em análise de dados de expressão gênica. Especificamente, foi conduzida uma investigação detalhada acerca das correlações entre diferentes medidas de coerência de bi-grupos em uma coleção de 19 bases de dados do organismo Saccharomyces cerevisiae. Com isso, tornou-se possível identificar pares de medidas redundantes e observar que tais medidas não apresentam qualquer relação com conhecimento externo disponível no formato de ontologias de genes. O segundo problema está relacionado à classificação de instâncias do sistema CRISPR em seus diferentes subtipos e a predição de proteínas potencialmente ausentes em tais instâncias. Para isso, uma nova ferramenta, chamada CRISPRcasIdentifier, foi proposta, a qual integra modelos de classificação e regressão para as tarefas mencionadas. Tal ferramenta atingiu melhores resultados do que os competidores encontrados na literatura na base de dados mais recente disponível. Ademais, a CRISPRcasIdentifier é a primeira ferramenta capaz de recomendar proteínas potencialmente ausentes em instâncias do sistema CRISPR. O terceiro problema está relacionado à identificação automática de instâncias do sistema CRISPR em genomas de organismos bacterianos e archaeanos. Para isso, a ferramenta Casboundary foi proposta, a qual detecta instâncias do CRISPR ao considerar as relações entre genes assinatura com seus vizinhos. Além disso, esta ferramenta é capaz de apontar genes cas potencialmente novos, tal como demonstrado em um estudo de caso. Finalmente, a ferramenta Casboundary é capaz de decompor as instâncias do CRISPR em seus diferentes módulos, os quais estão relacionados aos diferentes estágios do sistema CRISPR.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

VictorPadilha_revisada.pdf (5.32 Mbytes)

Data de Publicação

2020-12-03

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.