Seleção de características em SVMs aplicadas a dados de expressão gênica

Souza, Bruno Feres de

doi:10.11606/D.55.2005.tde-18112014-144007

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.55.2005.tde-18112014-144007

Document

Master's Dissertation

Author

Souza, Bruno Feres de (Catálogo USP)

Full name

Bruno Feres de Souza

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2005-05-06

Published

São Carlos, 2005

Supervisor

Carvalho, André Carlos Ponce de Leon Ferreira de (Catálogo USP)

Committee

Carvalho, André Carlos Ponce de Leon Ferreira de (President)
Cesar Junior, Roberto Marcondes
Delbem, Alexandre Cláudio Botazzo

Title in Portuguese

Seleção de características em SVMs aplicadas a dados de expressão gênica

Keywords in Portuguese

Não disponível

Abstract in Portuguese

Recentemente, diversas tecnologias de análise de expressão gênica têm sido introduzidas. Os miroarrays estão entre as mais utilizadas. Dentre suas aplicações mais comuns, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta do tipo de câncer. Esta classificação é realizada com a ajuda de algoritmos de AMáquina (AM), como as Máquinas de Vetores de Suporte, ou simplesmente SVMs. Uma particularidade dos dados de expressão gênica é que a quantidade de amostras utilizadas pelo algoritmo de aprendizado é, normalmente, muitas vezes inferior à quantidade de características consideradas, o que pode deteriorar o desempenho dos algoritmos de AM e dificultar a compreensão dos dados. Neste contexto, o presente trabalho visa à comparação de diversas técnicas de seleção de características (SC) em SVMs aplicadas a dados microarrays. Além disso, durante a pesquisa, foram desenvolvidas 2 novas técnicas de SC baseadas em algoritmos genéticos. Os experimentos demonstram que a maioria das técnicas testadas é capaz de reduzir sobremaneira a dimensionalidade dos dados de expressão gênica sem prejudicar o desempenho das SVMs.

Title in English

Feature selection in support vector machines applied to the gene expression data

Keywords in English

Not available

Abstract in English

Recently, a lot of large scale gene expression analysis technologies have been introducted. Microarrays are among the most used ones. Among their most common applications, one can highlight the classificaiion of tissue samples, which is essential to the correct identification of the câncer type. This classification is carried out by Machine Learning (ML) algorithms, like the Support Vector Machines (SVMs). Gene expression data are characterized by an disproportionate rate between the number of tissue samples and the dimensionality of the domain, which can hurt the performance of the ML algorithms. In this context, the present work wish to compare several feature selection techniques in SVMs applied to microarray data. Besides, during this research, 2 new techniques based on genetic algorithms for selecting genes were developed. The experiments showed that most of the tested techniques was able to gratefully reduce the dimensionality of the gene expression data without degradation of SVM performance.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

BrunoFeresdeSouza.pdf (2.37 Mbytes)

Publishing Date

2014-11-18

Derived works

WARNING: Learn what derived works are clicking here.