• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.45.2020.tde-16012021-193220
Document
Auteur
Nom complet
Carlos Eduardo Martins Relvas
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2020
Directeur
Jury
Fujita, André (Président)
Amorim, Renato Cordeiro de
Carvalho, Benilton de Sá
Patriota, Alexandre Galvão
Takahashi, Daniel Yasumasa
Titre en portugais
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis
Mots-clés en portugais
Agrupamento
Algoritmo de mistura gaussiana
Algoritmo EM
BIC
Efeitos de covariáveis
Testes de hipóteses
Resumé en portugais
Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado.
Titre en anglais
Model-based clustering algorithm with covariates
Mots-clés en anglais
BIC
Clusterization
Covariates effect
EM algorithm
Hyphotesis tests
Mixture gaussian
Resumé en anglais
Usually, the clustering process is the first step in several data analyses. Clustering allows the identification of unseen patterns and is useful when raising new hypotheses. However, one challenge when analyzing empirical data is the presence of covariates, which may mask the obtained clustering structure. For example: suppose we are interested in clustering a set of individuals into controls and cancer patients. In this case, a clustering algorithm could group subjects into young and elderly. This may happen because, during diagnosis, the age is directly associated with cancer. Thus, we developed CEM-Co, a model-based clustering algorithm that removes/minimizes undesirable covariates' effects during the clustering process. We applied CEM-Co on a gene expression data set composed of 129 stage I non-small cell lung cancer patients. As a result, we identified a subgroup with a poorer prognosis where standard clustering algorithms failed.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-01-20
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.