• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.95.2019.tde-07092019-110857
Document
Author
Full name
Mina Cintho Ozahata
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2019
Supervisor
Committee
Ferreira, João Eduardo (President)
Almeida Neto, César de
Araújo, Luciano Vieira de
Digiampietri, Luciano Antonio
Meyer, Diogo
Title in Portuguese
Mineração de dados de anemia falciforme e priapismo
Keywords in Portuguese
Agrupamento
Anemia falciforme
GWAS
Abstract in Portuguese
O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.
Title in English
Sickle cell disease and priapism data mining
Keywords in English
Clustering
GWAS
SIckle cell disease
Abstract in English
Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2019-09-10
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.