Molecular diagnosis of autism spectrum disorder through whole exome sequencing

Almeida, Tatiana Ferreira de

doi:10.11606/T.41.2019.tde-04022019-092804

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.41.2019.tde-04022019-092804

Document

Doctoral Thesis

Author

Almeida, Tatiana Ferreira de (Catálogo USP)

Full name

Tatiana Ferreira de Almeida

E-mail

Institute/School/College

Instituto de Biociências

Knowledge Area

Biology (Genetics)

Date of Defense

2018-11-05

Published

São Paulo, 2018

Supervisor

Bueno, Maria Rita dos Santos e Passos (Catálogo USP)

Committee

Bueno, Maria Rita dos Santos e Passos (President)
Vibranovski, Maria Dulcetti
Brentani, Helena Paula
Nakaya, Helder Takashi Imoto
Otto, Paulo Alberto

Title in English

Molecular diagnosis of autism spectrum disorder through whole exome sequencing

Keywords in English

Autism Spectrum Disorder
Multivariate models
Software
Whole exome sequencing

Abstract in English

Autism spectrum disorder (ASD) is a neurodevelopment disorder characterized by impairment in communication skills, behavior and social interactions that affects around 1-2% worldwide. To date the etiology of ASD has not yet been fully understood, but in the last 18 years many advances have been made to understand the genetic component related to the development of the clinical phenotype. With the advent of genomic scan analysis such as chromosome analysis by microarray and whole exome sequencing (WHE) many advances have been made to understand the pathophysiology of the disease. About 10-15% of the cases can be explained by large losses or gains (deletions or duplications greater than 1000 base pairs) of the genetic material, which generally involve the disruption of one or more genes. Next generation sequencing methodologies were fundamental in the description of point mutations and small insertions and deletions associated with ASD. The WES has allowed many discoveries to be made about new candidate genes and mechanisms for the development of the disease. It is now claimed that de novo (non-inherited) and likely gene disruptive mutations, such as loss-of-function and non-synonymous changes with high prediction of damage by computational tools, in genes related to neurodevelopment are a major contributor to the disease mechanism. However, these mutations, in addition to not explaining the majority of cases, are rarely recurrent in the population, which makes it difficult to establish a definitive molecular diagnosis for most patients. WES is already a practice in clinical genetics laboratories and demonstrates high effectiveness for diseases that follow a Mendelian pattern of inheritance, and have an established genetic cause. In clinical practice WES is requested for cases of ASD, despite having different modes of inheritance and having more than 1,000 genes associated with the disease. Due to these characteristics the analysis of WES for ASD is a major challenge for the clinical laboratory. This study proposes the construction of a computerized WES analysis routine that can test different candidate genes for their sensitivity and specificity for the detection of affected individuals. The proposed approach consists in the counting of variants separated by their possible protein damage and population frequency for each individual from affected and control groups, this study analyzed 168 WES, being 49 with ASD and 119 controls. After counting formulation, these values are subjected to a sequence of statistical tests, seeking a significant difference in the amount of mutations of all the variants alone, loss-of-function or damaging missense mutations, and the application of models of multivariate analysis such as: logistic regression, decision tree, neural network, vector support machine and principal component analysis for the elaboration of more complex models for disease development. A total of 21 lists of genes were tested, of which 19 presented at least one significant result, and the analysis of variants alone was the one that obtained the largest number of significant events. From apparently protective variants (higher number in the control group), such as the missense variants in RAS/MAPK pathway as variants of stopgain with population frequency above 0.05 in chromatin genes in greater number in individuals with ASD. None of the multivariate analysis models had significant discrimination results between the two groups. Due to the small sample size, the results of this study should be interpreted with limitations, and it is necessary to replicate these scenarios in other databases. However, these findings suggest that different types and frequencies of variants may have distinct contributions to disease development depending on the genes analyzed, rather than complex relationships between variants of the same gene list

Title in Portuguese

Diagnóstico molecular do transtorno do espectro autista através do sequenciamento completo de exoma

Keywords in Portuguese

Modelos multivariados
Sequenciamento completo de exoma
Software de análise
Transtorno do Espectro Autista

Abstract in Portuguese

O transtorno do espectro autista (TEA) é um distúrbio do neurodesenvolvimento caracterizado por uma incapacidade de comunicação comportamento e interações sociais que afeta em torno de 1-2% da população mundial. Até o momento a etiologia do TEA ainda não é totalmente compreendida, mas nos últimos 18 anos muitos avanços foram feitos para entender o componente genético relacionado ao desenvolvimento do quadro clínico. Com o advento das análises de varredura genômica como a análise cromossômica por microarray e o sequenciamento completo de exoma (SCE) muitos avanços foram feitos para a compreensão da fisiopatologia da doença. Em torno de 10-15% dos casos podem ser explicados por grandes perdas ou ganhos (deleções ou duplicações superiores a 1000 pares de bases) do material genético, que geralmente envolvem a disrupção de um ou mais genes. As metodologias de sequenciamento de nova geração foram fundamentais para a descrição das mutações de ponto e pequenas inserções e deleções associadas ao TEA. O SCE permitiu que muitas descobertas fossem feitas sobre novos genes candidatos e mecanismos para o desenvolvimento da doença. Atualmente afirma-se que as alterações de novo (não herdadas) e de maior probabilidade de ruptura gênica, como as mutações de perda-de-função e as alterações não-sinônimas com alta predição de dano por ferramentas computacionais, em genes de susceptibilidade a doenças do neurodesenvolvimento sejam um grande contribuidor para o mecanismo da doença. Entretanto essas mutações, além de não explicar a totalidade dos casos raramente são recorrentes na população, o que dificulta o estabelecimento de um diagnóstico molecular definitivo para a maioria dos pacientes. O SCE já é uma prática nos laboratórios clínicos de genética e demonstra uma alta efetividade para as doenças que seguem um padrão de herança mendeliano, e têm uma causa genética estabelecida. Na prática clínica o SCE é solicitado para os casos de TEA, apesar de ter diferentes modos de herança e terem mais de 1,000 genes associados à doença. Devido a estas características o SCE para os casos de TEA são um grande desafio para o laboratório clínico. Este estudo propõem a construção de uma rotina computacional de análise do SCE que possa testar diferentes genes candidatos quanto à sua sensibilidade e especificidade para a detecção dos indivíduos afetados. A abordagem proposta é a contagem de variantes separadas por seu possível dano à proteína e frequência populacional para cada indivíduo de grupos afetado e controle em 168 indivíduos com SCE, sendo 49 com TEA e 119 controles. Após a formulação da contagem esses valores são submetidos a uma sequência de testes estatísticos, buscando diferença significativa em quantidade de mutações de todas as variantes isoladamente, das mutações de perda-de-função, ou não-sinônimas danosas como um conjunto e a aplicação de modelos de análise multivariada como: regressão logística, árvore de decisão, rede neural, máquinas de suporte de vetor e análise de componente principal para a elaboração de modelos mais complexos para o desenvolvimento na doença. Ao todo foram testadas 21 listas de genes, destas, 19 apresentaram ao menos um resultado significativo, sendo a análise de variantes isoladamente a que obteve maior número de eventos significativos. Desde variantes aparentemente protetoras (maior número no grupo controle), como as variantes não-sinônimas em via de RAS/MAPK quanto variantes de perda de códon de parada com frequência populacional acima de 0.05 em genes de cromatina em maior número nos indivíduos com TEA. Nenhum dos modelos de análise multivariada obteve resultados significativos na discriminação entre os dois grupos. Devido ao pequeno número amostral os resultados deste estudo devem ser interpretados com limitações, sendo necessária a replicação deste cenário em outros bancos de dados. Entretanto, estes achados sugerem que diferentes tipos e frequências de variantes podem ter contribuições distintas para o desenvolvimento da doença a depender dos genes analisados, mais de que relações complexas entre as variantes de uma mesma lista de genes

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

Tatiana_Almeida.pdf (4.97 Mbytes)

Tatiana_Almeida_Corrigida.pdf (4.95 Mbytes)

Publishing Date

2019-02-12

Derived works

WARNING: Learn what derived works are clicking here.