• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.3.2022.tde-05092022-084236
Document
Auteur
Nom complet
Carolina Teng
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2022
Directeur
Jury
Fonseca, Fernando Josepetti (Président)
Naslavsky, Michel Satya
Pires, Ricardo
Titre en anglais
Accelerating the alignment phase of Minimap2 genome assembly algorithm Using GACT-X in a commercial Cloud FPGA machine.
Mots-clés en anglais
Acceleration
Cloud computing
Co-processors
Field programmable gate arrays
Genomics
Minimap2
Smith- waterman-gotoh
Resumé en anglais
Genetic sequencing can provide crucial information in medicine and in biology studies. The technologies developed in the field are advancing rapidly and the current third-generation of genome sequencers have significant improvements over the secondgeneration. In parallel to that, sequencing throughput has been increasing at an exponential rate, which, coupled with price reduction, has resulted in a leap of generation of genomic data to be processed. Transistor technology is reaching its fundamental limits, and Moores Law is becoming obsolete, so other alternatives are required to efficiently process such an amount of data. Long-reads from the third generation of sequencers are shown to be an emerging type of genetic data, with average lengths of thousands of nucleotides each. State-of-the-Art algorithm Minimap2 is able to assemble these reads into the genome that was sampled, but it is a computationally-intensive process: for the human genome size with sufficient coverage, running times can reach up to dozens of CPU hours. Hardware acceleration has been proposed as an effort to make Minimap2 more efficient, but up to the present moment, only one of its main bottlenecks, the chaining step, has been successfully accelerated on FPGA. No efficient solution has been proposed for the aligning step, implemented as the ksw function. GACT-X is a Cloud FPGA design that performs a banded SWG alignment with fixed memory, suitable for any size of input. GACT-X with tiles of size 4,000 can be 2x faster than ksw when aligning long sequences. Replacing the alignment function ksw in Minimap2 with GACT-X on a Cloud hybrid system can provide up to 1.41x acceleration on the entire execution to the software counterpart, with comparable accuracy for data that have high similarity to the reference genome. This dissertation presents all the relevant background information, the development stages and methods, the results achieved on three different datasets, and the proposed future work on this acceleration project.
Titre en portugais
Acelerando a etapa de alinhamento do algoritmo de montagem de genoma Minimap2 usando GACT-X em uma máquina FPGA comercial na nuvem.
Mots-clés en portugais
Algorítmos
Bioinformática
Circuitos FPGA
Computação em nuvem
Genômica
Resumé en portugais
O sequenciamento genético pode fornecer informações cruciais em medicina e em estudos de biologia. As tecnologias desenvolvidas na área estão avançando rapidamente e a atual terceira-geração de sequenciadores de genoma possuem melhorias significantes sobre a segunda-geração. Paralelamente a isso, a taxa de sequenciamento vem aumentando exponencialmente, o que, aliado à redução de preços, resultou em um salto de geração de dados genômicos a serem processados. A tecnologia de transistores está atingindo seus limites fundamentais, e a Lei de Moore está se tornando obsoleta, então outras alternativas são necessárias para processar tal quantidade de dados. Long-reads da terceira geração de sequenciadores são um tipo emergente de dados genéticos, com comprimentos médios de milhares de nucleotídeos cada. O algoritmo do Estado-da-Arte Minimap2 é capaz de montar essas reads de volta ao genoma que foi amostrado, mas é um processo computacionalmente intensivo: para o tamanho do genoma humano com cobertura suficiente, os tempos de execução podem chegar a dezenas de horas de CPU. Aceleração em hardware foi proposta como uma aplicação para tornar o Minimap2 mais eficiente, mas até o presente momento, apenas um de seus principais gargalos, a etapa de chaining, foi acelerada com sucesso em FPGA. Nenhuma solução eficiente foi proposta para a etapa de alinhamento, implementada como a função ksw. O GACT-X ´e um design de FPGA em nuvem que executa o alinhamento de SWG em banda, com consumo de memória fixo, adequado para qualquer tamanho de entrada. O GACT-X com tiles de tamanho 4.000 pode ser 2x mais rápido que o ksw ao alinhar sequencias longas. Substituir a função de alinhamento ksw no Minimap2 pelo GACT-X em um sistema híbrido na nuvem pode proporcionar aceleração de até 1,41x sobre toda a execução do software, com precisão comparável para dados que tem alta similaridade com o genoma de referencia. Esta dissertação apresenta todas as informações básicas relevantes, as etapas e os métodos desenvolvimento, os resultados alcançados em três conjuntos de dados diferentes e os trabalhos futuros propostos para este projeto de aceleração.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-09-06
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.