• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.95.2021.tde-23072021-132101
Document
Author
Full name
José Deney Alves de Araújo
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2021
Supervisor
Committee
Brentani, Helena Paula (President)
Alves, Domingos
Souza, Robson Francisco de
Vasconcelos, Ana Tereza Ribeiro de
Title in Portuguese
Integração de bases de dados administrativos com ferramentas genômicas
Keywords in Portuguese
BLAST
Codificação em DNA
Epidemiologia
Ferramentas genômicas
Record linkage
Abstract in Portuguese
A pesquisa em saúde pública frequentemente requer a integração de informações de diferentes fontes de dados. As metodologias de record linkage (RL) utilizam os campos de identificação de cada registro para vincular indivíduos de diferentes bancos de dados. No entanto, erros nos registros e o alto custo computacional tornam o RL um grande desafio para integrar grandes bancos de dados administrativos. Apresentamos Tucuxi-BLAST, uma ferramenta versátil para RL que utiliza uma abordagem de codificação e análise in silico de DNA para grandes bancos de dados administrativos. Pela reproposição de ferramentas genômicas, fomos capazes de integrar três bases de dados de saúde brasileiras com alta sensibilidade e especificidade e rastrear indivíduos em vários bancos de dados epidemiológicos. Comparado com cinco ferramentas RL existentes, nosso método obteve a mais alta precisão e velocidade. Além disso, a etapa de validação independente usando 300 milhões de registros simulados, mostrou um consumo de memória RAM de apenas ~4GB e 23h de processamento em um desktop comum, sem necessidade do uso de plataformas de processamento de alto desempenho. Tucuxi-BLAST pode melhorar a pesquisa médica baseada em dados e fornece uma maneira rápida e precisa de integrar informações individuais em vários bancos de dados administrativos.
Title in English
Record linkage of administrative databases with genomic tools
Keywords in English
BLAST
DNA-encoded
Epidemiological
Genomic tools
Record linkage
Abstract in English
Public health research frequently requires integrating information from different data sources. Record linkage (RL) methodologies utilize the identification fields of each record to link individuals from different databases. However, errors in the records and the high computational costs involved make RL a major challenge for linking large administrative databases. We present Tucuxi-BLAST, a versatile tool for RL that utilizes a DNA-encoded approach to analyze massive administrative databases. By repurposing genomic tools, we were able to integrate three Brazilian health databases with great sensitivity and specificity, and to perform subject tracing across multiple epidemiological databases. Compared to five existing RL tools, our method obtained the highest accuracy and speed. Furthermore, in an independent validation step using 100 million simulated records. On a desktop, the RAM memory consumption was only ~4GB and 23 hours of processing. Tucuxi-BLAST can improve data-driven medical research and provides a rapid and accurate way for linking individual information across several administrative databases.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2021-07-26
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.