• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2008.tde-10062008-154826
Document
Auteur
Nom complet
Daniel de Faveri Honorato
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2008
Directeur
Jury
Monard, Maria Carolina (Président)
Carvalho, Ariadne Maria Brito Rizzoni
Chung, Wu Feng
Titre en portugais
Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor
Mots-clés en portugais
Extração de terminologia
Mineração de textos
Pré-processamento de textos
Resumé en portugais
Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos
Titre en anglais
A methodology for mapping non-structured medical findings to the attribute-value table format
Mots-clés en anglais
Terminology extraction
Text mining
Text pre-processing
Resumé en anglais
The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2008-06-10
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.