Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos

Santos, Leandro Borges dos

doi:10.11606/T.55.2020.tde-05022020-155847

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.55.2020.tde-05022020-155847

Document

Thèse de Doctorat

Auteur

Santos, Leandro Borges dos (Catálogo USP)

Nom complet

Leandro Borges dos Santos

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2019-12-09

Editeur

São Carlos, 2019

Directeur

Aluisio, Sandra Maria (Catálogo USP)

Jury

Aluisio, Sandra Maria (Président)
Caseli, Helena de Medeiros
Feltrim, Valéria Delisandra
Pardo, Thiago Alexandre Salgueiro

Titre en portugais

Representação de narrativas e extração de suas unidades de informação para automatização de testes neuropsicológicos

Mots-clés en portugais

Avaliação de similaridade semântica
Identificação de unidades de informação
Reconto de narrativas
Testes neuropsicológicos

Resumé en portugais

O aumento da expectativa de vida tem ocasionado um aumento nas taxas de doenças neurodegenarativas na população idosa. Entre os vários tipos de demências, a principal é a Doença de Alzheimer (DA), correspondendo a 5075% dos casos. Outra enfermidade que tem recebido atenção nos últimos anos é o Comprometimento Cognitivo Leve (CCL), sendo considerado uma condição pré-clínica da DA, sendo assim importante o seu diagnóstico precoce. Para a identificação de demências e outras doenças relacionadas, são utilizados testes que avaliam a função cognitiva e aspectos linguísticos. Alguns desses exames utilizam como subtestes o reconto de narrativas. Nessa avaliação, a narrativa é dividida em partes, chamadas de unidades de informação, podendo ser palavras ou orações. O escore final do teste representa a quantidade de unidades recordadas. Em geral, é atribuído um ponto para cada unidade. Entretanto, as principais dificuldades no uso de tarefas de reconto são a demanda de tempo e a subjetividade da análise humana. Assim, aplicação de métodos computacionais que automatizem a avaliação é bem-vinda tanto para a larga utilização da tarefa de reconto como para a manutenção da uniformidade na correção, em uma análise longitudinal, por exemplo. O objetivo deste projeto de doutorado, na área de Processamento de Línguas Naturais (PLN) aplicado à área médica, é a avaliação de métodos para automatizar o exame de reconto de narrativas em Português, utilizado na Bateria Arizona para Desordens de Comunicação em Demências (ABCD) e na Bateria de Avaliação da Linguagem no Envelhecimento (BALE). Neste trabalho, avaliamos um método de similaridade semântica que se destacou na Avaliação de Similaridade Semântica e Inferência Textual (ASSIN), e desenvolvemos um método baseado na similaridade de word embeddings. Transformamos o problema multirrótulo de identificação de elementos de uma narrativa recontada em problemas de classificação binária, e encontramos um ponto de corte para o valor de similaridade de cada unidade de informação. Visando uma triagem automática, esses elementos são usados como atributos para os algoritmos de classificação binária (idosos saudáveis versus idosos com comprometimentos cognitivos). Além desses atributos, utilizamos métricas linguísticas, e desenvolvemos um léxico com propriedades psicolinguísticas. Também, propusemos uma abordagem para enriquecer as redes de adjacências, permitindo extrair métricas das propriedades topológicas de redes complexas. Por fim, combinamos todos os atributos para identificar automaticamente em um cenário binário (idosos saudáveis versus idosos com comprometimentos cognitivos). Os métodos de identificação de unidades superaram os baselines em ambas as baterias clínicas avaliadas. Na classificação binária, os resultados foram semelhantes aos da anotação manual, demostrando a adequação dos métodos desenvolvidos. Em geral, os resultados experimentais das métricas psicolinguísticas e de redes de adjacência enriquecidas ficaram acima de 50% de acurácia. Entretanto a combinação de todos os atributos investigados ou desenvolvidos não apresentou ganhos; acreditamos que a grande quantidade de atributos e o baixo número de exemplos causou esse resultado negativo.

Titre en anglais

Narratives representation and extraction of their information units for automation of neuropsychological tests

Mots-clés en anglais

Identification of information units
Narrative retelling
Neuropsychological tests
Semantic textual similarity

Resumé en anglais

Increased life expectancy can be accompanied by neurodegenerative diseases. Among the various types of dementia, the main one is Alzheimers Disease (AD), corresponding to 50-75% of cases. Another disease that has received increased attention over the last few years is Mild Cognitive Impairment (MCI), which is considered a preclinical stages of AD, and therefore important to diagnose early. Diagnosis of dementia and related syndromes are commonly based on the analysis of a patients cognitive functions and linguistic aspects by applying neuropsychological batteries. Some of these batteries use a narrative retelling as a subtest, and are divided into chunks, called units of information, which can be words or phrases. The final score represents the number of units recalled. In general, one point being awarded for each unit recalled. However, the main difficulties of using narratives are the time required and the subjectivity of the manual analysis. Thus, the application of computational methods to automate the assessment is welcome both for the wide use of the task of retelling and to maintain assessment consistency, in a longitudinal analysis, for example. The purpose of this research project in Natural Language Processing (NLP) applied to the medical domain, is the evaluation of methods to automate specifically the retelling of narratives in Portuguese, using the Arizona Battery of Communication Disorders in Dementia (ABCD), and the Bateria de Avaliação da Linguagem no Envelhecimento (BALE). We evaluated the best ranked semantic similarity method in the Avaliação de Similaridade Semântica e Inferência Textual (ASSIN shared task), and we also developed a method based on the similarity of word embeddings. We transformed the multilabel problem of element identification of a narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. For automatic screening, these elements are then used as features for classification algorithms. In addition to these features, we used linguistic metrics and we also developed a lexicon with psycholinguistic properties. Moreover, we proposed an approach to enrich adjacency networks, allowing the extraction of metrics from topological properties of complex networks. Finally, we combined all of these features to automatically identify narratives in a binary classification task (healthy versus impaired elderly groups). The methods of units identification outperformed the baselines in both clinical batteries; for the binary classification task, the results were similar to manual annotation, demonstrating the adequacy of the methods. In general, the experimental results of the psycholinguistic metrics and enriched adjacency networks were above 50% accuracy. However, as combination of all features, investigated or developed, showed no gains, we believe that the large number of attributes and the low number of examples impacted this evaluation.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

LeandroBorgesdosSantos_revisada.pdf (2.54 Mbytes)

Date de Publication

2020-02-05

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.