Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular

Leal, Sidney Evaldo

doi:10.11606/T.55.2021.tde-16072021-115303

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2021.tde-16072021-115303

Document

Doctoral Thesis

Author

Leal, Sidney Evaldo (Catálogo USP)

Full name

Sidney Evaldo Leal

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2021-06-01

Published

São Carlos, 2021

Supervisor

Aluisio, Sandra Maria (Catálogo USP)

Committee

Aluisio, Sandra Maria (President)
Finger, Marcelo
Hübner, Lilian Cristine
Vieira, Renata

Title in Portuguese

Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular

Keywords in Portuguese

Inteligibilidade
Predição de complexidade de sentenças
Rastreamento ocular
Simplificação de textos
Transfer learning

Abstract in Portuguese

O INAF (Indicador de Alfabetismo Funcional), criado para mensurar o nível de letramento da população brasileira entre 15 e 64 anos, apontou, em seu relatório de 2018, que somente um em cada dez brasileiros adultos é considerado letrado de forma proficiente. No setor da agropecuária, apenas uma em cada cem pessoas consegue ler e compreender textos sem enfrentar dificuldades. Isso significa que a grande maioria dos produtores rurais pode não se beneficiar das tecnologias publicadas por entidades de pesquisa como a Embrapa (Empresa Brasileira de Pesquisa Agropecuária). Uma solução bastante viável para esse problema é simplificar essas publicações para torná-las mais acessíveis para público alvo. Uma das etapas da simplificação é a tarefa conhecida como predição da complexidade sentencial, responsável por identificar as sentenças mais complexas de um texto, as quais serão alvo das operações de simplificação subsequentes. Para o português brasileiro, antes do presente trabalho, a tarefa de predição de complexidade sentencial ainda não havia sido avaliada e nem havia córpus criados para o aprendizado da tarefa. Outra lacuna observada foi a falta de um córpus com métricas de rastreamento ocular, semelhante aos disponíveis em inglês e utilizados pelos trabalhos internacionais mais recentes sobre predição de complexidade. O objetivo principal desta pesquisa é avaliar métodos de predição de complexidade sentencial para o português brasileiro escrito, a fim de criar um método no estado da arte para a tarefa. Para implementar esse método, projetou-se um ambiente denominado Simpligo, que tem por objetivo auxiliar na simplificação de textos, especialmente os produzidos pela Embrapa para o domínio rural. Para atingir esses objetivos, foram criados dois córpus: um com as sentenças alinhadas do PorSimples (CASELI et al., 2009), e um com métricas de rastreamento ocular e normas de previsibilidade de estudantes do ensino superior. Também disponibilizou-se a versão de 2021 da ferramenta NILC-Metrix, de código-fonte aberto, com 200 métricas linguísticas e psicolinguísticas, as quais são utilizadas nas avaliações dos métodos de predição de complexidade sentencial . Por fim, nesta pesquisa foram avaliadas abordagens de ranking e transfer learning, sendo que esta última, com a adição das métricas de rastreamento ocular, atingiu o estado da arte para a tarefa de predição da complexidade sentencial na língua portuguesa, com 97,5% de acurácia. Este trabalho contribui com novos córpus, métodos e aplicações, voltados à tarefa de avaliação da complexidade sentencial. Além disso, ao serem disponibilizados publicamente todos os recursos desenvolvidos, torna-se possível sua utilização em outras tarefas e investigações.

Title in English

Sentence-based readability prediction in Brazilian Portuguese, using linguistic, psycholinguistic and eye tracking metrics

Keywords in English

Eye-tracking
Readability
Sentence-based readability prediction
Text simplification
Transfer Learning

Abstract in English

The INAF (Functional Literacy Indicator), created to measure the literacy level of the Brazilian population between 15 and 64 years old, pointed out in its 2018 report that only one in ten adult Brazilians is considered proficiently literate. In the farming sector, only one in a hundred people can read and understand texts without facing difficulties. This means that the vast majority of rural producers may not benefit from the technologies published by research entities such as Embrapa (Brazilian Agricultural Research Corporation). A very viable solution to this problem is to simplify these publications to make them more accessible to the target audience. One of the simplification steps is to assess the sentence complexity, a task known as sentence complexity prediction, responsible for identifying the most complex sentences in a text, which will be the target of subsequent simplification operations. For Brazilian Portuguese, before the present work, the task of sentence complexity prediction had not been evaluated and there was no corpus available for learning the task. Another gap observed was the lack of a corpus with eye-tracking metrics, similar to those available in English and used by the most recent international studies on complexity prediction. The main goal of this research is to evaluate methods for predicting sentential complexity for written Brazilian Portuguese in order to create a state-of-the-art method for the task. To implement this method, we designed a computational environment called Simpligo to support texts simplification, especially those produced by Embrapa for the rural domain. To achieve these goals, we created two corpora: one with PorSimples (CASELI et al., 2009) aligned sentences, and one with eye-tracking metrics and predictability norms for higher education students. In addition, we released the 2021 version of the open-source NILC-Metrix tool with 200 linguistic and psycholinguistic metrics, which we use in our evaluations of sentence complexity prediction methods. Finally, this research evaluated ranking and transfer learning approaches, and the latter, with the addition of eye-tracking metrics, reached the state-of-theart for the task of predicting sentential complexity in the Portuguese language, with 97.5% accuracy. This work contributes with new corpora, methods and applications focused on the task of evaluating sentential complexity. Additionally, by making all the resources developed publicly available, we enable them to be used in other tasks and investigations.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

SidneyEvaldoLeal_revisada.pdf (5.75 Mbytes)

Publishing Date

2021-07-16

Derived works

WARNING: Learn what derived works are clicking here.