• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2021.tde-07042021-133413
Documento
Autor
Nome completo
Murilo Gleyson Gazzola
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2021
Orientador
Banca examinadora
Aluisio, Sandra Maria (Presidente)
Candido Junior, Arnaldo
Feltrim, Valéria Delisandra
Pardo, Thiago Alexandre Salgueiro
Título em português
Avaliação automática da qualidade de recursos educacionais abertos usando métodos de Processamento de Línguas Naturais
Palavras-chave em português
Complexidade Textual
Deep learning
Multi-task learning
Processamento de língua natural
Resumo em português
Contexto: A expansão do acesso à banda larga no mundo está abrindo novos caminhos para o ensino, os quais podemos destacar o ensino aberto. A UNESCO em seu relatório anual de 2016 destacou que existem fortes interesses em incentivar a utilização de recursos educacionais abertos (REA) no campo de aprendizagem. Porém, a falta de qualidade dos REA é um desafio a ser superado. Em uma recolha na Plataforma Integrada do Ministério da Educação (MEC-RED) de maio de 2018, 41% dos recursos não possuíam classificação da etapa de ensino, dificultando sua busca, uso e edição. A literatura mais recente em avaliação automática da complexidade textual traz três grandes abordagens para essa tarefa: (i) uso de técnicas estatísticas como a Análise de Componentes Principais e a Análise Fatorial para reduzir um grande número de métricas linguísticas em poucas dimensões explicativas da complexidade textual; (ii) a abordagem de aprendizado de máquina, via construção de classificadores ou regressores, muitas vezes com o uso de métodos de seleção de features ou com avaliação da contribuição de conjuntos de features para a tarefa; e (iii) a abordagem de Deep Learning, que usa arquiteturas neurais com diversas características para evitar o uso de engenharia de features. Lacunas: Na avaliação automática da complexidade textual, até onde sabemos, não há trabalhos que aplicaram a abordagem Multi-task Learning com o propósito de construir um preditor de complexidade textual, e na avaliação da qualidade de metadados de REA a abordagem Deep Learning não havia sido explorada antes desta pesquisa. Proposta: A tarefa Complexidade Textual pode ajudar a identificar textos que tem complexidade linguística adequada a séries específicas, permitindo completar a etapa de ensino na MEC-RED. Avaliamos o impacto do gênero textual na avaliação da complexidade textual, com modelos treinados em um grande córpus de textos didáticos e testados em 2 datasets de REA da MEC-RED. Para REA que não possuem material textual, como vídeos e áudios, propusemos a avaliação de sua qualidade via título e resumo. Métodos de Avaliação: Para a avaliação em geral, foram usadas métricas comuns da área de Processamento de Línguas Naturais (PLN). Resultados: Como resultados, propusemos dois métodos de classificação da qualidade dos metadados de REA, usando Deep Learning (DeepMD e DeepMDX); além de uma larga avaliação da complexidade textual de REA no Português Brasileiro. Nesta última, usamos várias abordagens, incluindo Multi-task Learning, que não havia sido testada anteriormente, em duas arquiteturas (MTC-DTG Simplex e MTC-DTG). O melhor resultado para a classificação da qualidade de metadados, utilizando um dataset com 1.179 título/resumo de REA, foi de 0.98% de medida F, tanto com o modelo DeepMD como com o DeepMDX. Na avaliação da complexidade textual, podemos destacar o desempenho do modelo multi-task learning com duas tarefas auxiliares (MTC-DTG) que obteve 0.95% de medida F, o que trouxe uma melhoria de 0.15 pontos no melhor modelo de aprendizado de máquina tradicional (SVM).
Título em inglês
Automatically assessing open educational resources using computational techniques based on natural language processing
Palavras-chave em inglês
Deep learning
Multi-task learning
Natural language processing
Readability
Resumo em inglês
Background: The expansion of broadband access in the world is opening new paths for education, which we can highlight open education. UNESCO in its 2016 annual report highlighted that there are strong interests in encouraging the use of open educational resources (OER) for learning. However, the lack of quality of OER is a challenge to be overcome. The analysis of a corpus of resources taken from a dump of May 2018 of the Integrated Platform of the Ministry of Education (MEC-RED), 41% of the resources did not have classification of the teaching stage, making it difficult to search, use and edit them. The literature on automatic assessment of textual complexity (or readability) brings three major approaches to this task: (i) use of statistical techniques such as Principal Component Analysis and Factor Analysis to reduce a large number of linguistic metrics in a few explanatory dimensions of textual complexity; (ii) the machine learning approach, through the construction of classifiers or regressors, often with the use of features selection methods or with the evaluation of the contribution of feature sets to the task; and (iii) the Deep Learning approach, which uses neural architectures with different characteristics to avoid the use of feature engineering. Gaps: In the automatic evaluation of textual complexity, as far as we know, there are no studies that applied the Multi-task Learning (MTL) approach in order to build a predictor of textual complexity and in the evaluation of the quality of OER metadata, Deep Learning approaches had not been explored before this research. Objectives: The Textual Complexity task can help to identify texts that have linguistic complexity appropriate to specific grades, allowing to complete the teaching stage of MEC-RED. We evaluated the impact of the textual genre in the assessment of textual complexity, with models trained in a large corpus of textbooks and tested in two datasets of OER from MEC-RED. For OER that do not have textual material, such as videos and audios, we proposed to assess their quality via title and summary. Evaluation: For evaluation, common metrics from the Natural Language Processing (PLN) area were used to assess the performance of the developed approaches. Results: As for results, we have developed two methods for classifying the quality of OER metadata, using Deep Learning (DeepMD and DeepMDX) and carried out a broad assessment of the textual complexity of OER in Brazilian Portuguese. In the latter, we used several approaches, including Multi-task Learning, which had not been previously tested, on two architectures (MTC-DTG Simplex and MTC-DTG). The best result for the classification of metadata quality, using a dataset with 1,179 OER title/abstract, was 0.98 % of F-measure, both with the DeepMD model and with the DeepMDX. In the assessment of textual complexity, we can highlight the performance of the multi-task learning model with two auxiliary tasks (MTC-DTG) that obtained 0.95% of F-measure, an improvement of 0.15 points over the best model using traditional machine learning (SVM).
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2021-04-07
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.