Using VAE for Incomplete Educational Data

Montecino, Claudia Evelyn Escobar

doi:10.11606/T.104.2023.tde-24082023-102049

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.104.2023.tde-24082023-102049

Document

Doctoral Thesis

Author

Montecino, Claudia Evelyn Escobar (Catálogo USP)

Full name

Claudia Evelyn Escobar Montecino

E-mail

Institute/School/College

Estatística Interinstitucional do ICMC e UFSCar

Knowledge Area

estatística

Date of Defense

2023-03-13

Published

São Carlos, 2023

Supervisor

Cúri, Mariana (Catálogo USP)

Committee

Cúri, Mariana (President)
Assunção, Renato Martins
Burgos, Jorge Andrés González
Carvalho, Benilton de Sá
Mello, Rodrigo Fernandes de

Title in English

Using VAE for Incomplete Educational Data

Keywords in English

Autoencoder
Incomplete educational data
Item response theory
Missing data
Neural networks
Variational autoencoder

Abstract in English

In Psychometrics, and in particular in educational assessments, it is common to find incomplete databases. Lack of time, forgetting the content involved, nervousness or even the test design are some of the reasons why an individual may leave items unanswered in an assessment. In this context, it is important to have estimation methods for psychometric models that deal with missing data and are affected as little as possible by the lack of information in those unanswered items. In a small-scale scenario, traditional estimation methods for Item Response Theory (IRT) models, for example, are suitable for situations with complete and incomplete data. However, for high-dimensional situations, such as assessments involving many latent skills and abilities, traditional methods are not computationally efficient or even unable to obtain estimates for so many parameters. Deep learning has been adapted to incorporate IRT models and make predictions and estimates from large, high-dimensional databases. In this work, we deepen the investigation of (?)]Curi, who defined a Two Parameter Logistic Model (ML2P) in the architecture of a variational autoencoder (VAE) as a proposal to solve the problem of estimating the many parameters of the model. We performed a simulation study to compare two variations of deep neural networks, autoencoders (AE) and VAE, defined with an ML2P model in the decoder, for situations with a large number of latent traces and complete data. After favorable results of the VAE, we propose an extension of the same (IVAE) to be able to make predictions in cases of missing data and, thus, make the model more general and useful in practice. Simulations of the proposed model were performed under different scenarios to investigate the efficiency of the new method in recovering the parameters. Comparisons of the results with one of the methodologies currently most indicated in IRT to deal with a situation of greater dimensionality, the joint maximum likelihood, were also made, in addition to the application to a real case of high dimension and with missing data.

Title in Portuguese

Usando VAE para Dados Educacionais Incompletos

Keywords in Portuguese

Autoencoder
Autoencoder variacional
Dados ausentes
Dados educacionais incompletos
Redes neurais
Teoria da resposta ao item

Abstract in Portuguese

Em Psicometria, e em particular em avaliações educacionais, é comum encontrar bases de dados incompletas. A falta de tempo, esquecimento do conteúdo envolvido, nervosismo ou mesmo o delineamento da prova são alguns dos motivos pelos quais um indivíduo pode deixar itens sem responder em uma avaliação. Neste contexto, é importante a existência de métodos de estimação para modelos psicométricos que lidem com dados faltantes e sejam afetados o menos possível pela ausência de informação naqueles itens não respondidos. Num cenário de pequena dimensão, métodos tradicionais de estimação para modelos de Teoria de Resposta ao Item (TRI), por exemplo, são adequados para situações com dados completos e incompletos. No entanto, para situações de alta dimensionalidade, como em avaliações que envolvem muitas competências e habilidades latentes, os métodos tradicionais não são computacionalmente eficientes ou mesmo incapazes de obter estimativas para tantos parâmetros. Aprendizagem profunda vem sendo adaptada de forma a incorporar modelos de TRI e fazer previsões e estimações a partir de grandes bancos de dados, de alta dimensionalidade. Neste trabalho, aprofundamos a investigação de (?)]Curi, que definiu um Modelo Logístico de Dois Parametros (ML2P) na arquitetura de um autoencoder variacional (VAE) como uma proposta para solucionar o problema de estimação dos muitos parâmetros do modelo. Realizamos um estudo de simulação para comparar duas variações de redes neurais profundas, autoencoders (AE) e VAE, definidas com um modelo ML2P no decodificador, para situações com um número grande de traços latentes e dados completos. Após resultados favoráveis do VAE, propomos uma extensão do mesmo (IVAE) para poder fazer previsões em casos de dados faltantes e, assim, tornar o modelo mais geral e útil na prática. Simulações do modelo proposto foram realizadas sob diferentes cenários para investigar a eficiência do novo método na recuperação dos parâmetros. Comparações dos resultados com uma das metodologias atualmente mais indicadas em TRI para lidar numa situação de maior dimensionalidade, a máxima verossimilhança conjunta, também foram feitas, além da aplicação a um caso real de alta dimensão e com dados faltantes.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

Claudia_E_Escobar_DO_REVISADA.pdf (4.83 Mbytes)

Publishing Date

2023-08-24

Derived works

WARNING: Learn what derived works are clicking here.