Using VAE for Incomplete Educational Data

Montecino, Claudia Evelyn Escobar

doi:10.11606/T.104.2023.tde-24082023-102049

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.104.2023.tde-24082023-102049

Documento

Tese de Doutorado

Autor

Montecino, Claudia Evelyn Escobar (Catálogo USP)

Nome completo

Claudia Evelyn Escobar Montecino

E-mail

Unidade da USP

Estatística Interinstitucional do ICMC e UFSCar

Área do Conhecimento

Estatística

Data de Defesa

2023-03-13

Imprenta

São Carlos, 2023

Orientador

Cúri, Mariana (Catálogo USP)

Banca examinadora

Cúri, Mariana (Presidente)
Assunção, Renato Martins
Burgos, Jorge Andrés González
Carvalho, Benilton de Sá
Mello, Rodrigo Fernandes de

Título em inglês

Using VAE for Incomplete Educational Data

Palavras-chave em inglês

Autoencoder
Incomplete educational data
Item response theory
Missing data
Neural networks
Variational autoencoder

Resumo em inglês

In Psychometrics, and in particular in educational assessments, it is common to find incomplete databases. Lack of time, forgetting the content involved, nervousness or even the test design are some of the reasons why an individual may leave items unanswered in an assessment. In this context, it is important to have estimation methods for psychometric models that deal with missing data and are affected as little as possible by the lack of information in those unanswered items. In a small-scale scenario, traditional estimation methods for Item Response Theory (IRT) models, for example, are suitable for situations with complete and incomplete data. However, for high-dimensional situations, such as assessments involving many latent skills and abilities, traditional methods are not computationally efficient or even unable to obtain estimates for so many parameters. Deep learning has been adapted to incorporate IRT models and make predictions and estimates from large, high-dimensional databases. In this work, we deepen the investigation of (?)]Curi, who defined a Two Parameter Logistic Model (ML2P) in the architecture of a variational autoencoder (VAE) as a proposal to solve the problem of estimating the many parameters of the model. We performed a simulation study to compare two variations of deep neural networks, autoencoders (AE) and VAE, defined with an ML2P model in the decoder, for situations with a large number of latent traces and complete data. After favorable results of the VAE, we propose an extension of the same (IVAE) to be able to make predictions in cases of missing data and, thus, make the model more general and useful in practice. Simulations of the proposed model were performed under different scenarios to investigate the efficiency of the new method in recovering the parameters. Comparisons of the results with one of the methodologies currently most indicated in IRT to deal with a situation of greater dimensionality, the joint maximum likelihood, were also made, in addition to the application to a real case of high dimension and with missing data.

Título em português

Usando VAE para Dados Educacionais Incompletos

Palavras-chave em português

Autoencoder
Autoencoder variacional
Dados ausentes
Dados educacionais incompletos
Redes neurais
Teoria da resposta ao item

Resumo em português

Em Psicometria, e em particular em avaliações educacionais, é comum encontrar bases de dados incompletas. A falta de tempo, esquecimento do conteúdo envolvido, nervosismo ou mesmo o delineamento da prova são alguns dos motivos pelos quais um indivíduo pode deixar itens sem responder em uma avaliação. Neste contexto, é importante a existência de métodos de estimação para modelos psicométricos que lidem com dados faltantes e sejam afetados o menos possível pela ausência de informação naqueles itens não respondidos. Num cenário de pequena dimensão, métodos tradicionais de estimação para modelos de Teoria de Resposta ao Item (TRI), por exemplo, são adequados para situações com dados completos e incompletos. No entanto, para situações de alta dimensionalidade, como em avaliações que envolvem muitas competências e habilidades latentes, os métodos tradicionais não são computacionalmente eficientes ou mesmo incapazes de obter estimativas para tantos parâmetros. Aprendizagem profunda vem sendo adaptada de forma a incorporar modelos de TRI e fazer previsões e estimações a partir de grandes bancos de dados, de alta dimensionalidade. Neste trabalho, aprofundamos a investigação de (?)]Curi, que definiu um Modelo Logístico de Dois Parametros (ML2P) na arquitetura de um autoencoder variacional (VAE) como uma proposta para solucionar o problema de estimação dos muitos parâmetros do modelo. Realizamos um estudo de simulação para comparar duas variações de redes neurais profundas, autoencoders (AE) e VAE, definidas com um modelo ML2P no decodificador, para situações com um número grande de traços latentes e dados completos. Após resultados favoráveis do VAE, propomos uma extensão do mesmo (IVAE) para poder fazer previsões em casos de dados faltantes e, assim, tornar o modelo mais geral e útil na prática. Simulações do modelo proposto foram realizadas sob diferentes cenários para investigar a eficiência do novo método na recuperação dos parâmetros. Comparações dos resultados com uma das metodologias atualmente mais indicadas em TRI para lidar numa situação de maior dimensionalidade, a máxima verossimilhança conjunta, também foram feitas, além da aplicação a um caso real de alta dimensão e com dados faltantes.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Claudia_E_Escobar_DO_REVISADA.pdf (4.83 Mbytes)

Data de Publicação

2023-08-24

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.