Desafios e perspectivas da implementação computacional de testes adaptativos multidimensionais para avaliações educacionais

Piton Gonçalves, Jean

doi:10.11606/T.55.2012.tde-13032013-105955

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2012.tde-13032013-105955

Document

Doctoral Thesis

Author

Piton Gonçalves, Jean (Catálogo USP)

Full name

Jean Piton Gonçalves

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2012-12-17

Published

São Carlos, 2012

Supervisor

Aluisio, Sandra Maria (Catálogo USP)
Cúri, Mariana - (Co-supervisor) (Catálogo USP)

Committee

Aluisio, Sandra Maria (President)
Andrade, Dalton Francisco de
Cúri, Mariana
Silva, Cibele Queiroz da
Vicari, Rosa Maria

Title in Portuguese

Desafios e perspectivas da implementação computacional de testes adaptativos multidimensionais para avaliações educacionais

Keywords in Portuguese

Avaliação educacional
Kullback Leibler entre posteriores subsequentes
Teste adaptativo
Teste adaptativo multidimensional
Teste computadorizado

Abstract in Portuguese

Testes educacionais possibilitam a obtenção de medidas e resultados, a realização de análises e o estabelecimento de objetivos para os processos de ensino e a aprendizagem, além de subsidiarem processos seletivos e políticas públicas. A avaliação de desempenho dos examinados pode considerar uma única ou múltiplas habilidades e/ou competências. Como alternativa para testes via lápis e papel, o Teste Baseado em Computador (CBT) pode compor, aplicar e corrigir testes e produzir estatísticas individuais ou do grupo de examinados automaticamente. Considerando que o examinado possua múltiplas habilidades, o Teste Adaptativo baseado na Teoria de Resposta ao Item Multidimensional (MCAT) mantém a mesma acurácia de um teste tradicional, baseando-se no conhecimento do examinado a partir do histórico de itens anteriormente respondidos. A seleção de itens por Kullback Leibler entre Posteriores Subsequentes ('K POT. p') evita selecionar um item difícil para um examinado com baixa habilidade, sugerindo que 'K POT. p' é um critério aplicável em testes educacionais. A revisão da literatura apontou para: (i) a carência de estudos para o critério 'K POT. P', (ii) a carência de estudos com MCATs operacionais em contextos educacionais para usuários reais, (iii) a carência de estudos e propostas de critérios iniciais e de parada para MCATs, quando o número de itens administrados pelo teste é variável, e (iv) a ausência de trabalhos brasileiros na área de MCATs. Diante das lacunas apresentadas, esta tese de doutoramento trata da seguinte questão de pesquisa: Qual a abordagem para viabilizar o uso do critério KP em MCATs operacionais para contextos educacionais, que permita que o sistema implementado seja aprovado nos critérios de funcionalidade, confiabilidade, eficiência, manutenibilidade e portabilidade da ISO-9126, que é a base para avaliar testes computadorizados? Os objetivos específicos desta pesquisa foram os seguintes: (i) implementar e validar o critério de seleção 'K POT. P', comparando-o com o critério bayesiano usual, (ii) propor melhorias e calcular o tempo computacional de processamento da seleção de itens por 'K POT. P', (iii) propor critérios iniciais consistentes com a realidade e a necessidade das avaliações educacionais, (iv) validar o critério de parada inédito KPIC, quando a intenção é se ter MCATs que administrem um número variável de itens para os examinados, (v) desenvolver uma arquitetura que viabilize a aplicação via Web de MCATs com usuários reais, (vi) discutir aspectos teóricos e metodológicos da nova abordagem CBMAT via prova de conceito, por meio da implementação do sistema MADEPT, que avalia examinados na perspectiva da avaliação diagnóstica, (vii) avaliar o MADEPT de acordo com as normas internacionais de produto de software ISO-9126 e apontar a factibilidade, a viabilidade, as dificuldades, as vantagens e as limitações do desenvolvimento CBMATs para o ambiente Web. A metodologia utilizada para responder a questão de pesquisa foi: (i) organizar e selecionar as teorias, os métodos, os modelos e os resultados inerentes a MCATs, (ii) expandir a equação de 'K POT. P', (iii) implementar o MCAT contemplando o critério de seleção 'K POT. P' e a metodologia bayesiana para estimação e seleção de itens, (iv) validar estatisticamente 'K POT. P' e KPIC, (v) implementar o CBMAT, contemplando o MCAT como um subsistema e (vi) avaliar o CBMAT via ISO-9126. Os resultados deste trabalho são vários: (i) uma ampla revisão da literatura nas teorias/métodos/critérios necessários para a implementação computacional de MCATs, (ii) a reformulação da equação que expressa a seleção por 'K POT. P' para implementação via linguagem de programação científica, (iii) os estudos de simulações do MCAT quando a seleção de itens é por 'K POT. P' e o critério de parada por KPIC mostram que 'K POT. P' é um critério adequado e indicado quando o objetivo é ter um teste com um número baixo e variável de itens administrados, mantendo um vício adequado e com alta acurácia na estimação da habilidade, (iv) o desenvolvimento de algoritmos inéditos para os critérios iniciais, (v) a validação de uma nova arquitetura que viabiliza a aplicação via Web de MCATs com usuários reais e (vi) a implementação e avaliação via ISO-9126 do sistema computacionalWeb MADEPT. Conclui-se que é possível desenvolver uma arquitetura que viabilize a aplicação viaWeb de MCATs com usuários reais, utilizando o critério de seleção 'K POT. P' e critérios iniciais condizentes com as avaliações educacionais. Quando a intenção é aplicar MCATs em cenários reais, a seleção de itens por 'K POT. P' combinado com o critério de parada KPIC proporcionam um teste mais curto e com mais acurácia do que aqueles que utilizam a metodologia bayesiana usual, e com um tempo computacional de processamento condizente com as características da abordagem multidimensional

Title in English

Challenges and perspectives of implementation of multidimensional adaptive test for educational assessment

Keywords in English

Adaptive test
Computer-based testing
Educational assessment
Kullback-Leibler between subsequent posteriors
Multidimensional adaptive test

Abstract in English

Educational tests provide measures and indicators that enable evaluations and guide the definition of educational goals, besides supporting selection processes and public policies formulation. The evaluation of the examinees performance may consider one or multiple skills and abilities. As an alternative to hand-written tests, the Computer Based Test (CBT) provides the setup, application and correction of tests as well as provide individual and/or collective statistics about the examinees performance. Considering that the examinee has several abilities, the Computer Adaptive Test based on the Multidimensional Item Response Theory (MCAT) keeps the same accuracy of a traditional test, building on the personal knowledge inferred from the track record of responses to previous items. The item selection through Kullback Leibler between Subsequent Posteriors ('K POT. P') avoids to select a difficult item for a low ability examinee, suggesting that 'K POT. P' is a criterion applicable to educational tests. The literature review evidenced: (i) the insufficiency of studies about the 'K POT. P' criterion; (ii) the insufficiency of studies on operational MCATs in educational contexts for real users; (iii) the shortage of studies and proposals for initial and stop criteria for MCATs, given a variable number of administered items, and (iv) the lack of Brazilian studies in the area of MCATs. To bridge these gaps, this doctoral thesis addresses the following research question: What is the approach that enables to employ the 'K POT. P' criterion in operational MCATs for educational contexts, ensuring that the implemented system be in accordance with the functionality, reliability, efficiency, maintainability and portability criteria of ISO-9126 (which is the base for computer based tests evaluation)? The specific objectives of this research are to: (i) implement and validate the 'K POT. P' selection criterion, comparing it to the usual Bayesian criterion; (ii) propose improvements and calculate the computational time for item selection processing through 'K POT. P'; (iii) propose initial criteria consistent with the reality and the need of educational evaluation; (iv) validate the novel stop criterion KPIC, aiming at MCATs that administer a variable number of items for the examinees; (v) develop an architecture that enables the application of MCATs via web to real users; (vi) discuss theoretic and methodological issues related to the new CBMAT via proof-of-concept, implementing the MADEPT, which evaluates the examinees under the perspective of the diagnostic evaluation; (vii) evaluateMADEPT according to the international standards software ISO-9126 and point out feasibility, viability, difficulties, advantages and limitations of CBMATs development for web environment. The methodology used to answer the research question was to: (i) organize and select the theories, the methods, the models and results inherent to MCATs; (ii) rewrite the equation of 'K POT. P'; (iii) implement the MCAT considering the 'K POT. P' selection criterion and the Bayesian methodology for item estimation and selection (iv) validate 'K POT. P' and KPIC statistically; (v) implement CBMAT, considering MCAT as a subsystem and (vi) evaluate CBMAT according to ISO-9126. This research has many results: (i) it presents a broad literature review regarding theories/methods/criteria for MCATs computational implementation; (ii) it rewrites in a scientific programming language the equation that expresses the selection through 'K POT. P'; (iii) it shows, through MCAT simulations, that 'K POT. P' is a criterion adequate and indicated for tests with a small and variable number of administered items, using 'K POT. P' for item selection and KPIC as stop criterion; (iv) it develops novel algorithms for initial criteria; (v) it validates a new architecture to enable the application of MCATs via Web to real users; (vi) it implements and evaluates the web computational system MADEPT according to ISO-9126. We conclude that it is possible to develop an architecture that enables the application of MCATs via web to real users, using 'K POT. P' selection criterion and initial criteria consistent with the educational evaluation. If the aim is to apply MCATs in real scenarios, the item selection through 'K POIT. 'P associated with the stop criterion KPIC provide a shorter and more accurate test in comparison to those using bayesian methodology. Moreover, its processing computational time is in line with the features of the multidimensional approach

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

tese_revisada_final_jean_piton_jan2013.pdf (3.55 Mbytes)

Publishing Date

2013-03-14

Derived works

WARNING: The material described below relates to works resulting from this thesis or dissertation. The contents of these works are the author's responsibility.

PITON-GONçALVES, Jean, and ALUíSIO, Sandra Maria. An architecture for multidimensional computer adaptive test with educational purposes [doi:10.1145/2382636.2382644]. In Proceedings of the 18th Brazilian symposium on Multimedia and the web - WebMedia '12 [online], 18, São Paulo/SP, Brazil, 2012. New York, New York, USA : ACM Press, 2012. p. 17. ISBN 9781450317061.
PITON-GONçALVES, Jean, e ALUíSIO, Sandra Maria. Métodos de avaliação informatizada que tratam o conhecimento parcial do aluno e geram provas individualizadas. In [online], , . ISSN: 2176-4301. [acesso 2013-02-19]. Disponível em : <http://www.br-ie.org/pub/index.php/sbie/article/view/1141/1044>