Abstracts
Résumé
Les méthodes permettant de détecter les réponses au hasard dans l’évaluation des apprentissages présentent quelques limites. Par exemple, les indices de détection de patrons de réponses inappropriés (person-fit indexes) nécessitent généralement d’énormes bases de données et permettent seulement de dire si un étudiant répond en accord ou non avec un modèle de mesure (par exemple, le modèle de Rasch). Dans le cadre de cet article, nous présentons une nouvelle approche permettant d’identifier les étudiants qui répondent au hasard lors d’épreuves d’évaluation des apprentissages. Après avoir discuté des limites des principales approches existantes, nous exposons les détails techniques de l’utilisation du facteur de Bayes pour évaluer un nombre fini d’hypothèses informatives. Ensuite, nous appliquons le facteur de Bayes à des données simulées et des données réelles obtenues à des fins d’illustration. Les résultats permettent de voir que le facteur de Bayes est une méthode prometteuse pour détecter le comportement de réponse au hasard.
Mots-clés :
- Réponse au hasard,
- facteur de Bayes,
- évaluation des apprentissages,
- patrons de réponses inappropriés,
- hypothèses informatives
Abstract
The available methods that permit detecting students who guess at random in learning assessment tests present many limits. For example, person-fit indexes need generally large data matrices and can be used only to detect if a student responds in accordance to a measurement model (e.g., Rasch models).
In this paper, we will present a new approach to identify students who guess at random in learning assessment tests. After discussing limits of some existing methods, we will expose the technical details of the use of the Bayes factor to evaluate a number of informative hypotheses (Hoijtink, 2012 ; Hoijtink, Klugkist and Boelen, 2008). Next, we will apply this Bayes factor to a simulation study and real data sets for illustration purposes. Our result shows that the Bayes factor is a promising way to detect students who guess at random in learning assessment tests.
Keywords:
- Answer guessing,
- Bayes factor,
- learning assessment
Resumen
Los métodos que permiten detectar las respuestas dadas al azar en la evaluación de aprendizajes presentan algunos límites. Por ejemplo, los índices de detección de patrones de respuestas inapropiadas (person-fit indexes) necesitan generalmente grandes bases de datos y solamente permiten decir si un estudiante responde de acuerdo o no con un modelo de medida (por ejemplo, el modelo de Rasch).
En este artículo presentamos un nuevo enfoque que permite identificar a los estudiantes que responden al azar en las pruebas de evaluación de aprendizajes. Después de discutir los límites de los principales enfoques existentes, exponemos los detalles técnicos de la utilización del factor de Bayes para evaluar un número finito de hipótesis informativas. Posteriormente, aplicamos el factor de Bayes a datos simulados y a datos reales obtenidos para fines de ilustración. Los resultados permiten ver que el factor de Bayes es un método prometedor para detectar el comportamiento de respuesta aleatoria.
Palabras clave:
- Respuesta al azar,
- factor de Bayes,
- evaluación de aprendizajes
Appendices
Bibliographie
- Angoff, W. H. (1974). The development of statistical indices for detecting cheaters. Journal of the American statistical association, 69, 44-49.
- Angoff, W. H. (1989). Does guessing really help ? Journal of educational measurement, 26, 323-336.
- Ashler, D. (1979). Biserial estimators in the presence of guessing. Journal of educational and behavioral statistics, 4, 325-355.
- Bertrand, R. et Blais, J.- G. (2004). Modèle de mesure : l’apport de la théorie de la réponse aux items. Québec, Québec : Presses de l’Université du Québec.
- Brassard, P. D. (2011). Identification des stratégies de sous-classement intentionnel aux tests de classement en anglais, langue seconde, au collégial (Mémoire de maîtrise non publié). Université du Québec à Montréal.
- Casella, G. and George, E. I. (1992). Explaining the Gibbs sampler. American statistician, 46, 167-174.
- Cronbach, L. J. (1946). Response set and test validity. Educational and psychological measurement, 6, 475-494.
- Drasgow, F., Levine, M. V. and Williams, E. A. (1985). Appropriateness measurement with polytomous item response models and standardized indices. British journal of mathematical and statisticalpsychology, 38, 67–86.
- Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer, L. Guttman, E. A. Suschman, P. F. Lazarsfeld, S. A. Star and J. A. Clausen (eds), Measurement and prediction (p. 60-90). Princeton, New Jersey : Princeton University press.
- Hambleton, R. K. and Swaminathan, H. (1985). Item response theory : principles and applications. Boston, Massachusetts : Kluwer.
- Hoijtink, H. J. A. (2012). Informative hypotheses : theory and practice for behavioral and social scientists. London, United Kingdom : Chapman and Hall.
- Hoijtink, H. J. A., Klugkist, I. and Boelen, P. A. (eds) (2008). Bayesian evaluation of informative hypotheses. New York, New York : Springer.
- Jackman, S. (2009). Bayesian analysis for the social sciences. Chichester, United-Kingdom : Wiley.
- Jeffreys, H. (1961). Theory of probability (3rd edition). Oxford, United Kingdom : Oxford University Press.
- Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied measurement in education, 16, 277-298.
- Kass, R. E. and Raftery, A. E. (1995). Bayes factor. Journal of the American statistical association, 90, 773-795.
- Lanning, K. (1989). Detection of invalid response patterns on the California. Psychological inventory. Applied psychological measurement, 13, 45-56.
- Laurier, M., Froio, L., Parro, C. et Fournier, P. (1998). L’élaboration d’un test provincial pour le classement des étudiants en anglais, langue seconde, au collégial. Québec, Québec : Direction générale de l’enseignement collégial, ministère de l’Éducation du Québec.
- Lee, P., Stark, S. and Chernyshenko, O. S. (2014). Detecting aberrant responding on unidimensional pairwise preference tests : an application of lz based on the Zinnes-Griggs Ideal Point IRT Model. Applied psychological measurement, 38, 391-403.
- Meijer, R. R. and Sijtsma, K. (2001). Methodology review : evaluating person fit. Applied psychological measurement, 25, 107-135.
- Mulder, J., Hoijtink, H. J. A. and Klugkist, I. (2010). Equality and inequality constrained multivariate linear models : Objective model selection using constrained posterior priors. Journal of statistical planning and inference, 140, 887-906.
- O’Dell, J. W. (1971). Method for detecting random answer on personality questionnaire. Journal of applied psychology, 55, 380-383.
- Raîche, G. (2002). Le dépistage du sous-classement aux tests de classement en anglais, langue seconde, au collégial. Gatineau, Québec : Collège de l’Outaouais.
- Raîche, G., Béland, S., Magis, D., Blais, J.-G. et Brochu, P. (2010). La modélisation des patrons de réponses atypiques à partir de modèles paramétriques multidimensionnels. Communication présentée au Congrès des sciences humaines- XXXVIII. Université Concordia (Montréal).
- Raîche, G., Magis, D., Blais, J.-G. et Brochu, P. (2012). Taking atypical response patterns into account. In M. Simon, K. Ercikan et M. Rousseau (eds), Improving large scale assessment in education : theory, issues and practice (p. 238-259). New York, New York : Taylor and Francis.
- Reckase, M. D. (1985). The difficulty of test items that measure more than one ability. Applied psychological measurement, 9, 401-412.
- Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden and R. K. Hambleton (eds.), Handbook of modern item response theory (p. 271-286). New York, New York : Springer.
- Reckase, M. D. (2009). Multidimensional item response theory. New York, New York : Springer.
- Slakter, M. J. (1968). The effect of guessing on objective test scores. Journal of educational measurement, 5, 217-221.
- Sotaridona, L. S. and Meijer, R. R. (2002) Statistical properties of the K-index for detecting answer copying. Journal of educational measurement, 39, 115-132.
- Votaw, D. F. (1936). The effect of do-not-guess directions on the validity of true-false or multiple-choice tests. Journal of educational psychology, 27, 698-703.
- Waller, M. I. (1973). Removing the effects of random guessing from latent trait ability estimates (Unpublished doctoral thesis). University of Chicago, Chicago, Illinois.
- Waller, M. I. (1983). Modeling guessing behavior : A comparison of two IRT models. Applied psychological measurement, 13, 233-243.
- Wollack, J. A. (1997). A nominal response model approach to detect answer copying. Applied psychological measurement, 21, 307-320.
- Wollack, J. A. and Cohen, A. S. (1998). Detection of answer copying with unknown item and trait parameters. Applied psychological measurement, 22, 144-152.