Abstracts
Résumé
Les évaluateurs constituent un maillon essentiel des dispositifs d’évaluation des compétences langagières et doivent bénéficier d’un accompagnement continu pour maintenir la qualité des évaluations à un niveau satisfaisant. Cet article compare deux méthodes pour la détermination des profils de sévérité d’évaluateurs d’une épreuve d’expression écrite en français langue étrangère, à partir de leurs données de production. La première méthode s’inscrit dans le cadre de la théorie classique des tests et la seconde s’appuie sur la théorie de réponse aux items, par la mise en oeuvre d’un modèle multifacettes de Rasch. Les résultats concordants des deux méthodes montrent l’utilité de tenir compte de la sévérité des correcteurs aux différents points de césure pour améliorer la fidélité du test, même si cette dernière n’explique qu’une part limitée de la variance d’erreur. Ces informations permettent également de dresser des profils d’évaluation individuels des correcteurs, qui peuvent être exploités dans le cadre de leur suivi pour la mise en oeuvre d’actions de remédiation ciblées.
Mots-clés :
- évaluation diagnostique,
- management de la qualité,
- accompagnement des évaluateurs,
- Test d’évaluation de français (TEF)
Abstract
Raters are a key element of language proficiency assessment systems. They ought to be monitored closely to keep the quality of assessments at a high level. This article compares two methods in order to determine the raters’ severity profiles using real rating data, for a writing test of French as a foreign language. The first method makes use of the Classical Test Theory while the second is based on the Item Response Theory using the multifaceted Rasch Model (MFRM). The concurring results of both methods show that in order to improve the reliability of a test, it is important to take into account a rater’s severity at each cut-off score, even if this consideration only explains a moderate portion of the error variance. This information also allows for drawing up the raters’ individual evaluation profiles, which could prove useful for more focused training activities.
Keywords:
- diagnosis assessment,
- quality management,
- raters monitoring,
- French Proficiency Test (TEF)
Resumo
Os avaliadores são um elemento chave dos dispositivos de avaliação de competências linguísticas e devem receber apoio contínuo para manter a qualidade das avaliações a um nível satisfatório. Este artigo compara dois métodos para a determinação de perfis de avaliadores de um teste de expressão escrita em francês como língua estrangeira, a partir dos seus dados de produção. O primeiro método inscreve-se no quadro da teoria clássica dos testes e o segundo apoia-se na teoria de resposta aos itens para a implementação de um modelo multifacetado de Rasch. Os resultados concordantes dos dois métodos mostram a utilidade de considerar a severidade dos corretores em cada nota mínima para melhorar a fiabilidade do teste, mesmo se esta última explique apenas uma pequena parte da variância do erro. Estas informações também ajudam a desenvolver os perfis de avaliação individuais dos corretores, que podem ser úteis para atividades de formação mais focadas.
Palavras chaves:
- avaliação diagnóstica,
- gestão da qualidade,
- apoio dos avaliadores,
- Teste de Avaliação Francês (TEF)
Appendices
Référence
- Adams, R. J., Wu, M. L., & Wilson, M. R. (2015). ACER Conquest (version 4) [logiciel]. Camberwell (Australie): ACER.
- Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(4), 561-573. doi: 10.1007/BF02293814
- Artus, F. & Demeuse, M. (2008). Évaluer les productions orales en français langue étrangère (FLE) en situation de test : étude de la fidélité inter-juges de l’épreuve d’expression orale du Test d’évaluation de français (TEF) de la Chambre de commerce et d’industrie de Paris. Les cahiers des sciences de l’éducation, 25-26, 131-151. Repéré à https://plone2.unige.ch/admee08/communications-individuelles/m-a7/m-a7-1
- Bachman, L. F., Lynch, B. K., & Mason, M. (1995). Investigating variability in tasks and rater judgments in a performance test of foreign language speaking. Language Testing, 12(2), 238-257. doi: 10.1177/026553229501200206
- Bertrand, R. & Blais, J.-G. (2004). Modèles de mesure : l’apport de la théorie des réponses aux items. Sainte-Foy (Québec) : PUQ.
- Cardinet, J. (1986). Les modèles de l’évaluation scolaire. Neuchâtel (Suisse) : IRDP.
- Casanova, D. & Demeuse, M. (2011). Analyse des différentes composantes influant sur la fidélité de l’épreuve d’expression écrite d’un test standardisé de français langue étrangère. Mesure et évaluation en éducation, 34(1), 25-53. doi: 10.7202/1024862ar
- Conseil de l’Europe (2005). Cadreeuropéen commun de référence pour les langues. Paris : Didier. Repéré à http://www.coe.int/t/dg4/linguistic/Source/Framework_fr.pdf
- Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: A many-facet Rasch analysis. Language Assessment Quarterly, 2, 197-221. Retrieved from https://www.testdaf.de/fileadmin/Redakteur/PDF/Forschung-Publikationen/LAQ_0203_Eckes.pdf
- Eckes, T. (2011). Introduction to many-facet Rasch measurement: Analysing and evaluating rater-mediated assessments. Frankfurt am Main (Germany): Peter Lang.
- Engelhard, G., Jr. (1994). Examining rater errors in the assessment of written composition with a many-faceted Rasch model. Journal of Educational Measurement, 31(2), 93-112. doi: 10.1111/j.1745-3984.1994.tb00436.x
- Laugier, H. & Weinberg, D. (1938). Recherche sur la solidarité et l’interdépendance des aptitudes intellectuelles d’après les notes des examens écrits du baccalauréat. Paris : Chantenay.
- Leclercq, D., Nicaise, J. & Demeuse, M. (2004). Docimologie critique : des difficultés de noter des copies et d’attribuer des notes aux élèves. Dans M. Demeuse (dir.), Introduction aux théories et aux méthodes de la mesure en sciences psychologiques et en sciences de l’éducation (pp. 273-292). Liège : Éditions de l’Université de Liège.
- Linacre, J. M. (1989). Many-facet Rasch measurement, Chicago, IL: MESA Press.
- Linacre, J. M. (2012). A user’s guide to WINSTEPS and ministep Rasch-model computer programs: Program manual 3.75.0.
- Lumley, T., & McNamara, T. F. (1995). Rater characteristics and rater bias: Implications for training, Language Testing, 12(1), 54-71. doi: 10.1177/026553229501200104
- Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174.
- Merle, P. (1996). L’évaluation des élèves : enquête sur le jugement professoral. Paris : PUF.
- McNamara, T. F. (1996). Measuring second language performance. New York: Longman.
- McNamara, T. F., & Adams, R. J. (1991, March). Exploring rater behavior with Rasch techniques. Paper presented at the 13th Language Testing Research Colloquium, Princeton, NJ.
- Noël-Jothy, F. & Sampsonis, B. (2006). Certifications et outils d’évaluation en FLE. Paris : Hachette.Piéron, H. (1963). Examens et docimologie. Paris : PUF.
- Suchaut, B. (2008). La loterie des notes au bac : un réexamen de l’arbitraire de la notation des élèves. Document de travail de l’IREDU 2008-03. Dijon (France). Récupéré à https://hal.inria.fr/file/index/docid/260958/filename/08005.pdf
- Weigle, S. C. (1994). Effect of training on raters of ESL compositions. Language Testing, 11(2), 197-223. doi: 10.1177/026553229401100206
- Weigle, S. C. (1998). Using facets to model rater training effects. Language Testing, 15(2), 263-287. doi: 10.1177/026553229801500205