Mesure et évaluation en éducation
Volume 44, Number 3, 2021 L’évaluation des compétences langagières : enjeux et perspectives Guest-edited by Dan Thanh Duong Thi and Marie-France Côté
Table of contents (5 articles)
-
L’évaluation des compétences langagières : enjeux et perspectives : introduction
-
Les enjeux en évaluation des compétences langagières
Michel Laurier
pp. 5–28
AbstractFR:
À son émergence, le domaine de l’évaluation des langues focalise sur l’apprentissage de l’anglais chez les adultes. Aujourd’hui, une vision élargie s’impose où la frontière entre langue maternelle et langue seconde finit par s’estomper et où la diversité des apprenants est prise en considération. En suivant cette évolution, six grands enjeux se dégagent, autour desquels existe une abondante littérature : 1) la nature de la compétence langagière et ses composantes, 2) les défis de la recherche de l’authenticité, 3) la complexité du processus de validation, 4) les considérations éthiques qui devraient guider les concepteurs et les utilisateurs, 5) les attentes sociales liées à l’évaluation des langues et, 6) les voies qu’ouvre l’utilisation des technologies pour évaluer les compétences langagières. Cette analyse montre que le domaine peut être examiné d’une perspective psychométrique, linguistique, pédagogique ou sociale.
EN:
While emerging, the field of language assessment focused on adults learning English. We now observe an enlarged vision that blurs the distinction between first and second languages and considers learners diversity. Tracking this evolution, six major issues can be identified, each one represented by an abundant literature: 1) the nature of language competence and its components, 2) the challenges of the need for authenticity, 3) the complexity of the validation process, 4) the ethical considerations to guide the designers and users, 5) social expectations linked to language evaluation and, 6) the promises of technology applications for language assessment. As a result of this analysis, it appears that the field can be examined from several perspectives – psychometric, linguistic, pedagogical, and social.
PT:
À medida que foi emergindo, o campo da avaliação linguística concentrou-se na aprendizagem de inglês em adultos. Hoje, vemos impor-se uma visão mais ampla onde a fronteira entre língua materna e segunda língua acaba por se esvair e onde a diversidade dos aprendentes é levada em consideração. Ao acompanhar esta evolução, podemos identificar seis grandes questões em torno das quais encontramos uma literatura abundante: a natureza da competência linguística e seus componentes, os desafios da busca pela autenticidade, a complexidade do processo de validação, as considerações éticas que devem orientar os concetores e os utilizadores, as expectativas sociais relacionadas à avaliação linguística e, em última análise, os caminhos abertos pelo uso da tecnologia para avaliar as competências linguísticas. A partir desta análise, percebe-se que o domínio pode ser examinado sob uma perspetiva psicométrica, linguística, pedagógica ou social.
-
ALSI : un nouvel outil d’analyse automatisée de la complexité linguistique pour le français québécois
Guillaume Loignon
pp. 29–57
AbstractFR:
Estimer la complexité linguistique est un aspect important de la mesure et de l’évaluation de l’éducation qui peut servir, par exemple, à contrôler la variance indésirable attribuable à la langue ou à fournir aux élèves des textes propices à l’apprentissage. Des techniques de traitement automatique des langues permettent d’extraire différents attributs (features) qui reflètent la complexité du vocabulaire et de la structure des phrases. Dans cet article, nous présentons un nouvel outil appelé ALSI (Analyseur Lexico-Syntaxique Intégré). Nous résumons le fonctionnement de l’outil et présentons les types d’attributs qu’il peut extraire. Nous appliquons ensuite ALSI à 600 textes utilisés dans les écoles primaires et secondaires du Québec et analysons les corrélations entre les attributs et le niveau scolaire associé au texte. Les résultats montrent le potentiel d’ALSI pour la modélisation de la complexité des textes français.
EN:
Estimating language complexity is an important aspect of educational measurement and assessment that can be used, for instance, to control unwanted variance due to language, or to provide students with texts that are conducive to learning. Automatic language processing techniques can be used to extract various linguistic features that reflect the complexity of vocabulary and sentence structure. In this paper, we present a new tool called ILSA (Integrated Lexico-Syntactic Analyzer), which we developed for research and educational applications. We summarize how the tool works and present the types of attributes it can extract. We then apply ALSI to 600 texts used in Quebec elementary and secondary schools and analyze the correlations between the attributes and the school grade associated with the text. The results show the potential of ALSI for modeling the complexity of French texts.
PT:
Estimar a complexidade linguística é um aspeto importante da medição e da avaliação educacional que pode ser usado, por exemplo, para controlar a variação indesejada devido à linguagem ou para fornecer aos alunos textos que conduzam à aprendizagem. As técnicas de processamento automático de linguagem permitem extrair diferentes atributos (features) que refletem a complexidade do vocabulário e a estrutura das frases. Neste artigo, apresentamos uma nova ferramenta chamada ALSI (Analisador Léxico-Sintético Integrado). Resumimos o funcionamento da ferramenta e apresentamos os tipos de atributos que ela pode extrair. Em seguida, aplicamos o ALSI a 600 textos usados em escolas primárias e secundárias no Québec e analisamos as correlações entre os atributos e o ano letivo associado ao texto. Os resultados mostram o potencial do ALSI para a modelização da complexidade dos textos em francês.
-
Une comparaison de l’étendue intra- et interindividuelle du niveau de sévérité d’examinateurs en français langue étrangère
Christophe Chénier
pp. 59–85
AbstractFR:
De nombreuses recherches ont tenté de quantifier les écarts entre les niveaux de sévérité de différents examinateurs travaillant pour les mêmes évaluations. Leurs résultats montrent que les écarts interindividuels de niveaux de sévérité sont souvent importants, peu importe le contexte évaluatif. Toutefois, peu de recherches ont modélisé l’évolution temporelle intra-individuelle du niveau de sévérité et encore moins ont comparé, sur une période donnée, le rapport entre les étendues intra-individuelles et interindividuelles des niveaux de sévérité. Cette étude vise à combler ce manque en comparant les rapports entre les écarts intra- et interindividuels de six examinateurs ayant travaillé de septembre 2011 à avril 2014 pour l’épreuve d’expression orale du Test d’évaluation du français adapté au Québec (TEFAQ). Ces six examinateurs ont évalué la performance de 4083 candidats au test et leur niveau de sévérité a été estimé à l’aide du modèle de Rasch à multifacettes. Cinq dyades d’examinateurs ont été suivies durant cinq périodes distinctes, totalisant de 11 à 38 temps de mesure. Le niveau de sévérité a été estimé d’une à quatre fois par mois, ce qui a permis de calculer, pour chaque période, une étendue intra-individuelle du niveau de sévérité ainsi qu’une étendue interindividuelle. Ces étendues ont ensuite été mises en rapport, pour obtenir un ratio permettant de voir si le niveau de sévérité fluctue autant d’un examinateur à lui-même et d’un examinateur à l’autre. Les résultats montrent que, globalement, les écarts intra-individuels sont aussi élevés que les écarts interindividuels (rapport médian de 0,97), et ce, malgré le faible nombre d’examinateurs impliqués dans les modélisations. Finalement, les considérations pratiques, les limites méthodologiques et conceptuelles de l’étude sont discutées.
EN:
Several studies have tried to quantify the differences in severity levels between raters working for the same assessments. Their results show that interindividual differences in severity levels are often important, regardless of the assessment situations. However, few studies have modeled the longitudinal evolution of intra-individual severity levels, and even fewer have compared the ratio between the intra- and interindividual differences. This paper seeks to remedy this lack of knowledge by comparing the ratio between the intra- and interindividual severity levels of six raters, who worked together, from September 2011 to April 2014, as raters for the oral expression test of the Test d’évaluation du français adapté au Québec (TEFAQ). Those six raters assessed the performance of 4,083 candidates and their severity levels were estimated using the multi-facet Rasch model. Five raters dyads were modeled during five distinct periods, totaling from 11 to 38 time points, and their severity levels were estimated from once to four times per month. This allowed us to calculate, for each period, an intra-individual and interindividual severity range and these ranges were then compared to obtain a ratio showing whether a given rater’s severity level fluctuates as much over time as it does when compared to the severity level of their peer. Results show that, overall, the intra-individual differences are as high as the interindividual ones, with a median ratio of 0.97, despite the small number of raters modeled. The practical impacts of those results are then discussed, as well as the methodological and conceptual limits of this study.
PT:
Numerosas investigações tentaram quantificar as diferenças entre os níveis de severidade de diferentes examinadores que trabalharam as mesmas avaliações. Os resultados mostram que as diferenças interindividuais nos níveis de severidade são muitas vezes significativas, independentemente do contexto avaliativo. No entanto, são poucas as investigações que modelizaram a evolução temporal intraindividual do nível de severidade, e menos ainda que tenham comparado, ao longo de um determinado período, a relação entre as extensões intraindividual e interindividual dos níveis de severidade. Este estudo visa preencher esta lacuna comparando as razões entre as lacunas intra e interindividuais de seis examinadores que trabalharam de setembro de 2011 a abril de 2014 para a prova de expressão oral do Teste de avaliação do francês adaptado para o Québec (TEFAQ). Estes seis examinadores avaliaram o desempenho de 4.083 candidatos ao teste e o seu nível de severidade foi estimado usando o modelo Rasch multifacetado. Cinco duplas de examinadores foram monitorizadas durante cinco períodos distintos, totalizando de 11 a 38 momentos de aferição, e o grau de severidade foi estimado de uma a quatro vezes por mês, o que possibilitou calcular, para cada período, uma extensão intraindividual do nível de severidade, bem como uma extensão interindividual. Estes intervalos foram então comparados para obter um rácio que mostrasse se o nível de severidade flutua tanto de um examinador para consigo próprio quanto de um examinador para outro. Os resultados mostram que, no geral, as diferenças intraindividuais são tão altas quanto as diferenças interindividuais, com uma razão mediana de 0,97, apesar do pequeno número de examinadores envolvidos na modelização. Por fim, são discutidas considerações práticas, limites metodológicos e conceituais do estudo.
-
Le jugement des examinateurs dans le cadre de l’épreuve d’expression orale du Test d’évaluation de français (TEF)
Emine Ince
pp. 87–111
AbstractFR:
L’épreuve d’expression orale du TEF s’effectue au moyen d’une entrevue entre un candidat et un examinateur-animateur. Or, le comportement de ce dernier peut représenter une menace à la fidélité du test. Il a été démontré que malgré les nombreuses mesures prises afin de minimiser les variabilités dans l’évaluation, des divergences sur plusieurs aspects pouvaient être présentes chez les examinateurs. Cette étude vise à observer si l’on trouve ces divergences chez les examinateurs du TEF. Ainsi, 10 participants ont pris part à la recherche et la technique de la pensée à voix haute a été utilisée. Les résultats révèlent que des divergences existent. Les examinateurs peuvent accorder une même note pour une même performance alors que leurs interprétations peuvent différer, et inversement. Certains peuvent être influencés de façon positive en raison de leur familiarité avec l’accent des candidats. D’autres peuvent faire des inférences non pertinentes pour attribuer des significations aux difficultés rencontrées par les candidats. Enfin, l’attitude de l’animateur lors de la conversation avec le candidat peut être perçue différemment et avoir une conséquence négative sur la note.
EN:
The TEF speaking test is conducted through an interview between a candidate and an interviewer-examiner, but the conduct of the latter may represent a possible threat to the reliability of the test. It has been shown that despite many measures taken to minimize variability in the assessment, discrepancies in several aspects may be present among examiners. This study aims to observe whether these discrepancies are found among TEF examiners. A total of 10 participants took part in the research and the thinking aloud technique was used. The results show that discrepancies are present. Examiners may award the same score for the same performance but with varying interpretations, and vice versa. Some may be positively influenced by their familiarity with the candidate’s accent. Others may make irrelevant inferences to make sense of the difficulties faced by candidates. Finally, the interviewer’s attitude when talking to the candidate may be perceived differently and have a negative impact on the score.
PT:
A prova de expressão oral TEF é realizada por meio de uma entrevista entre um candidato e um examinador-facilitador, mas o comportamento deste último pode representar uma possível ameaça à fidelidade do teste. Demonstrou-se que, apesar das muitas medidas tomadas para minimizar a variabilidade na avaliação, pode haver discrepâncias em vários aspetos entre os examinadores. Este estudo tem como objetivo observar se essas discrepâncias são encontradas entre os examinadores do TEF. A investigação contou com 10 participantes e foi utilizada a técnica de pensar em voz alta. Os resultados revelam que as discrepâncias estão presentes. Os examinadores podem dar a mesma nota para o mesmo desempenho, enquanto as suas interpretações podem diferir e vice-versa. Alguns podem ser influenciados positivamente devido à sua familiaridade com o sotaque do candidato. Outros podem fazer inferências irrelevantes para produzir significados para as dificuldades encontradas pelos candidatos. Por fim, a atitude do facilitador durante a conversa com o candidato pode ser percebida de forma diferente e impactar negativamente na pontuação.