Corps de l’article

Introduction

Depuis 20 ans, le Programme international pour le suivi des acquis des élèves (PISA), mené sous l’égide de l’Organisation de coopération et de développement économiques (OCDE), évalue les élèves de 15 ans afin de déterminer s’ils « possèdent certaines des connaissances et compétences essentielles pour participer pleinement à la vie de nos sociétés modernes » (OCDE, 2016, p. 12).

Plusieurs des indicateurs PISA constituent des informations précieuses pour aider les responsables politiques à piloter leur système éducatif. Toutefois, puisque ces évaluations ne comportent généralement aucun enjeu majeur pour les élèves, certains participants pourraient ne s’y investir que partiellement. Ce manque d’investissement pourrait s’observer particulièrement dans les systèmes éducatifs qui entretiennent la culture des notes scolaires. En effet, comme le soulignent Fumel et Keskpaik (2017) ou Keskpaik et Rocher (2015), dans ces systèmes éducatifs, par exemple celui de la France, puisque les notes scolaires occupent une place importante, « la question de la motivation des élèves face à une évaluation sans enjeux pour eux mérite d’être posée » (Keskpaik et Rocher, 2015, p. 119). Par conséquent, les compétences des répondants pourraient être sous-estimées et la comparabilité internationale pourrait être altérée.

Les résultats d’études relatives à la motivation des élèves lors d’évaluations à faibles enjeux ne convergent malheureusement pas (Asseburg et Frey, 2013 ; Butler et Adams, 2007 ; Chen, 2002 ; Eklöf, 2007 ; Eklöf et Nyroos, 2013 ; Hopfenbeck et Kjærnsli, 2016 ; Wise et DeMars, 2005), probablement en partie à cause de différences méthodologiques ou de la diversité des outils utilisés pour mesurer la motivation ou l’engagement des élèves (Penk et Schipolowski, 2015).

La présente étude se concentre sur la persévérance des élèves, considérée selon certaines théories comme une des composantes de la motivation (p. ex., la théorie de la valeur attendue ou expectancy-value theory de Wigfield et Eccles, 2000). Cette mesure est particulièrement intéressante, car elle repose uniquement sur des informations objectives et non auto-rapportées relatives à l’exactitude des réponses (Debeer et al., 2014). Aucun autre artefact ne doit être mis en oeuvre pour appréhender le niveau de motivation des répondants et son estimation n’est donc pas affectée par certains biais culturels (p. ex., la tendance à l’acquiescement) généralement observés pour les données auto-rapportées (Heine et al., 2002).

Par ailleurs, l’enquête PISA a également pour objectif de proposer des indicateurs de tendance conçus afin d’observer l’évolution des performances des différents systèmes éducatifs, notamment pour permettre aux responsables politiques d’évaluer les effets de leur réforme. Cette comparaison temporelle nécessite que les méthodologies employées lors des différents cycles ne puissent pas altérer la comparabilité des résultats. Tout changement méthodologique jugé nécessaire pour telle ou telle raison doit être accompagné des preuves empiriques qui démontrent sa neutralité sur les résultats.

Ainsi, en 2015, l’évaluation PISA est passée d’une version dite papier-crayon à une version informatisée. Des analyses menées au départ des données de l’essai sur le terrain n’ont pas permis de détecter, tous pays confondus, un fonctionnement différentiel de la majorité des items ou, plus globalement, de l’épreuve selon le mode d’administration (OECD, 2017).

Toutefois, la numérisation de l’épreuve pourrait accroitre l’investissement de certains élèves et le décroitre chez d’autres. En d’autres termes, le mode d’administration pourrait interagir avec des variables telles que le pays, le genre ou même le niveau de performance de l’élève. La littérature ne permet pas à ce jour de conclure à l’existence ou non d’un effet du mode d’administration sur la performance des élèves (Kingston, 2008 ; Wang et al., 2007, 2008). Dès lors, le changement de mode d’administration opéré dans PISA représente une opportunité unique pour analyser cet effet sur la persévérance des élèves à partir de données d’échantillons représentatifs de très grande taille.

Revue de littérature

Selon la théorie de la valeur attendue, la motivation des personnes qui s’engagent dans une tâche dépend du résultat attendu et du niveau de valorisation de l’activité (Wigfield et Eccles, 2000). La valeur perçue d’une activité pour un individu donné dépend notamment de l’importance et de l’utilité qu’il peut percevoir dans cette activité. Pour des jeunes de 15 ans, les tests PISA ne comportent généralement aucun enjeu puisque, dans la plupart des pays, ils ne reçoivent aucun incitatif, qu’il soit financier ou autre, et leur performance au test n’influencera pas leur parcours scolaire. On peut dès lors suspecter qu’un certain nombre d’élèves attribuent peu de valeur à ce test et s’y engagent peu ou prou. Si chaque élève, quels que soient ses origines ethniques ou sociales ou encore son pays de résidence, percevait la même valeur à ces épreuves internationales, la comparabilité des résultats ne serait pas remise en cause. Par contre, puisque cette valeur et cette motivation varient d’un pays à l’autre, d’une école à l’autre, voire d’un élève à l’autre, d’aucuns peuvent s’inquiéter de la comparabilité des résultats.

Différentes recherches expérimentales ou quasi-expérimentales ont étudié l’impact des enjeux d’un test sur la motivation et/ou la performance des répondants. Les participants sont généralement répartis aléatoirement en différents groupes dits expérimentaux (lors de méthodologies expérimentales) ou par appariement (dans le cadre de recherches quasi-expérimentales) afin de permettre une manipulation de la variable « enjeux ». Dans la majorité des cas, ces études ont révélé que les enjeux associés aux tests pourraient avoir un impact sur la motivation et sur les performances des élèves. Toutefois, sans réelle surprise, cette influence semble varier en fonction (i) de certaines caractéristiques des élèves (Braun et al., 2011 ; Fumel et Keskpaik, 2017 ; Steedle et Grochowalski, 2017), (ii) de l’année d’étude des élèves (O’Neil et al., 1996 ; O’Neil et al., 2005), voire (iii) du système éducatif (List et al., 2019). Ce dernier résultat renforce la nécessité de poursuivre la recherche sur la motivation des répondants, particulièrement dans les enquêtes internationales telles que PISA, notamment afin d’éventuellement différencier dans les résultats observés l’effet de la compétence et l’effet de la motivation.

D’autres études (Asseburg et Frey, 2013 ; Eklöf, 2007, 2015 ; Eklöf et Nyroos, 2013 ; Eklöf et al., 2014 ; Hopfenbeck et Kjærnsli, 2016) ont été menées pour tenter de mesurer la motivation des répondants lors d’évaluation à faibles enjeux en employant notamment des mesures auto-rapportées d’effort. Ce type de mesure est généralement collecté à travers un ou plusieurs questionnaires. Bien souvent, ces questionnaires proposent plusieurs items permettant d’évaluer le ou les construits souhaités (p. ex., l’effort déployé pour répondre au test cognitif, l’importance du test aux yeux des participants, etc.).

Dans certains cycles de PISA, un tel questionnaire, dénommé « thermomètre à l’effort », est présenté à la fin du test cognitif et est composé de deux questions construites sous forme d’un différenciateur sémantique d’Osgood allant de 1 à 10. La première question sert à percevoir l’effort que les répondants ont déployé pour réaliser le test cognitif, tandis que la seconde concerne l’effort qu’ils auraient fourni si la note obtenue avait compté pour leur bulletin. De ces études, il ressort tout d’abord que la difficulté des questions pourrait influencer la motivation auto-rapportée des répondants (Asseburg et Frey, 2013), les étudiants les plus faibles rapportant une moins grande motivation, avec une sous-estimation de leur compétence comme conséquence probable pour cette sous-population.

D’autres études ont montré que la motivation et son effet (au sens statistique du terme) sur la performance varient selon le genre de l’élève (Eklöf, 2007 ; Eklöf et Nyroos, 2013 ; Eklöf et al., 2014 ; Hopfenbeck et Kjærnsli, 2016) ou son pays d’origine (Eklöf, 2015 ; Eklöf et al., 2014). Toutefois, ces résultats ne sont pas confirmés par toutes les études.

Comme susmentionné, ces dernières études peuvent souffrir de différents biais. Ainsi, à titre d’exemple, les données auto-rapportées peuvent être entachées de biais culturels. Par ailleurs, les méthodologies choisies pour modéliser la motivation des répondants peuvent également influencer les résultats obtenus. Butler et Adams (2007) ont ainsi exploré la relation entre les efforts auto-rapportés et les performances lors des cycles 2000 et 2003 de PISA. À partir des deux mesures dudit « thermomètre à l’effort », ils dérivent un indice d’effort relatif qu’ils considèrent comme le reflet de l’effort exprimé par les élèves. Cet indice relatif, comparativement à l’indice absolu, varie moins d’un pays à l’autre, ce qui témoigne d’une moins grande sensibilité aux différences culturelles. Par ailleurs, comme on pouvait s’y attendre, les données PISA indiquent que les élèves signalent qu’ils fournissent globalement moins d’effort lors de ce type d’évaluation que dans un test où leurs résultats compteraient pour leur bulletin (c.-à-d. aux enjeux élevés). Toutefois, d’après Dierendonck et al. (2013) et Keskpaik et Rocher (2015), cette variable est plutôt représentative de la différence d’effort déclaré en fonction de l’enjeu du test et ne reflète pas le niveau global d’effort des élèves. Ces auteurs donnent comme exemple qu’un effort relatif de 10 ne signifie pas automatiquement que le répondant fournit un effort maximal, mais plutôt qu’il n’y a pas de différence dans l’effort qu’il exprime en fonction de l’enjeu du test. Ainsi, un élève qui rapporte avoir fourni un effort de 1 pour répondre au test PISA et qui aurait fourni le même type d’effort (donc 1) si le test avait compté pour des points reçoit la note maximale d’effort relatif (c.-à-d. 10), alors qu’il déclare plutôt un effort minimal.

Afin de dépasser ces faiblesses méthodologiques, une autre approche exploite la rotation des items dans les tests tels que PISA et dérive une mesure objective de la persévérance, soit en comparant l’évolution du pourcentage de réponses correctes selon la position des items au sein du test, soit en intégrant directement dans la modélisation selon la théorie de la réponse à l’item (TRI ; en anglais, item response theory ou IRT) un paramètre de position de l’item, qui traduit pour chaque élève la réduction de la probabilité de réussite aux items. Ce paramètre peut donc être assimilé à la persévérance de l’élève. Les résultats des études utilisant l’une de ces deux approches (Borgonovi et Biecek, 2016 ; Debeer et al., 2014 ; Nagy et al., 2019) suggèrent que les taux ou probabilité de bonnes réponses diminuent généralement au fur et à mesure du test et que l’ampleur de cette diminution varie premièrement d’un domaine à l’autre, voire d’un type de questions à l’autre et, deuxièmement, d’un élève à l’autre, d’une école à l’autre ou d’un pays à l’autre.

Plus précisément, des différences plus importantes sont observées en lecture, tandis que les différences les plus faibles sont observées en mathématiques (Nagy et al., 2019). Pour Hohensinn et al. (2011), la position des items n’aurait aucun effet significatif dans un test en mathématiques. Par ailleurs, le déclin de la performance est plus prononcé dans les items à réponse construite que pour les questions à choix multiples (Borgonovi et Biecek, 2016).

Concernant le genre des élèves, une plus grande persévérance est observée auprès des filles (Nagy et al., 2019), en particulier dans le domaine de la lecture (Borgonovi et Biecek, 2016), auprès des élèves issus de milieux socio-économiques favorisés (Borgonovi et Biecek, 2016 ; Nagy et al., 2019) et auprès des natifs (Nagy et al., 2019). Dès lors, on ne peut guère s’étonner d’observer une moindre persévérance dans les filières qualifiantes et dans les écoles comptant une forte proportion d’élèves issus de l’immigration (Nagy et al., 2019). Enfin, la persévérance corrèle positivement avec la performance, tant au niveau des élèves (Borgonovi et Biecek, 2016) qu’au niveau des écoles, du moins dans la plupart des pays (Debeer et al., 2014). À l’échelle des pays, la persévérance serait aussi associée positivement à la performance moyenne (Debeer et al., 2014).

D’autres études se sont également penchées sur l’effet du mode d’administration sur la motivation des élèves (Khoshsima et Hashemi, 2017). À ce jour, trois méta-analyses ont été conduites sur cette problématique, mais aucun résultat ne semble se dégager clairement. Ainsi, Kingston (2008), qui synthétise les résultats de 81 études réalisées entre 1997 et 2007, observe des différences significatives de performance en fonction du format de test. En outre, le domaine évalué pourrait modérer cet effet. Plus précisément, les résultats à une épreuve informatisée seraient supérieurs pour les domaines langue anglaise (ampleur de l’effet moyenne de 0,11) et études sociales (0,15). À l’opposé, de meilleures performances sont observées à une épreuve du type papier-crayon pour le domaine des mathématiques (-0,06). Par contre, les méta-analyses de Wang et al. (2007 ; 2008) ne révèlent aucune différence significative, quel que soit le domaine évalué (mathématiques et lecture). Selon Kingston (2008), « il n’est pas surprenant (compte tenu de la diversité des problèmes de mesure et d’échantillonnage pouvant affecter une étude donnée) que les résultats des études n’aient pas toujours été cohérents » (p. 22, trad. libre).

Présente étude

Hypothèses

Comme susmentionné, la mesure de la motivation d’individus à partir de données auto-rapportées est influencée par différents types de biais qui remettent en question son utilisation pour l’étude de son influence sur la performance. Dans le cadre de cette recherche, l’étude de la motivation se limitera à une de ses composantes, à savoir la persévérance des élèves, définie, toutes choses égales par ailleurs, comme la capacité des élèves à maintenir un taux de réussite constant tout au long d’un test (Borgonovi et Biecek, 2016). Contrairement aux mesures auto-rapportées, la mesure de la persévérance telle qu’elle est proposée repose uniquement sur des informations objectives, à savoir l’exactitude des réponses.

Sur base de la revue de la littérature et des possibilités offertes par le cadre méthodologique des études PISA, quatre hypothèses sont formulées :

Hypothèse 1 : À partir des résultats rapportés par Borgonovi et Biecek (2016) et Debeer et al. (2014), nous postulons que la persévérance des élèves décline constamment au fur et à mesure du test, quels que soient le domaine évalué et le cycle d’évaluation. Ainsi, les performances moyennes diminueraient progressivement de la première position à la dernière position ;

Hypothèse 2 : Puisque la persévérance corrèle positivement avec la performance (Borgonovi et Biecek, 2016), la variabilité de la performance devrait s’accroitre de la position 1 à la position 4 ;

Hypothèse 3 : Tout comme le suggèrent Braun et al. (2011) ainsi que Nagy et al. (2019), nous soutenons que les performances en mathématiques dépendent davantage du cursus scolaire, comparativement à la compréhension de l’écrit. De plus, les items en lecture sont généralement plus longs que les questions de mathématiques, ce qui requiert un investissement plus élevé de la part des élèves. Dès lors, une moindre persévérance devrait être observée en compréhension de l’écrit ;

Hypothèse 4 : Dans le prolongement des résultats rapportés par Kingston (2008) relatifs aux effets du mode d’administration, nous postulons une plus grande persévérance aux épreuves informatisées. Les performances moyennes diminueraient donc de façon moins importante lors du cycle 2015 (test électronique) qu’au cycle 2012 (test papier-crayon) de PISA et l’accroissement de la variabilité devrait être de moindre amplitude en 2015.

Méthodologie

Échantillon

La présente étude exploite les données PISA des cycles de 2012 et de 2015. Seuls les pays de l’OCDE ont été retenus (hormis le Chili et le Mexique, qui ont dû être écartés, car les carnets de test utilisés par ces deux pays étaient partiellement différents [OECD, 2014]). L’échantillon pour cette étude comprend 259 060 élèves pour le cycle 2012 et 233 999 élèves pour le cycle 2015, tous âgés de 15 ans.

Méthode et instrument

Comme susmentionné, généralement, l’estimation de la persévérance se base sur l’analyse des taux de réponses correctes, plus particulièrement sur la variation des taux de réussite observés en début et en fin de test. Depuis 2003, PISA propose un plan d’évaluation incomplet balancé pour les épreuves cognitives. Cette méthode consiste, d’une part, à soumettre un sous-ensemble de questions à chaque élève et, d’autre part, à agencer les blocs de questions de telle sorte qu’ils apparaissent le même nombre de fois dans chacune des positions. Puisque chaque question apparait dans chacune des positions, elles sont affectées de manière semblable par l’effet d’ordre. La comparabilité de leur difficulté n’est donc pas altérée et l’effet est en quelque sorte contrôlé.

Ainsi, pour le cycle 2012, le plan d’évaluation comportait 13 livrets de tests, chacun composé de 4 blocs de questions. L’ensemble de ces blocs de questions était présenté une seule fois par position, soit en position 1 (début du test), en positions 2 et 3 et, enfin, en position 4 (fin de test). Comme l’illustre le Tableau 1, si l’on s’intéresse par exemple au domaine de la lecture, chacun des blocs de questions évaluant ce domaine (encerclés en rouge) apparait une seule fois dans chacune des quatre positions.

Tableau 1

Plan d’évaluation du cycle 2012 de PISA

Plan d’évaluation du cycle 2012 de PISA

Note. Conception de la rotation des blocs d’items utilisée pour former des livrets de test standard pour PISA 2012 (OCDE, 2014, p. 31).

-> Voir la liste des tableaux

Les données des carnets de test ont donc été sélectionnées en fonction de la position des blocs de questions et du domaine évalué. À titre d’exemple, pour étudier la persévérance dans le domaine de la lecture, les carnets 3, 9 et 13 ont été retenus pour la position 1 ; les carnets 2, 8 et 12 pour la position 2 ; les carnets 4, 6 et 11 pour la position 3 ; et les carnets 2, 9 et 13 pour la position 4.

Lors du cycle 2015, le plan d’évaluation de PISA a profondément changé :

  1. Le passage à une épreuve informatisée a permis une démultiplication du nombre de livrets, passant de 13 à 36, voire 66 pour les pays ayant opté de participer à l’option internationale de résolution collaborative de problèmes ;

  2. La très grande majorité des élèves ont été évalués dans seulement deux domaines, la première heure étant réservée au premier, et la seconde au deuxième domaine ;

  3. Pour le domaine majeur, à savoir les sciences, un très grand nombre d’items ont été présentés selon un schéma de rotation d’une très grande complexité, de sorte qu’il n’est pas aisé de déterminer si l’item a été présenté en position 1 ou 2 (et respectivement en position 3 ou 4).

Par conséquent, dans le cadre de cet article, la persévérance ne sera pas étudiée dans le domaine des sciences.

Par ailleurs, pour étudier l’effet du mode d’administration, il importe de restreindre cette analyse aux seuls items communs (dits d’ancrage) aux cycles 2012 et 2015. In fine, cette étude se base sur 44 questions en lecture et sur 69 questions en mathématiques.

Les réponses à ces items d’ancrage ont été recodées comme suit : la valeur de 1 est attribuée aux réponses correctes, tandis que la valeur de 0 est attribuée aux réponses incorrectes, invalides ou manquantes. Les items non atteints ont également été considérés comme réponses incorrectes, comme ce fut le cas pour les cycles de 2000 à 2012. Enfin, les réponses partiellement correctes pour les items dits à crédits partiels ont été recodées comme réponses incorrectes.

Dans les études précédemment citées, généralement, la persévérance est opérationnalisée comme la différence du taux de réponses correctes observée tout au long du test. Toutefois, cette approche méthodologique ne permet que d’étudier l’évolution de la performance moyenne. Or, puisque la persévérance varie notamment en fonction du niveau de performance de l’élève (Borgonovi et Biecek, 2016), les élèves les plus performants étant plus persévérants, la variabilité de la performance devrait aussi augmenter au fur et à mesure de l’épreuve.

Pour étudier conjointement ces deux effets pour un domaine donné, toutes positions confondues, les réponses des élèves ont, dans un premier temps, été mises à l’échelle selon un modèle logistique de réponse à l’item à un paramètre avec le logiciel ConQuest (Adam et al., 2020). La compétence des élèves dans ce domaine a, dans un second temps, été estimée sous la forme de weighted likelihood estimations (WLE ; Warm, 1989), séparément pour chaque position, et en ancrant les paramètres de difficultés des items obtenus lors de la première étape. Puisque la plupart des élèves ont été testés pendant une heure pour un domaine donné, on dispose donc, par domaine, pour la plupart des élèves, de deux estimations de la compétence.

Ensuite, les moyennes et les écarts-types ont été calculés, puis les erreurs-types, par pays et par position, en pondérant les données selon la variable reprise dans les bases de données [1] (Ces données sont disponibles à l’Annexe 1 pour le domaine de la lecture en 2012 ; à l’Annexe 2 pour ce même domaine en 2015 ; à l’Annexe 3 pour le domaine des mathématiques en 2012 ; à l’Annexe 4 pour ce domaine en 2015). Les valeurs moyennes observées au sein de l’OCDE ont été obtenues, tous pays confondus, en attribuant à chaque pays le même poids[2]. Les erreurs-types ont été estimées en recourant aux réplications fournies également dans les bases de données PISA.

Résultats et interprétation

Le Tableau 2 présente par domaine et par cycle, tous pays confondus, les moyennes et les écarts-types, respectivement en position 1, 2, 3 et 4, pour les domaines de la lecture et des mathématiques. Les erreurs-types figurent entre parenthèses.

Les résultats présentés dans le Tableau 2, plus particulièrement les performances moyennes[3], tendent à confirmer notre hypothèse 1, en particulier en compréhension de l’écrit. Ainsi, en 2012, la performance moyenne dans ce domaine, au sein des pays de l’OCDE, s’élève à 0,86 en position 1 ; à 0,64 en position 2 ; à 0,57 en position 3 ; et à 0,19 en position 4. En mathématiques, toujours lors du cycle 2012, les moyennes par position s’élèvent respectivement à 0,06 ; 0,02 ; -0,12 et -0,32. Les résultats du cycle 2015 se présentent plus en dents de scie, avec néanmoins une tendance à une moindre performance.

Tableau 2

Moyennes et écarts-types de la performance, par position et par domaine

Moyennes et écarts-types de la performance, par position et par domaine

-> Voir la liste des tableaux

Ces variations sont représentées graphiquement dans la Figure 1. En compréhension de l’écrit pour le cycle 2015, on observe bien une diminution de la performance entre les positions 1 et 2 ainsi qu’entre les positions 3 et 4. Toutefois, la performance moyenne en position 3 est plus élevée qu’en position 2. Par contre, l’évolution de la performance en mathématiques n’est pas caractérisée par ce rebond inattendu.

Le changement de design lors du cycle 2015 pourrait expliquer ce rebond inattendu en compréhension de l’écrit. En effet, comme susmentionné, lors de ce cycle, la très grande majorité des élèves ont été évalués dans un domaine durant la première heure et dans un second domaine durant la seconde heure, alors qu’en 2012 près de la moitié des élèves ont été évalués dans trois domaines. Dès lors, travailler sur un même domaine pendant une heure aurait pu entraîner, notamment par lassitude, une diminution plus importante de la persévérance, très visible en lecture, perceptible en mathématiques. La pause entre les deux heures aurait quant à elle permis, d’une certaine manière, de restimuler (reboost) la persévérance des élèves, particulièrement pour les élèves ayant été évalués pendant la première heure en mathématiques ou en sciences et lors de la seconde heure en compréhension de l’écrit.

Figure 1

Performances moyennes, par position, par domaine et par cycle

Performances moyennes, par position, par domaine et par cycle

-> Voir la liste des figures

Afin de mieux comprendre ce résultat plutôt surprenant en lecture en 2015, les performances moyennes par position et par genre ont été calculées pour ce domaine (voir Tableau 3). En effet, comme le suggère la littérature scientifique, les filles ont des croyances plus positives que les garçons pour les activités de lecture (Eccles et al., 1993), sont en moyenne plus engagées que les garçons dans la lecture (OCDE, 2002) et démontrent toujours en lecture une plus grande persévérance que les garçons (Borgonovi et Biecek, 2016). Ces observations scientifiques laissent présager que ce regain de persévérance observé après la pause et après le changement de domaine en 2015 serait particulièrement prononcé chez les filles. Ainsi, après avoir passé une heure à répondre à des questions de sciences ou de mathématiques, elles seraient, d’une certaine manière, plus motivées à répondre à des questions de compréhension à l’écrit.

Les données reprises dans le Tableau 3 semblent le confirmer partiellement. En effet, aucune augmentation de persévérance n’est perceptible entre les positions 2 et 3 lors du cycle 2012, quel que soit le genre des élèves. Au contraire, comme susmentionné, la tendance est à la baisse, tant pour les filles que pour les garçons. Par contre, en 2015, la différence de performance entre les positions 2 et 3 est plus accentuée pour les filles (0,40 - 0,63 = -0,23) que pour les garçons (0,13 - 0,27 = -0,14), ce qui pourrait être expliqué par le changement de plan d’évaluation lors de ce cycle.

Tableau 3

Moyennes et écarts-types de la performance en lecture lors des cycles 2012 et 2015, par position et par genre

Moyennes et écarts-types de la performance en lecture lors des cycles 2012 et 2015, par position et par genre

-> Voir la liste des tableaux

Concernant notre hypothèse 2, les résultats présentés dans le Tableau 2 soulignent que les erreurs-types tendent à augmenter à travers les quatre positions, et ce, quel que soit le domaine. Cette augmentation de la variabilité est plus élevée en compréhension de l’écrit qu’en mathématiques. Par ailleurs, elle est nettement plus importante pour la version papier-crayon de 2012 que pour la version informatisée de 2015. Ces résultats confirment donc l’hypothèse 2.

La possibilité offerte par l’approche adoptée dans cet article permet également de traduire les évolutions de la persévérance selon la position des items sous la forme d’ampleurs de l’effet. Dans le cadre de cette étude, elle est égale à : forme: 2231431.png.

Le Tableau 4 présente les ampleurs de l’effet, par domaine et par cycle.

Tableau 4

Ampleurs de l’effet, par domaine et par cycle

Ampleurs de l’effet, par domaine et par cycle

-> Voir la liste des tableaux

Les résultats présentés dans le Tableau 4 permettent à nouveau de corroborer notre hypothèse 1. En effet, les ampleurs de l’effet suggèrent que la performance moyenne des élèves a effectivement diminué entre les positions 1 et 4. En outre, les tailles de l’effet sont plus importantes dans le domaine de la lecture qu’en mathématiques, ce qui semble confirmer notre hypothèse 3. En effet, les ampleurs de l’effet en lecture sont respectivement de 0,44 en 2012 et de 0,27 en 2015, alors qu’elles ne sont que de 0,22 en 2012 et de 0,13 en 2015 en mathématiques.

Ces résultats, représentés graphiquement à la Figure 2, suggèrent que la diminution de persévérance est moins prononcée en mathématiques qu’en lecture. Comme l’expliquent Braun et al. (2011), la lecture nécessite une attention plus importante que les autres domaines. De telles variations laissent donc présager que le domaine pourrait « influencer » la persévérance des élèves. Notons toutefois que les analyses conduites dans le cadre de cette étude ne permettent pas de confirmer la causalité du domaine évalué.

Figure 2

Performances moyennes en position 1 et 4, par domaine et par cycle

Performances moyennes en position 1 et 4, par domaine et par cycle

-> Voir la liste des figures

Les résultats présentés dans le Tableau 4 semblent également confirmer notre hypothèse 4. En effet, les ampleurs de l’effet sont plus faibles au cycle 2015 qu’en 2012. Ce constat pourrait donc confirmer une probable influence du mode d’administration et coïnciderait avec les observations sur le rapport de l’OCDE de 2010 faites par Dierendonck et al. (2013), qui suggèrent que les élèves déclarent être plus motivés à répondre au test informatisé qu’au test papier-crayon. De même, Khoshsima et Hashemi (2017) suggèrent que les élèves ont mieux performé lors des tests électroniques, mais que cet effet pourrait varier en fonction du domaine évalué (Kingston, 2008).

Cela dit, les différences de performance représentées à la Figure 2 entre les positions 1 et 4 selon le cycle d’évaluation suggèrent qu’en moyenne les élèves ont mieux répondu aux questions posées en position 1 lors du cycle 2012, comparativement à ces mêmes questions posées en position 1 lors du cycle 2015. Par contre, quand ces mêmes items étaient posés en position 4, les différences de performance s’estompent, voire s’inversent : les élèves ont légèrement mieux répondu en 2015 qu’en 2012 en lecture et de manière équivalente en mathématiques. Plus précisément, en lecture, la différence de moyennes entre les deux cycles s’élève à 0,22 (0,86 - 0,64) en position 1 et à -0,06 (0,19 - 0,25) en position 4. Ce constat est également observé en mathématiques, où la différence de moyennes entre les deux cycles s’élève à 0,17 (0,06 - (-0,11)) en position 1 et à 0,00 (0,32 - (-0,32)) en position 4. En outre, les pentes des droites représentant le cycle 2015 sont moins inclinées que celles représentant le cycle 2012, ce qui laisse supposer que les élèves se sont montrés plus persévérants lors du test informatisé, ou inversement (que les élèves ont moins persévéré lors du test papier-crayon).

Comment peut-on expliquer ce phénomène ? Peu ou pas habitués à répondre à un test informatisé, les élèves éprouveraient une charge cognitive plus importante en début de test pour le format électronique, ce qui engendrerait cette performance moindre, comparativement au test papier-crayon. Une fois coutumiers de ce nouvel environnement, ils se laisseraient « embarquer » par le caractère novateur de cette évaluation.

Ces différents résultats interpellent donc la comparabilité des résultats entre les deux cycles et suggèrent qu’un test informatisé ne devrait pas être considéré comme la simple numérisation d’un test papier-crayon. En effet, comme le rappellent Ebrahimi et al. (2019), « un test est fiable lorsqu’il mesure régulièrement ce qu’il est censé mesurer en produisant des scores stables et constants à deux occasions de test » (p. 131, trad. libre).

Discussion

Cette recherche avait pour objet d’étudier la persévérance des élèves lors des évaluations à faibles enjeux, en particulier l’effet du mode d’administration et du domaine évalué sur celle-ci. L’enquête PISA, en implantant un plan d’évaluation incomplet balancé, offre un matériel de prédilection pour analyser cette persévérance. La présente étude a exploité les données des cycles 2012 et 2015 en opérationnalisant la persévérance comme l’évolution de la performance tout au long de l’épreuve.

Les quatre hypothèses susmentionnées tendent à être confirmées. Tout d’abord, si l’on observe bien des performances plus élevées en début de test qu’en fin de test, quels que soient le cycle ou le domaine évalué, le différentiel observé est plus élevé lors du cycle 2012, ce qui laisse sous-entendre, toutes choses égales par ailleurs, que les élèves seraient plus persévérants avec un test informatisé.

Si les élèves semblent davantage maintenir leur motivation à répondre à une épreuve numérisée, ils semblent aussi avoir besoin d’un petit temps d’adaptation aux plateformes informatiques. En effet, avec ce nouvel environnement, les performances observées en début de test sont inférieures aux performances observées avec une épreuve papier-crayon. L’informatisation du test pourrait en quelque sorte engendrer une charge cognitive supplémentaire, particulièrement en début de test, qui se concrétiserait par une moindre performance. Par contre, ce déclin en début d’épreuve est compensé par une plus grande persévérance, de sorte qu’en fin d’épreuve les performances à la version informatisée se rapprochent de celles observées au mode papier-crayon. Autrement dit, avec un test papier-crayon, les répondants débutent mieux, mais « s’essoufflent » plus fortement. Comme dirait Jean de La Fontaine, rien ne sert de courir, il faut partir à point.

Enfin, quel que soit le cycle et/ou le mode d’administration, la persévérance des élèves fluctue en fonction du domaine évalué. Globalement, les élèves démontrent une plus grande persévérance en mathématiques et une plus faible en compréhension de l’écrit. Il serait utile d’étudier au sein d’un domaine si la persévérance fluctue avec la longueur de la mise en contexte (soit le texte que l’élève doit lire avant de prendre connaissance de la question/des questions s’y rapportant). Une persévérance supérieure pour les unités avec de plus petites amorces pourrait notamment expliquer les différences observées entre les mathématiques et la compréhension de l’écrit.

Perspectives et limites

L’originalité majeure de cette recherche est qu’elle associe mesure de la persévérance et analyse de l’effet du mode d’administration, ce qui, à notre connaissance, n’avait pas encore été étudié ; du moins, sur des échantillons représentatifs de grande taille dans 33 pays. Nul doute que les résultats rapportés alimenteront les débats liés à la motivation des répondants lors des évaluations à faibles enjeux ou à l’effet du mode d’administration. Malgré cet apport indéniable, plusieurs limites sont à souligner.

La première résulte directement de la définition adoptée de la persévérance dans le cadre de cette étude. Toutes choses étant égales par ailleurs, et à l’instar des critiques susmentionnées à l’égard de l’indice d’effort relatif de Butler et Adams (2007), une probabilité constante de répondre correctement tout au long de l’épreuve peut aussi traduire un manque uniforme de motivation. En effet, des élèves pourraient être considérés comme persévérants sans nécessairement être motivés à répondre correctement, pourvu qu’ils le fassent de manière équivalente de la position 1 à la position 4.

De plus, dans le cadre de cette étude, les omissions ont été considérées comme des réponses incorrectes. L’étude de la persévérance pourrait tout autant se concentrer exclusivement sur les taux d’items non atteints. Néanmoins, deux raisons justifient la méthodologie retenue. D’une part, selon nous, les omissions ne constituent qu’une partie du problème. En effet, un élève peut être moins performant, tout en continuant à répondre. Par conséquent, on pourrait observer une diminution de la performance, sans pour autant qu’il y ait une augmentation des omissions. Limiter l’analyse à ces seuls items non atteints pourrait donc conduire éventuellement à une sous-estimation du déclin de la performance observée. D’autre part, une omission à un item peut traduire un manque de temps, de connaissance ou de motivation du répondant. Il est en effet possible que les élèves aient eu moins de temps pour répondre aux questions posées en fin de test, comparativement à celles posées en début de test. Un taux d’omissions plus important en position 4 pourrait donc être dû à un manque de temps, et non de persévérance.

Par ailleurs, les différences de performance en fonction de la position des questions peuvent être imputées à un manque de persévérance, mais également à la fatigue, sans que nous puissions différencier ces différentes causes. Par exemple, un élève fatigué serait très probablement plus distrait et commettrait davantage d’erreurs techniques, même en restant motivé (et persévérant). Il est donc légitime de se poser la question de savoir si, à persévérance égale, mais de fatigue différente, les élèves auraient répondu de manière identique ou non. On ne peut également pas déterminer si le faible enjeu du test a une influence sur cette fatigue ou ce manque de persévérance. En effet, aucune donnée sur les profils motivationnels des élèves n’a été utilisée en parallèle dans la présente étude, notamment parce qu’aucune donnée auto-rapportée d’effort n’était disponible pour le cycle 2015. Sans l’apport d’autres mesures telles que le thermomètre à l’effort, la confusion subsistera. Une autre option serait d’élaborer une étude expérimentale, voire quasi-expérimentale qui permettrait d’analyser la persévérance (ou la fatigue) en fonction des enjeux du test et de sa longueur.

Enfin, le mode d’administration ne constitue pas la seule et unique différence entre les plans d’évaluation de 2012 et de 2015. Ainsi, en 2015, la très grande majorité des élèves n’ont été évalués que dans deux domaines, le premier durant la première heure et le second durant la seconde heure, de sorte que les élèves n’étaient confrontés qu’à un seul changement de domaine. En 2012, 7/13 des élèves ont connu deux changements et 6/13 trois changements. Or, le changement de domaines au sein d’un livret peut entraîner une augmentation de la charge cognitive des répondants. Par conséquent, les différences de comportement observées entre ces deux cycles ne peuvent pas être imputées uniquement au changement de mode d’administration.