Article body

Introduction

Depuis les années 2000, l’enquête internationale PISA sur le suivi des acquis des élèves de 15 ans s’est progressivement imposée comme l’une des évaluations internationales les plus influentes sur les politiques de l’éducation. Le programme PISA, mis en place par l’Organisation de Coopération et de Développement économique (OCDE) depuis 2000 selon un cycle triennal, permet de suivre de manière rigoureuse l’évolution de l’acquisition de savoirs et de compétences par les élèves dans les différents pays participants[1], dans trois domaines : la lecture, la culture mathématique et la culture scientifique. Lors de chaque cycle de PISA, l’accent est mis sur l’un des trois domaines cognitifs, qui est évalué plus en profondeur. En 2018, la lecture était, pour la troisième fois, le domaine majeur de PISA. Depuis 2015, l’enquête PISA est administrée sur support électronique dans tous les pays de l’OCDE.

Si le classement des pays en fonction des performances de leurs élèves retient généralement l’essentiel de l’attention médiatique, le PISA collecte également auprès des élèves et des directions d’établissement des informations de contexte relatives à l’environnement familial, aux contextes d’apprentissage, aux caractéristiques des établissements scolaires ou encore aux politiques éducatives. Toutes ces informations servent à analyser de manière plus fine les acquis des élèves (p. ex. : selon leur genre, selon leur origine socioculturelle) et à dégager des facteurs de réussite à l’intérieur des pays et entre pays. À l’instar de ce qui se passe pour la construction des épreuves d’évaluation dans les trois domaines, l’élaboration des questionnaires contextuels s’appuie, depuis 2015, sur un cadre conceptuel de référence (OECD, 2019). Ce cadre précise les catégories et les construits sur lequel il faut investiguer dans les questionnaires de contexte. L’une de ces catégories touche les aspects non cognitifs et métacognitifs liés à la lecture. Ainsi, des concepts tels que les attitudes, la motivation et les stratégies liées à la lecture doivent être étudiés de façon approfondie.

C’est sur l’une de ces échelles visant à mesurer les connaissances métacognitives dans un contexte de lecture numérique que porte la présente étude. À notre connaissance, c’est la première fois qu’une telle échelle, visant spécifiquement les connaissances métacognitives en lien avec la lecture numérique, est développée dans un contexte international. Étant donné la vaste sphère d’influence du PISA, certains des instruments développés pour le PISA, dont des traces de validité et le pouvoir prédictif ont été prouvés (p. ex. : l’échelle de mesure de l’intérêt pour la lecture) ont été utilisés dans d’autres enquêtes (notamment l’enquête PIRLS[2]) ainsi que dans plusieurs études secondaires (Brozo et al., 2014 ; Lihong et al., 2021). Sachant que l’échelle de mesure des connaissances métacognitives en contexte de lecture numérique est fortement corrélée avec les performances en lecture (OECD, 2021), il est probable que cette échelle inédite sera utilisée dans d’autres enquêtes que le PISA ; il est d’autant plus essentiel de tenter d’effectuer un processus de validation de cette échelle que les échelles de mesure de connaissances ou d’activités métacognitives liées à la lecture en ligne sont extrêmement rares (Burin et al., 2020 ; Li, 2020).

La lecture traditionnelle et la lecture numérique

Les modèles cognitifs de la lecture récents s’accordent pour insister sur le caractère interactif de la lecture : la compréhension résulte d’une interaction entre un lecteur, un texte et un contexte (Kintsch & Kintsch, 2005 ; McNamara & Magliano, 2009 ; Snow & the RAND Corporation, 2002). Les lecteurs construisent le sens en utilisant leurs connaissances antérieures et mettent en oeuvre trois grands types de stratégies : 1) localiser l’information, 2) gérer et maintenir la compréhension et 3) évaluer de manière critique la validité et la pertinence de l’information. Chacune de celles-ci se décline en stratégies plus spécifiques qui s’ajustent en fonction des textes, des tâches et des situations.

Depuis l’émergence de la lecture sur support numérique, de nombreuses études ont tenté de déterminer les points communs et les différences entre la lecture traditionnelle sur papier et la lecture numérique (Afflerbach & Cho, 2010 ; Coiro & Dobler, 2006 ; Leu et al., 2015). Afflerbach et Cho (2010) ont ainsi synthétisé les résultats de 47 études consacrées à la lecture sur Internet, utilisant des protocoles de lecture à voix haute (Afflerbach, 2000) d’une part, des recherches portant sur la lecture de textes multiples ou intertextuels d’autre part (Rouet & Britt, 2011). Selon Afflerbach et Cho (2010), les lecteurs experts utilisent des stratégies qui ont beaucoup de points communs selon qu’ils lisent des textes sur support papier ou sur Internet. Toutefois, « Internet représente un changement dans l’architecture de la lecture » (Afflerbach & Cho, 2010, p. 217), le texte à lire n’est pas donné et se construit au fil des pages que le lecteur décide de visiter. La stratégie spécifique à la lecture numérique serait dès lors, selon Afflerbach et Cho, de « réaliser et construire les textes potentiels à lire » (p. 217). D’autres stratégies déjà mises en oeuvre dans la lecture traditionnelle prennent aussi une importance accrue face à la lecture sur Internet, notamment l’autorégulation (monitoring) de l’acte de lecture et l’évaluation. Pour ce qui est de l’autorégulation, face à cet espace nébuleux et infini qu’est Internet, le lecteur doit maintenir le cap sur les buts de lecture et éviter de s’égarer sur des chemins connexes. En ce qui concerne l’évaluation, le lecteur doit certes déjà évaluer la qualité de l’information ou la crédibilité de l’auteur dans un contexte de lecture traditionnelle sur papier. Face à l’information non filtrée et souvent non référencée qui est disponible sur Internet, la vigilance critique quant à la crédibilité ou à la fiabilité des sources prend néanmoins une importance plus particulière.

Au-delà de quelques différences d’appréciation, il existe un relatif consensus sur ce qui distingue principalement la lecture traditionnelle de la lecture numérique et qui rend cette dernière particulièrement complexe : le fait que le texte sur support numérique n’ait pas de frontières définies et que le lecteur doive construire le texte à lire, le fait que le lecteur soit confronté à des textes multiples et qu’il soit amené à gérer les éventuelles contradictions entre ceux-ci, l’importance accrue de l’autorégulation pour maintenir ses buts de lecture et éviter de se perdre dans les méandres de la toile et enfin, le rôle crucial de l’évaluation de la crédibilité des sources. Comme le résume Li (2020), quand on parle de nouveauté à propos des stratégies de lecture numérique, le terme revêt deux significations différentes. Premièrement, la nouveauté touche

les compétences de littératie numérique que les lecteurs déploient pour s’adapter au nouvel environnement numérique. Les stratégies de ce type sont neuves et distinctes des stratégies de lecture traditionnelles. Elles sont formatées par les caractéristiques des textes sur Internet et jouent un rôle unique. (…). Deuxièmement, la nouveauté concerne les nouvelles fonctions des stratégies de lecture traditionnelles aux nouveaux contextes de lecture en ligne

Li, 2020, p. 4[3]

Le PISA 2018 à l’heure de la lecture numérique

Depuis le cadre de référence pour l’évaluation de la lecture élaboré pour le PISA 2000, la place et les fonctions qu’occupent la lecture dans la société, ainsi que les supports et le type de textes lus ont connu des évolutions considérables. Sous l’influence des technologies de l’information et de la communication, la manière dont les gens lisent et échangent de l’information a rapidement évolué. En 2018, une révision substantielle du cadre de référence a eu lieu : la lecture en ligne occupe désormais une place centrale dans l’évaluation, à un point tel que toutes les nouvelles tâches d’évaluation développées pour 2018 sont des unités[4] de lecture en ligne, comportant des caractéristiques propres aux textes électroniques, outils de navigation entre les pages et liens hypertextes (Coiro & Dobler, 2006 ; Leu et al., 2015 ; OECD, 2019 ; Rouet, 2006 ; Rouet & Britt, 2011 ; Rouet & Coutelet, 2008). Les trois principaux processus de lecture évalués dans le PISA restent identiques en 2009 et 2018 : localiser de l’information, interpréter, réfléchir et évaluer les textes. Des sous-processus plus spécifiques concernant la lecture numérique ont cependant été ajoutés : « rechercher et sélectionner des textes pertinents » et « détecter et gérer des contradictions ».

Une actualisation similaire s’est opérée pour les questionnaires contextuels, de sorte que les caractéristiques propres à la lecture numérique y figurent en bonne place, aux côtés des aspects de la lecture traditionnelle sur support papier. Ainsi, pour ne prendre que deux exemples, les élèves sont questionnés sur leurs pratiques de lecture sur papier, mais aussi sur support numérique. Deux échelles mesurant les connaissances métacognitives en lecture étaient déjà présentes en 2009 : « Comprendre et mémoriser un texte » (UNDREM) et « Résumer » (METASUM) (voir annexe 2) ; en 2018, une troisième échelle « Évaluer la crédibilité d’un message » (METASPAM) vise à évaluer plus spécifiquement ces connaissances en contexte de lecture numérique[5].

La métacognition, les stratégies et l’engagement dans les tâches de lecture

Depuis les travaux fondateurs de Flavell (1976), la métacognition est définie comme « toute connaissance ou activité cognitive qui a pour objet ou régule un aspect de l’activité cognitive » (Flavell et al., 2002, p. 150). Les modèles théoriques de la métacognition distinguent les connaissances métacognitives des activités métacognitives que sont le contrôle ou la régulation de sa compréhension (Flavell, 1976 ; Paris et al., 1983). De nombreux travaux menés à partir des années 1980 (Paris & Winograd, 1990 ; Snow et al., 1998) ont mis en évidence le fait que les lecteurs experts diffèrent des lecteurs peu habiles par leurs connaissances métacognitives plus approfondies et par leur usage régulier de stratégies pour réguler leur compréhension. Par contraste, les lecteurs moins habiles ne régulent pas leur compréhension et ne savent pas quelles stratégies alternatives mettre en place quand ils constatent une rupture dans la compréhension (Paris et al., 1983). Par ailleurs, les travaux menés dans le domaine des facteurs socioaffectifs liés à la lecture suggèrent que les attitudes (motivation envers la lecture), le concept de soi comme lecteur et le sentiment d’efficacité en lecture peuvent avoir un impact sur la manière dont le lecteur mobilise ses stratégies de lecture et s’engage cognitivement dans la tâche (Guthrie & Alvermann, 1999 ; Guthrie et al., 2013 ; Horner & Shewry, 2002 ; Lihong et al., 2021 ; Mc Elwany & Schwabe, 2019).

La métacognition et la compréhension en lecture

Le lien entre la métacognition et les compétences en lecture a été solidement établi par les nombreux travaux consacrés à la connaissance et à la mise en oeuvre de stratégies de lecture, qu’il s’agisse de travaux quantitatifs (Baker & Brown, 1984 ; Denton et al., 2015 ; Guthrie, et al., 2013) ou qualitatifs utilisant des protocoles de réflexion à voix haute (think aloud) (Coiro & Dobler, 2006). Les lecteurs les plus performants ou experts possèdent une bonne connaissance des stratégies de lecture efficaces ; inversement, les lecteurs en difficulté les connaissent mal. Selon Artelt et Schneider (2015) et Samuelsen et Braten (2007), les stratégies métacognitives ont un meilleur pouvoir prédictif de la compréhension quand elles portent sur une tâche de lecture spécifique.

Ohtani et Hisakawa (2018) ont consacré une méta-analyse aux liens entre métacognition et performances dans différentes disciplines. Cette méta-analyse portant sur 118 études inclut, parmi les modérateurs possibles, le type de mesure de la métacognition utilisé. La métacognition est en moyenne corrélée positivement (r = 0,28) avec les performances académiques. Quand la métacognition est mesurée via des mesures on line, à savoir des protocoles de réflexion à voix haute ou encore l’analyse des log file data qui enregistrent le comportement des personnes pendant la résolution d’une tâche sur support numérique, les corrélations avec les performances sont plus élevées (r = 0,53). Par contraste, quand la mesure de la métacognition se fait à froid, au moyen de questionnaires notamment, la corrélation avec les performances est nettement moins élevée (r = 0,19).

Burin et al. (2020) ont de leur côté consacré une étude aux liens entre la métacognition et la compréhension de textes numériques auprès de 219 étudiants de l’enseignement supérieur. Pour mesurer la métacognition, ils ont utilisé un sous-ensemble de l’inventaire Metacognitive Awareness of Reading Strategies Inventory (MARSI) développé par Mokhtari et Reichard (2002) (décrit dans la section suivante). Le test de compréhension en lecture comporte 20 items portant sur deux textes informatifs. Les auteurs ont également pris en compte l’habileté verbale et la mémoire de travail, ainsi que l’expérience des élèves sur Internet. Les résultats des analyses de corrélation et de régression montrent que la métacognition est significativement corrélée avec les scores de compréhension (r = 0,21), même en tenant les autres variables sous contrôle. L’habileté verbale est aussi significativement liée aux résultats en lecture (r = 0,41) ainsi que l’expérience d’Internet (r = 0,25). Toutefois, l’expérience d’Internet n’est pas significativement liée avec la mesure de métacognition.

La mesure de la métacognition en lecture

Dès lors que la métacognition est un processus non observable, sa mesure n’est pas simple (Allen & Armour-Thomas, 1993). Selon Mokhtari et Reichard (2002), qui ont dressé un relevé et réalisé une analyse critique des échelles de connaissances ou d’activités métacognitives en lecture développées avant 2000, « les efforts pour développer des inventaires des connaissances métacognitives partent de bonnes intentions, mais ceux-ci ne sont généralement pas satisfaisants du point de vue de la mesure » (Mokhtari & Reichard, 2002, p. 250)[6]. L’instrument Metacognitive Awareness of Reading Strategies Inventory (MARSI) développé par Mokhtari et Reichard (2002) comporte quant à lui 30 items mesurant selon eux les connaissances. Cependant, à l’examen, cet inventaire porte surtout sur l’usage perçu de différentes stratégies de lecture. L’échelle a a subi un processus de validation auprès de 825 élèves du secondaire (de la 6e à la 12e année), elle présente une bonne fidélité (α = 0,89) et trois facteurs ont été identifiés : les stratégies de lecture globales (p. ex. : j’ai un but en tête quand je lis), les stratégies de résolution de problèmes (p. ex. : j’essaie de me recentrer si j’ai perdu ma concentration) et les stratégies de soutien à la lecture (p. ex. : je prends des notes quand je lis). Un relevé systématique dans trois bases de données (ERIC, Web of science et APA) montre que MARSI est de nos jours le principal instrument utilisé pour mesurer la métacognition en lecture et a fait l’objet de différentes adaptations et études de validation (Anderson, 2003 ; Wu et al., 2012). Anderson (2003) a développé une version en ligne de MARSI, mais l’adaptation s’est limitée à ajouter « quand je lis en ligne » dans le libellé de chacun des 30  tems, qui sont des stratégies de lecture générales, ce qui n’en fait pas des stratégies propres à la lecture en ligne, loin s’en faut. En 2018, Mokhtari et al. ont effectué un processus de validation d’une une version révisée et écourtée (15 items) de MARSI (MARSI-R), auprès d’un échantillon de 1162 étudiants du secondaire (de la 6e à la 12e année). Les résultats confirment la structure originale en trois facteurs latents (voir supra, Mokhtari & Richard, 2002). MARSI-R présente une corrélation modérée de 0,33 avec le concept de soi en lecture[7] et de faibles corrélations, proches de zéro, avec les notes obtenues par les étudiants. Seule la corrélation du facteur « stratégies globales de lecture » (r = 0,08) avec les notes atteint le seuil de signification à p < 0,05. Mokhtari et al. (2018) soulignent à ce propos :

un des problèmes persistants avec MARSI est que les corrélations sont relativement basses entre les scores d’usage de stratégies rapportés et des mesures externes des performances en lecture. (…) Sans doute possible, les problèmes soulevés par les instruments auto-rapportés, portant sur l’usage généralisé (ndlr de stratégies) vs contextualisé, jouent un rôle dans ce problème de corrélation

Mokhtari, et al., 2018, p. 238[8]

Enfin, Li (2020) a développé et effectué un processus de validation d’un inventaire de stratégies de lecture en ligne (Second Language Online Reading Strategies Inventory – SLORSI) dans un contexte d’apprentissage de l’anglais langue seconde auprès d’un échantillon de 482 étudiants issus de sept universités chinoises. C’est à notre connaissance l’un des rares instruments ayant subi un processus de validation qui porte véritablement sur les stratégies de lecture en ligne. Il est composé de 29 items qui se présentent sous forme d’échelles de Likert à cinq échelons (de « Pas du tout d’accord avec cette affirmation » à « Fortement d’accord avec cette affirmation ») ; il s’agit d’une mesure autorapportée portant sur des activités métacognitives. Les analyses factorielles mettent en évidence l’existence de neuf facteurs différents relevant soit de la lecture traditionnelle (inférer, écrémer), soit de la lecture en ligne (synthétiser, sauvegarder, naviguer). Pour notre propos, il est important de souligner que la dimension « Évaluer » apparait comme une dimension distincte, c’est en effet sur cette stratégie que porte notre étude de validation.

Les échelles qui viennent d’être évoquées, quelles que soient leurs qualités, sont sans exception des mesures autorapportées portant sur l’usage par le répondant de différentes stratégies, et concernent des activités métacognitives et non des connaissances métacognitives. Burin et al. (2020) rappellent l’importance de cette distinction entre activités et connaissances métacognitives et mentionnent comme seul exemple de mesure des connaissances les scénarios métacognitifs développés dans le cadre du PISA 2009 décrits dans la section suivante.

Les connaissances métacognitives dans le PISA 2009 et le PISA 2018

Dans le PISA 2009, une mesure des connaissances métacognitives a pour la première fois été introduite dans le questionnaire destiné aux élèves (Artelt & Schneider, 2015 ; OECD, 2012). L’approche adoptée par les concepteurs présente deux particularités. Tout d’abord, elle consiste à présenter un scénario de lecture, en assignant un but pour cette lecture, et à mesurer ainsi des connaissances conditionnelles véritablement en lien avec la tâche. Le premier scénario a pour but de lire un texte pour le comprendre et le retenir (UNDREM), le second scénario a pour but de résumer un texte (METASUM)[9]. Pour chacun des scénarios, une liste de cinq ou six stratégies est présentée aux élèves, qui doivent indiquer dans quelle mesure ces stratégies sont efficaces, sur une échelle de Likert comportant six échelons, de « Pas du tout efficace » à « Très efficace ». Les élèves n’ont donc pas à indiquer s’ils mettent en oeuvre eux-mêmes les différentes stratégies (ce qui serait une mesure autorapportée), mais plutôt s’ils pensent que ces stratégies sont efficaces pour résoudre une tâche de lecture située. Les connaissances (awareness) sont ainsi bien distinctes de l’activité (contrôle ou régulation de sa compréhension), ce qui n’est que rarement, voire jamais, le cas dans les échelles existantes. En outre, le fait de ne pas demander aux élèves ce qu’ils feraient en pareille situation, mais plutôt d’évaluer ce qu’ils pensent de l’efficacité de la stratégie, est de nature à diminuer les phénomènes de désirabilité sociale ou d’acquiescement inhérents aux mesures autorapportées (He & van de Vijver, 2015). Par ailleurs, une méthode de codage particulière a été appliquée. Plutôt que de considérer a priori certaines réponses comme correctes et d’autres pas, les réponses des élèves ont été mises en regard de celles d’un panel d’experts en lecture issus des différents pays participants au PISA. Un point de référence externe (benchmarking) est donc utilisé. Dans un premier temps, les réponses de 64 experts aux mêmes scénarios métacognitifs ont été recueillies. Dans un deuxième temps, les réponses des experts à toutes les paires de stratégies à l’intérieur d’un scénario ont été comparées afin de ne retenir que les cas où une stratégie est clairement jugée plus efficace qu’une autre. Seules les paires de stratégies pour lesquelles une majorité de 75 % des experts sont d’accord ont été retenues, soit 23 paires au total (neuf pour le premier scénario, huit pour le deuxième et six pour le troisième introduit en 2018, présenté plus loin). Si le jugement de l’élève pour chacune de ces paires correspond à celui des experts, l’élève reçoit un score de 1 ; dans le cas contraire, il reçoit un score de 0. Ces scores sont enfin additionnés par scénario ; l’élève dont le jugement sur l’efficacité de paires de stratégies concorde parfaitement avec celui des experts obtient ainsi un score total de 23 pour les trois scénarios. Plus de détails à propos du codage peuvent être trouvés dans Artelt et Schneider (2015) et dans Zhou et al. (2020). Artelt et Schneider (2015) ont réalisé une étude de validation des deux scénarios métacognitifs du PISA 2009. Ils ont testé les liens entre les scores métacognitifs de lecture et les performances en lecture dans le PISA 2009 et mis en évidence des corrélations élevées avec les performances en lecture, de l’ordre de 0,48 en moyenne dans les pays de l’OCDE.

Objectif de la présente étude

L’objectif de la présente étude est d’identifier des traces de validité d’une échelle inédite de mesure des connaissances métacognitives en contexte de lecture numérique développée pour le PISA 2018. Plus précisément, il s’agit d’examiner en quoi la nouvelle échelle pour laquelle on souhaite obtenir des traces de validité converge avec les résultats d’autres mesures portant la lecture (dans ce cas, les performances et différentes échelles socioaffectives concernant la lecture) et, en parallèle, de vérifier si cette échelle diverge d’autres construits relatifs aux technologies de l’information et de la communication. Les frontières entre la lecture numérique et d’autres construits proches comme la littératie numérique[10] sont en effet ténues. De surcroît, comme le signale l’un des experts du domaine, « c’est un sujet sur lequel la terminologie est très confuse » (Bawden, 2008, p. 24). Pour notre propos, nous retiendrons la définition de la littératie numérique proposée par Martin (2006) « la conscience, l’attitude et la capacité des individus d’utiliser de manière adéquate les outils numériques pour identifier, accéder à, gérer, intégrer, évaluer et synthétiser des ressources numériques, construire de nouvelles connaissances, créer des artefacts médiatiques, et communiquer avec les autres (…)[11] » (p. 154). À la lumière de cette définition, on peut constater que le concept de littératie numérique est plus large que celui de lecture numérique, qu’il englobe d’ailleurs totalement. À la différence de la lecture numérique, la littératie numérique inclut d’autres objets que du texte écrit (des « ressources numériques » ce qui inclut des images, du son, des vidéos…), et met davantage l’accent sur la composante technologique ou la capacité à utiliser les outils numériques.

La démarche d’identification de traces de validité au coeur de la présente étude portant sur une échelle inédite, aucune étude portant sur cette échelle ou sur des échelles s’en approchant n’a pu être trouvée. Nous ne sommes donc pas en mesure de poser des hypothèses de recherche stricto sensu. En revanche, ce que nous appelons, dans le cadre de cette étude, des hypothèses de travail ont été posées, et sont successivement mises à l’épreuve au travers des analyses menées. A priori, l’échelle comporte trois composantes : une composante « connaissances métacognitives », une composante « lecture » et une composante « technologique » (message électronique). Les hypothèses de travail correspondent au raisonnement par étape suivi pour trouver des traces que l’échelle mesure bien ce qu’elle prétend mesurer, à savoir 1) des connaissances métacognitives, 2) liées à la lecture numérique, et 3) peu liées à une dimension technologique (outil informatique).

  • Hypothèse de travail 1 : si l’échelle METASPAM mesure bien la connaissance métacognitive de stratégies liées à la lecture, elle devrait être bien corrélée avec les deux autres scénarios métacognitifs de lecture ayant subi un processus de validation (UNDREM et METASUM) ;

  • Hypothèse de travail 2 : si l’échelle METASPAM mesure bien des stratégies liées à la lecture, elle devrait être aussi bien corrélée que UNDREM et METASUM avec les performances en lecture ;

  • Hypothèse de travail 3 : si METASPAM mesure la connaissance de stratégies de lecture, elle devrait être aussi bien corrélée avec les autres variables non cognitives liées à la lecture (intérêt, concept de soi, efficacité perçue) que les deux autres scénarios UNDREM et METASUM ;

  • Hypothèse de travail 4 : si METASPAM mesurait des compétences technologiques, elle devrait être davantage corrélée aux variables non cognitives liées aux TIC (usage et intérêt pour les TIC, efficacité perçue des TIC) que ne le sont les deux autres scénarios métacognitifs.

Par ailleurs, la revue de la littérature portant sur les liens entre la métacognition, les performances en lecture et d’autres variables conduit à poser les hypothèses de recherche suivantes qui, même si elles ne concernent pas directement la démarche de validation, contribuent à l’avancement des connaissances sur les liens entre métacognition et lecture numérique :

  • Hypothèse de recherche 1a : selon la méta-analyse de Ohtani et Hisasaka (2018), la corrélation du scénario métacognitif avec les performances en lecture devrait être relativement faible (autour de 0,20), puisque la mesure des connaissances métacognitives s’effectue via un questionnaire (plutôt que par une mesure «  on line  »).

  • Hypothèse de recherche 1b : selon les travaux d’Artelt et Schneider (2015), de Burin et al. (2020) et de Schellings et al. (2013), étant donné que le scénario est lié à une tâche de lecture contextualisée, la corrélation avec les performances en lecture pourrait être relativement élevée.

  • Hypothèse de recherche 2 : en accord avec les travaux d’Azevedo et al. (2013), de Baker et Wigfield (1999), de Guthrie et Alvermann (1999), de Horner et Shewry, (2002), le scénario métacognitif devrait être significativement corrélé avec les variables socioaffectives liées à la lecture (intérêt, concept de soi, sentiment d’efficacité).

  • Hypothèse de recherche 3 : en accord avec l’étude de Burin et al. (2020), le scénario métacognitif devrait n’être que faiblement, voire pas du tout, corrélé avec les variables liées aux TIC (fréquence d’usage, intérêt, sentiment d’efficacité perçue).

Méthodologie

L’échantillon

L’étude porte sur les 37 pays de l’OCDE, soit plus de 11 millions d’élèves. Les 42 pays partenaires non-membres de l’OCDE n’ont pas été inclus dans l’étude afin de conserver un ensemble relativement homogène de pays sur le plan économique et culturel. Les échantillons par pays contiennent entre 4000 et 8000 élèves dont l’âge moyen est de 15,8 ans. Dans chaque pays, le test PISA ainsi que le questionnaire ont été remplis par un échantillon représentatif de la population des jeunes de 15 ans. Les échantillons obéissent à des règles précises et doivent respecter les standards définis pour que les résultats du pays soient publiés. Il s’agit d’échantillons stratifiés proportionnels à la taille des établissements tirés en deux étapes. Dans un premier temps, les écoles sont sélectionnées (minimum de 150 écoles par pays) en fonction des critères définis (p. ex. : situation géographique, type d’établissement, réseau d’enseignement) ; dans un second temps, 42 élèves sont tirés au sort au sein de la liste des élèves de 15 ans fournie par l’établissement. Le PISA ne sélectionne donc pas de classes entières.

Les variables

Les variables cognitives

Les scores des élèves en lecture dans le PISA sont calculés en utilisant le modèle de la réponse à l’item (MRI) (OECD, 2020 ; Fischer & Molenaar, 1995). La procédure permet l’estimation de valeurs plausibles individuelles (au nombre de 10) des acquis en lecture (Von Davier et al., 2009). Au lieu de disposer d’un seul score, chaque élève se voit assigner 10 valeurs plausibles de scores.

Les 10 valeurs plausibles générées grâce au modèle de la réponse à l’item (MRI) seront utilisées. Ce score englobe les résultats à des tâches de lecture portant sur trois processus de lecture : 25 % des items évaluent le processus « localiser de l’information », 45 % des items, le processus « comprendre » et 30  % des items, le processus « réfléchir et évaluer ».

Les variables métacognitives

Trois scénarios métacognitifs (voir Annexe 1) : les deux scénarios métacognitifs existants depuis 2009, soit le scénario « comprendre et retenir » (UNDREM) et le scénario « résumer » (METASUM) ainsi que le nouveau scénario métacognitif lié à la lecture numérique (METASPAM). Ce dernier scénario consiste à demander aux élèves quelles stratégies leur paraitraient indiquées s’ils recevaient de leur opérateur de téléphonie mobile un courriel avec pièce jointe leur annonçant qu’ils ont gagné un smartphone (effacer le courriel, vérifier l’adresse de l’expéditeur, vérifier sur le site web de l’opérateur, ouvrir et compléter la pièce jointe, répondre à l’email et demander plus d’informations).

Les variables non cognitives liées à la lecture

Quatre échelles mesurant des aspects non cognitifs liés à la lecture, en utilisant des échelles de Likert à quatre échelons (de « pas du tout d’accord » à « tout à fait d’accord ») : une échelle mesurant l’intérêt envers la lecture (JOYREAD, cinq items), une échelle de concept de soi en lecture composée de trois items orientés positivement (SCREADCOMP), une deuxième échelle de concept de soi composée de trois items orientés négativement (SCREADDIFF) et une échelle d’efficacité perçue dans le test PISA composée de trois items orientés négativement (PISADIFF). Ces échelles sont présentées en Annexe 2.

Les variables non cognitives liées aux technologies de l’information et de la communication

Trois échelles mesurant les pratiques, les attitudes et la motivation liées aux technologies de l’information et de la communication (TIC) : une échelle de Likert à cinq échelons (de « jamais » à « tous les jours ») mesurant la fréquence d’utilisation des appareils numériques (ENTUSE), une échelle mesurant l’intérêt envers ceux-ci (INTICT) et une échelle d’efficacité perçue (COMPICT) comportant quatre échelons, de « pas du tout d’accord » à « tout à fait d’accord ». Ces échelles sont présentées en Annexe 3.

L’analyse des données

Nombre d’études de validation s’appuient sur l’analyse factorielle ou sur la modélisation en facteurs latents à l’aide de Mplus. Comme le défend Loye (2018), la validation couvre un large spectre de démarches et ne peut se réduire à une suite de procédures techniques. Elle déplore ainsi que « l’assimilation (ndlr entre validation et techniques statistiques) est telle que parfois la démarche de validation est confondue avec les techniques statistiques ou psychométriques, sans autre forme de procès » (p. 101). Les particularités de la méthode de codage décrites en détail dans la section présentant les échelles de mesure des connaissances métacognitives dans le PISA font que ce type d’analyses ne peut s’appliquer ici, pas plus que le calcul d’alphas de Cronbach. En effet, pour rappel, les scores des scénarios métacognitifs résultent de la comparaison de réponses à des paires d’items apportées par deux ensembles de sujets différents, les élèves testés dans le PISA et un panel d’experts.

Dans la présente étude, l’objectif étant d’établir si cette échelle mesure des connaissances qui relèvent de la lecture plutôt que des connaissances relevant de la littératie numérique, les corrélations ont été privilégiées, comme il est d’usage de le faire pour estimer la valeur prédictive d’une mesure (Messick, 1990). Les différentes variables utilisées sont présentées dans le Tableau 1.

Tableau 1

Présentation des variables utilisées dans les analyses de corrélation

Présentation des variables utilisées dans les analyses de corrélation

-> See the list of tables

Pour obtenir des estimations non biaisées, les corrélations ont été calculées en prenant en compte les caractéristiques spécifiques de la base de données telles que le mode d’échantillonnage, les pondérations (replication weights) et l’estimation de valeurs plausibles (OECD, 2020). Le logiciel IBM SPSS Statistics for Windows (version 26.0) a été utilisé pour ces analyses.

Résultats

Afin d’approcher des traces de la validité convergente (Campbell & Fiske, 1959), des corrélations ont d’abord été calculées avec les deux autres échelles métacognitives UNDREM et METASUM (hypothèse de travail 1). Les corrélations des trois échelles métacognitives ont ensuite été calculées avec les performances en lecture au test PISA (score total) (hypothèse de travail 2), et d’autres variables non cognitives liées à la lecture (concept de soi, sentiment d’efficacité, intérêt pour la lecture) (hypothèse de travail 3). Finalement, afin d’approcher des traces de la validité discriminante (Campbell & Fiske, 1959), les trois échelles métacognitives ont été corrélées avec différentes variables liées aux TIC (utilisation et intérêt pour les outils numériques, sentiment d’efficacité numérique) (hypothèse de travail 4).

  1. Corrélations entre les trois scénarios métacognitifs (UNDREM, METASUM et METASPAM) et le score global en lecture (hypothèses de travail 1 et 2)

Tableau 2

Coefficients de corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM et le score global en lecture

Coefficients de corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM et le score global en lecture

Légende : *** p.< 0,0001. n = 11 701 146 élèves

-> See the list of tables

Le scénario « évaluer la crédibilité » (METASPAM) est corrélé à 0,32 avec le scénario « comprendre et mémoriser » (UNDREM) et à 0,38 avec le scénario « résumer » (METASUM). Cette corrélation relativement élevée indique que le scénario METASPAM mesure en partie les mêmes traits que les deux scénarios existants. L’hypothèse de travail 1 est donc confirmée. La corrélation entre METASPAM et les deux anciens scénarios est néanmoins un peu plus faible que la corrélation entre les deux anciens scénarios métacognitifs, ce qui suggère que METASPAM mesure aussi d’autres aspects, ce qui est bien l’objectif visé. Alors que les deux scénarios de 2009 portent sur la connaissance de stratégies métacognitives sur la lecture en général, le scénario de 2018 vise les stratégies métacognitives liées à l’évaluation de la crédibilité de l’information dans un contexte de lecture numérique.

Par ailleurs, le scénario METASPAM est aussi bien corrélé, et même mieux corrélé, avec le score global en lecture (r = 0,48) que les scénarios existants UNDREM (r = 0,35) et METASUM (0,41). Ce résultat confirme l’hypothèse de travail 2. Cette robuste corrélation de 0,48 est une première indication que le scénario METASPAM mesure des connaissances relatives à la lecture numérique, et pas seulement des connaissances plus technologiques de littératie numérique. Pour rappel, le test de lecture du PISA 2018 fait la part belle à la lecture numérique et est administré sur support électronique. Ceci pourrait expliquer la corrélation plus élevée du scénario METASPAM avec les performances en lecture que celle des deux autres scénarios qui concernent la lecture en général.

  1. Corrélations entre les trois scénarios métacognitifs (UNDREM, METASUM et METASPAM) et les variables non cognitives liées à la lecture (intérêt, concept de soi, efficacité perçue) (hypothèse de travail 3)

Tableau 3

Corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM d’une part, les variables non cognitives liées à la lecture d’autre part

Corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM d’une part, les variables non cognitives liées à la lecture d’autre part

Légende : *** p.< 0,0001. n = 11 862 220 élèves

-> See the list of tables

Des corrélations significatives d’ampleur faible à modérée (entre 0,11 et -0,24) sont observées entre les trois scénarios métacognitifs et les variables non cognitives liées à la lecture. Les corrélations sont positives avec l’intérêt pour la lecture et le concept de soi (perception de sa compétence comme lecteur). Plus les élèves déclarent avoir de l’intérêt pour la lecture, plus ils se perçoivent comme des lecteurs compétents et meilleures sont leurs connaissances métacognitives. Les corrélations entre le concept de soi (perception de difficultés en lecture) et le sentiment d’efficacité en lecture avec les scénarios sont quant à elles négatives, comme il faut s’y attendre, étant donné que ces deux échelles sont orientées négativement. Plus les élèves déclarent éprouver des difficultés en lecture, plus ils se sont sentis en difficulté dans le test PISA et moins bonnes sont leurs connaissances métacognitives.

Ce qui importe pour la démarche de validation, c’est d’examiner si le scénario METASPAM est autant corrélé avec l’intérêt, les deux facettes du concept de soi et le sentiment d’efficacité en lecture que les deux scénarios préexistants. L’examen des corrélations montre que c’est bien le cas. Il a même tendance à l’être davantage que les deux autres scénarios métacognitifs pour le concept de soi (perception de compétences) et le sentiment d’efficacité. Ceci constitue un élément supplémentaire soutenant l’hypothèse de travail 3 selon laquelle le scénario METASPAM mesure bien des connaissances métacognitives liées à la lecture. Si le scénario METASPAM s’était révélé moins corrélé que les deux scénarios préexistants avec les aspects socioaffectifs liés à la lecture, on aurait pu y voir le signe que celui-ci mesurait d’autres aspects que la connaissance de stratégies en lecture.

  1. Corrélations entre les trois scénarios métacognitifs (UNDREM, METASUM et METASPAM) et les variables non cognitives liées aux TIC (usage et intérêt pour les TIC, efficacité perçue en TIC) (hypothèse de travail 4)

Tableau 4

Coefficients de corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM et les variables liées aux TIC

Coefficients de corrélations R de Pearson entre les scénarios METASPAM, UNDREM et METASUM et les variables liées aux TIC

Légende : *** p.< 0,0001. * p. < 0,05. n = 10  413  173 élèves. Comme le questionnaire portant sur les TIC est optionnel et que quelques pays n’y participent pas, il est donc normal que le n soit inférieur.

-> See the list of tables

Des coefficients de corrélations certes significatifs statistiquement mais de très faible ampleur (tous inférieurs à 0,10) sont observés entre les trois scénarios métacognitifs et les variables non cognitives liées aux TIC. Il importe de préciser que dans une enquête à large échelle comme le PISA, les tailles d’échantillon sont tellement importantes que des coefficients de corrélation de très faible ampleur sont néanmoins statistiquement significatifs. Il convient donc de s’appuyer sur la valeur du coefficient pour distinguer les corrélations qui ont une signification « pédagogique » (au moins proches ou supérieures à 0,20) de celles qui sont proches de zéro qui atteignent juste le seuil de signification statistique en raison de la taille de l’échantillon.

Ce qui nous intéresse, dans la présente démarche de validation, c’est de vérifier si le scénario METASPAM, qui inclut une composante numérique, dès lors qu’il porte sur le traitement à réserver à un courriel « suspect », est davantage corrélé que les deux autres scénarios avec des variables liées aux TIC. Ce n’est pas le cas. METASPAM n’est pas davantage corrélé avec les variables liées aux TIC que ne le sont les deux autres scénarios. Ceci tend à confirmer que, dans le scénario METASPAM, les connaissances métacognitives en littératie numérique viennent en second lieu par rapport aux connaissances relatives au processus de lecture « évaluer la crédibilité de l’information ». L’hypothèse de travail 4 est ainsi confirmée.

Discussion

Les différentes analyses de corrélation menées pour identifier certains éléments de validité du scénario destiné à mesurer les connaissances métacognitives en lecture numérique débouchent sur un ensemble de résultats qui tendent à montrer que cette échelle mesure bien des connaissances en relation avec la lecture numérique, plutôt qu’une littératie numérique ou technologique sans véritable lien avec la lecture. Si l’on revient sur les hypothèses de travail qui ont guidé la démarche de validation, il apparait en effet que le scénario METASPAM est bien corrélé avec les deux scénarios métacognitifs en lecture existants et ayant subis un processus de validation (Artelt & Schneider, 2015 ; Zhou et al., 2020) et avec les performances en lecture des jeunes de 15 ans. Les hypothèses de travail 1 et 2 sont donc confirmées. L’examen des corrélations des trois scénarios avec quelques variables non cognitives importantes liées à la lecture (intérêt, concept de soi, efficacité perçue) montre l’absence de différences notables entre le nouveau scénario et les deux scénarios métacognitifs existants. Ceci confirme l’hypothèse de travail 3 et constitue une preuve supplémentaire que le scénario « Évaluer la crédibilité d’un message » touche bien des composantes liées à la lecture. Enfin, en termes de traces de validité discriminante, les corrélations proches de zéro du scénario « Évaluer la crédibilité d’un message » avec des variables liées aux TIC (usage et intérêt pour les TIC, efficacité perçue des TIC) montrent que les connaissances des élèves à propos de l’adéquation de différentes stratégies face à un courriel suspect ne sont pas liées avec leur familiarité avec les TIC, ni avec leur sentiment d’efficacité perçue dans ce domaine. Ceci confirme l’hypothèse de travail 4. L’échelle mesure davantage des connaissances métacognitives liées à la lecture numérique qu’à la littératie numérique.

Au-delà des résultats de la démarche de validation, les résultats des analyses de corrélation peuvent être analysés à la lumière des hypothèses de recherche posées. La corrélation du scénario « Évaluer la crédibilité de l’information » avec les performances en lecture, de l’ordre de 0,48, est plus élevée que ne le sont d’habitude les mesures métacognitives recueillies par questionnaire avec les performances. Ces résultats sont proches de ceux mis en évidence par Artelt et Schneider (2015), Burin et al. (2020), et Schellings et al. (2013) et s’éloignent des résultats de la méta-analyse de Ohtani et Hisasaka (2018) qui pointaient la faiblesse moyenne (r = 0,19) des corrélations entre les performances et les questionnaires métacognitifs. Nos résultats conduisent donc à confirmer l’hypothèse de recherche 1b et à rejeter l’hypothèse de recherche 1a dans le cadre de la présente étude. Ce résultat tient principalement au fait que le scénario développé en 2018 est lié à une tâche de lecture contextualisée, contrairement aux mesures métacognitives décontextualisées de la plupart des inventaires de stratégies. Mokhtari et Reichard (2002) avaient déjà fait l’hypothèse que la faible corrélation de leur inventaire MARSI avec les performances en lecture pouvait résulter du fait qu’il s’agit de mesures autorapportées sans lien avec une tâche de lecture. De leur côté, dans leur étude de validation des deux scénarios du PISA 2009, Artelt et Schneider (2015) avaient aussi obtenu une corrélation robuste de 0,48 entre les deux scénarios et les scores PISA en lecture. Si les trois scénarios de 2018, construits sur un même modèle, s’avèrent mieux liés avec les performances en lecture que des mesures autorapportées portant sur l’usage de stratégies, c’est parce qu’ils combinent deux propriétés avantageuses. D’une part, les scénarios comportent une mise en situation qui délimite un but ou une tâche de lecture précise et, d’autre part, en interrogeant les élèves sur l’efficacité de stratégies par rapport à cette tâche plutôt que sur leurs pratiques autorapportées, ils évitent les biais liés à ce dernier type d’échelles (désirabilité sociale et tendance à l’acquiescement). Quand il est impossible de prendre des mesures en ligne, ce type de scénario contextualisé s’avère une alternative intéressante, puisqu’il est aussi fortement corrélé avec les performances en lecture que ne le sont les mesures en ligne selon la méta-analyse d’Ohtani et Hisasaka (2020). Schellings et al. (2013) ont également montré que quand un questionnaire de mesure de la métacognition porte sur une tâche de lecture spécifique (dans leur cas, lire et mémoriser un texte), il est nettement mieux corrélé avec les stratégies de lecture recueillies par des protocoles à voix haute que ne le sont des questionnaires à caractère général.

Comme escompté et en accord avec l’hypothèse de recherche 2, le scénario métacognitif « Évaluer la crédibilité d’un message » ainsi que les scénarios « Comprendre et mémoriser » et « Résumer » sont significativement corrélés avec les variables socioaffectives liées à la lecture (intérêt, concept de soi, sentiment d’efficacité), conformément à ce que montrent les travaux d’Azevedo et al. (2013), Baker et Wigfield (1999), Guthrie et Alvermann (1999), Horner et Shewry (2002), Mc Elwany et Schwabe (2019) sur les liens entre la motivation, l’engagement dans la lecture et la mise en oeuvre de stratégies métacognitives et d’autorégulation.

Enfin, conformément à ce que l’étude de Burin et al. (2020) a mis en évidence, le scénario métacognitif est très faiblement corrélé avec les variables liées aux TIC (fréquence d’usage, intérêt, sentiment d’efficacité perçue). L’hypothèse de recherche 3 est donc également confirmée.

Conclusion

Au terme de cette étude, suffisamment d’éléments de validité ont été accumulés pour conclure que l’échelle évalue bien certaines connaissances métacognitives en lecture numérique. L’échelle est en effet bien corrélée avec deux scénarios de mesure des connaissances métacognitives en lecture ayant déjà subi un processus de validation par des études antérieures (Artelt & Schneider, 2018 ; Zhou et al., 2020), avec les performances en lecture et les variables socioaffectives liées à la lecture. Cette échelle de mesure de connaissances métacognitives, plus particulièrement du processus « Évaluer la crédibilité de l’information », se révèle donc un outil intéressant dans le contexte d’études quantitatives portant sur la lecture numérique, et ce, d’autant plus que l’on a vu à quel point les échelles de mesure de connaissances métacognitives sont une denrée rare. Dans un tout autre contexte, celui des pratiques de classe, cette échelle pourrait aider les enseignant.e.s à évaluer les connaissances critiques de leurs élèves avant et après un enseignement qui porterait sur des stratégies de lecture numérique efficaces. Il pourrait aussi servir de base pour une discussion où les élèves confronteraient les stratégies qu’ils jugent indiquées pour traiter ce type de message frauduleux qui encombre régulièrement nos messageries électroniques.

Limites

L’échelle porte sur un seul processus « Évaluer la crédibilité de l’information », dont l’importance est reconnue dans un contexte de lecture numérique. Cette échelle ne peut toutefois prétendre représenter à elle seule l’ensemble des processus ou des stratégies impliqués dans la lecture numérique. Pour rappel, dans son étude consacrée à un inventaire des stratégies de lecture en ligne, Li (2020) a identifié pas moins de neuf facteurs au rang desquels figure l’évaluation, à côté d’autres stratégies spécifiques à la lecture numérique (localisation de l’information, synthèse, sauvegarde et navigation). Dans le futur, d’autres scénarios devraient être développés pour évaluer une palette plus large de stratégies de lecture numérique.

L’étude que nous avons menée a porté sur les 37 pays de l’OCDE. Les résultats obtenus concernent donc les pays de l’OCDE et ne peuvent être sans précaution généralisés à une zone plus étendue et culturellement plus diverse. D’autres études ont bien établi l’importance de tester la stabilité ou l’invariance à travers cultures (cross-cultural invariance) des instruments utilisés dans les enquêtes internationales et souligné que les biais liés aux réponses de style culturels étaient plus marqués dans les pays du sud et les pays non occidentaux (He & van de Vijver, 2013 ; Lafontaine et al., 2019). Cette problématique est essentielle et n’a pas été abordée dans la présente étude. Elle mériterait en effet une étude à part entière.

Enfin, les corrélations observées entre les scénarios et les performances en lecture confirment le pouvoir prédictif des connaissances métacognitives (Artelt & Schneider, 2015). Toutefois, il faut rappeler que le PISA est une étude transversale et qu’il n’est donc pas le design le plus adéquat pour estimer l’ampleur des liens entre métacognition et lecture, et encore moins pour juger de la relation de causalité entre ces variables. Pour cela, une approche longitudinale ou quasi-expérimentale s’imposerait.