Corps de l’article

Introduction

Les professeurs de langue doivent fréquemment tester leurs étudiants à des fins de placement au niveau de compétence approprié, de même qu’à des fins d’évaluation de l’apprentissage. En outre, ceux qui font de la recherche doivent également évaluer des habiletés langagières chez les participants à leur recherche et ils nourrissent les mêmes attentes que pour les situations d’évaluation des apprentissages. Ainsi, ils souhaitent non seulement que les participants possèdent l’habileté visée et fournissent l’effort attendu d’eux dans l’accomplissement de la tâche évaluée, mais aussi que leur performance mesurée reflète leur compétence. En bref, il est souhaité que la mesure de compétence soit valide.

Toutefois, lors de la compilation des données ainsi obtenues, il arrive fréquemment que certains des résultats soient considérés comme aberrants ; ils sont à la fois différents des attentes et des résultats obtenus par les autres personnes testées, et présentent un écart extrême par rapport à la valeur centrale. Lorsqu’un participant à une étude obtient des scores beaucoup plus élevés ou plus bas que les autres, le chercheur pourrait se limiter à éliminer, sur la base de considérations intuitives, ce type de données aberrantes.

Cette élimination de données jugées aberrantes est une opération très délicate. L’ampleur de l’élimination peut se situer n’importe où entre le rejet d’un participant sur 100 ayant quitté la salle sans terminer le test, jusqu’à la conservation d’une poignée seulement de participants après l’élimination « à l’oeil » de données jugées trop éloignées de la moyenne. (Pour un survol récent des méthodes courantes d’élimination des données en langues, voir Pichette, Béland, Jolani et Leśniewska, 2015.) Quoi qu’il en soit, il semble difficile de défendre toute décision d’éliminer des données, quelles qu’elles soient, sans une méthode objective.

Le but de la présente étude est de confronter l’élimination intuitive de données de recherche à une élimination objective, sur la base d’un indice de détection de patrons de réponses inappropriés, dans ce cas-ci l’indice lz (Drasgow, Levine & Williams, 1985).

Il importe en effet que les participants à une étude qui possèdent l’habileté nécessaire accomplissent de bonne foi et avec l’effort voulu les tâches attendues d’eux afin de mesurer ce qui est à mesurer. Il importe donc que les données recueillies soient fiables et valides. Or, malgré les précautions prises, il peut arriver que des participants prennent part à une étude dans de mauvaises dispositions, par exemple en croyant à tort que cela leur assurera des bénéfices futurs de la part du professeur qui les teste, pour ensuite répondre au hasard afin de terminer rapidement. Il peut aussi arriver qu’une personne mente quant aux prérequis exigés pour participer, sans quoi elle aurait pu être exclue de la recherche en raison de son profil qui aurait pu fausser les données recueillies. Ces situations, et bien d’autres semblables, font en sorte que certains participants qui n’auraient pas dû participer à l’étude ou qui n’auraient pas dû y participer de la façon dont ils l’ont fait peuvent venir fausser les résultats de l’étude. Ils doivent donc être exclus des analyses a posteriori. Une façon de remédier à ce problème serait d’identifier de telles personnes par l’intermédiaire de patrons de réponses aberrants.

Cet article sera divisé comme suit : le cadre théorique sera d’abord présenté, suivi des détails méthodologiques, des résultats obtenus et de la discussion. Enfin, nous terminerons l’article par une conclusion.

Cadre théorique

L’indice lz appartient à une série d’indices de détection qui reposent sur l’application d’une modélisation probabiliste de réponse à l’item. Cette modélisation, s’inspirant de la modélisation par régression logistique, permet de calculer la probabilité Pi(θ) d’une bonne réponse d’un participant j à un item i. Lorsque possible, l’indice du participant sera omis. Par exemple, dans le cadre de la modélisation logistique à trois paramètres (Bertrand & Blais, 2004), nous pouvons représenter cette probabilité par l’équation suivante :

θ est un paramètre d’habileté du participant, bi un paramètre de difficulté de l’item, ai un paramètre de discrimination de l’item et ci un paramètre de pseudo-hasard de l’item. Il est à noter que la modélisation associée à l’équation 1 se réduit au modèle à deux paramètres lorsque ci = 0 et au modèle à un paramètre (aussi appelé modèle de Rasch) lorsque ci = 0 et ai = 1.

L’indice lz découle de l’indice l0 de Levine et Rubin (1979). En bref, l0 calcule tout simplement le logarithme népérien de la probabilité d’un patron de réponses :

Ici, Pi(θ) a déjà été donné en équation (1) et Qi(θ) = 1-Pi(θ). Ainsi, le logarithme népérien de la probabilité est calculé pour chacun des patrons de réponses. Malheureusement, cet indice présente un problème de taille : son interprétation est pratiquement impossible à établir, car aucune valeur-seuil ne lui est associée pour statuer sur le caractère approprié ou non des patrons de réponses. Pour cette raison, Drasgow, Levine et Williams (1985) ont élaboré une version standardisée de l0: lz. Mathématiquement, cet indice correspond à :

E(l0) et V(l0) sont respectivement la moyenne et la variance de l0. Puisque cet indice se distribuerait selon une loi normale centrée réduite (Drasgow, Levine & Williams, 1985), l’interprétation des résultats est aisée. Par exemple, si nous fixons le seuil de signification à 0,05, une valeur inférieure au point de coupure -1,64 permettra de détecter un patron de réponses comme étant inapproprié. À l’opposé, une valeur positive élevée démontre que le patron de réponses observé est tout simplement plus probable que le patron de réponses attendu : une situation qui n’est pas associée à un patron de réponses inapproprié.

Les raisons principales qui ont motivé le choix de lz résident dans le fait qu’il est reconnu comme l’un des plus puissants et populaires indices statistiques pour détecter les patrons de réponses inappropriés (Drasgow & Levine, 1986 ; Li & Olejnik, 1997 ; Nering, 1997 ; Nering & Meijer, 1998 ; Raîche, Magis, Béland & Blais, 2011 ; Raîche, Magis, Blais & Brochu, 2013 ; Reise & Due, 1991). Par contre, il est important de signaler que cet indice permet seulement de détecter si un patron de réponses est approprié ou inapproprié. Ainsi, il est impossible de se prononcer sur la nature du comportement (p. ex., la fatigue ou le stress) ou de la stratégie adoptée par le participant (p. ex., la tricherie volontaire ou le sous-classement intentionnel) ayant fourni un patron de réponses inapproprié. Le lecteur intéressé à en connaître davantage sur le sujet est invité à consulter Brassard (2011), Cronbach (1946), Meijer (1996), Johnson (1998) ou Ro (2001).

L’indice lz a été utilisé dans plusieurs recherches en éducation (p. ex., Dodeen & Darabi, 2009 ; Meijer, 2003 ; Raîche, 2002 ; Reise & Flannerey, 1996). Dans certains cas, il a trouvé des applications dans la vie courante. Par exemple, Raîche (2002) l’a utilisé pour détecter les personnes qui obtiendraient volontairement de mauvais résultats dans un test de classement en anglais langue seconde pour obtenir ensuite facilement des notes élevées dans un cours qui serait alors très facile pour eux. De leur côté, Dodeen et Darabi (2009) ont appliqué l’indice lz à une série de quatre tests de personnalité en mathématique. Ils soutiennent que cet indice permet de mieux comprendre le comportement des étudiants qui ont participé à la recherche. Enfin, Karabatsos (2003) a comparé 11 indices comparatifs (aussi appelés indices non paramétriques) et 25 indices dérivés des modèles de réponse à l’item (aussi appelés indices paramétriques). Ses analyses ont démontré que lz figure parmi les indices dérivés des modèles de réponse à l’item les plus efficaces. Par contre, les indices comparatifs sont ceux qui ont présenté les plus hauts pourcentages de détection.

La présente étude vise à explorer l’application de l’indice lz dans le contexte de l’élimination de participants à une recherche qui auraient répondu inadéquatement aux items d’une épreuve qu’ils ont passée. La présente étude poursuit deux objectifs principaux : (a) comparer l’élimination intuitive et l’élimination par lz, et (b) examiner le potentiel que présente lz pour détecter des participants ayant répondu par pseudo-hasard au test utilisé.

Méthodologie

Participants

Les participants à l’étude sont 183 étudiants universitaires bilingues anglais-français, soit 129 femmes et 54 hommes. De ce nombre, six seulement ont indiqué avoir l’anglais comme langue maternelle ; les autres ont tous indiqué le français comme langue maternelle. Après vérification, l’exclusion des six participants anglophones n’aurait aucun impact notable sur les statistiques présentées ici, c’est-à-dire que les alphas de Cronbach et les indices lz n’ont varié que légèrement à la seconde décimale, et que le pourcentage de données manquantes et les items identifiés par les indices n’en ont pas été affectés. Les données de ces six participants ont donc été conservées. Le niveau de compétence en anglais des francophones, comme indiqué par eux-mêmes, variait d’intermédiaire à avancé. Les débutants n’ont pu figurer parmi les participants puisque, en raison de leur compétence linguistique limitée, ils ne seraient pas en mesure d’effectuer les tâches de lecture demandées.

Instrument

Technique de vérification de phrases

Le test qui a servi à recueillir les données à analyser a été créé en 2008 pour mesurer l’habileté en compréhension en lecture de l’anglais (Pichette, Lafontaine & de Serres, 2009). Il est basé sur la technique de vérification de phrases (sentence verification technique, SVT ; Royer, Hastings & Hook, 1979) utilisée traditionnellement par des enseignants pour vérifier la lisibilité de textes destinés à des groupes d’élèves. La structure habituelle du test, basé sur la technique de vérification de phrases développée par Royer et ses collaborateurs, consiste pour des étudiants à lire quatre passages de 12 phrases prélevés dans le document à utiliser, puis à indiquer de mémoire, après chacun de ces passages, si oui ou non des items sous la forme de phrases individuelles correspondaient au passage lu. Ce type de test a démontré au fil des années des alphas de Cronbach se situant entre 0,70 et 0,80 pour une version basée sur quatre passages totalisant 64 items, tout en faisant ressortir des corrélations de 0,50 à 0,73 avec des scores sur des tests normalisés de compréhension en lecture (Royer, 2004). Royer (2004) conclut que ces tests sont des outils efficaces qui mesurent ce qu’ils prétendent mesurer, car ils sont également sensibles à la variation en habileté de lecture et au degré de difficulté des textes lus, et car ils mesurent la compréhension du passage plutôt que de la phrase. L’historique de cette technique et les détails de nature psychométrique qui y sont associés sont présentés dans Royer (2004).

La technique de vérification de phrases devenant caduque en raison de l’essor des outils de mesure automatique de lisibilité, le principe a été recyclé dans la création d’un instrument pour mesurer l’habileté en compréhension en lecture de l’anglais. Le processus de mise sur pied suit des recommandations formulées par Royer pour créer un outil gratuit, plus simple et plus facile à faire passer que les tests normalisés actuels. À cette fin, quatre textes en anglais d’intérêt général de 12 phrases chacun ont été choisis, modifiés et soumis à des échelles de lisibilité différentes pour s’assurer qu’ils présentent un intervalle suffisant de degrés de difficulté.

La méthode préconisée depuis les débuts de la technique de vérification de phrases consiste, pour son utilisateur, à créer 16 items pour chaque passage d’un test par technique de vérification de phrases. Ces items se répartissent en quatre catégories distinctes. D’abord, quatre des 12 phrases du texte sont paraphrasées, c’est-à-dire qu’elles transmettent le même sens avec des mots différents. Puis, quatre autres phrases font l’objet de changement de sens, c’est-à-dire que seuls un ou deux mots ont été changés, tout en affectant le sens entier de la phrase. Enfin, les quatre phrases restantes sont laissées intactes, puis quatre phrases plausibles sont ajoutées comme leurres. Dans le cadre de cette étude, au lieu d’opter pour une répartition égale des items dans les quatre catégories, les paraphrases et les changements de sens se retrouvent surpondérés, car il s’agit des plus discriminants lorsque la performance aux items associés à la technique de vérification de phrases est corrélée à celle obtenue à des tests de compréhension en lecture normalisés (Marchant, Royer & Greene, 1988). Le test utilisé comprend donc cinq paraphrases, cinq changements de sens, deux phrases intactes et quatre leurres. Dans les tests par technique de vérification de phrases, la difficulté peut se retrouver à deux niveaux différents : certains textes sont plus difficiles que d’autres, tandis que, à l’intérieur de chaque texte, certains éléments sont plus difficiles que d’autres. L’annexe présente un exemple de texte et de ses items accompagnateurs.

Technique de vérification de phrases modifiée

Comme l’indice lz a déjà été suggéré pour identifier des étudiants pouvant ne pas avoir répondu correctement à des tests, nous avons décidé de mettre un peu plus à l’épreuve cet indice en nous demandant s’il serait capable d’identifier des personnes que le chercheur saurait avoir répondu au hasard. À cette fin, une version différente du test a été créée par l’enlèvement des quatre textes à lire, de sorte que le test ne renfermait que les titres des textes, suivis des items.

Nous aurions pu procéder autrement et demander simplement à des répondants supplémentaires de répondre oui ou non 64 fois de suite en l’absence à la fois des textes et des items, ce qui nous aurait fourni des patrons de réponses que nous aurions pu imputer au hasard. Toutefois, dans un test comme celui qui a été développé, les répondants arrivent certes à choisir leurs réponses en vertu de leur compréhension du texte lu, habileté que le chercheur prétend mesurer et qui découle d’une série de processus cognitifs complexes (Bernhardt, 1991 ; Giasson, 2007 ; Grabe, 2009). Or, en plus de la compréhension du texte, d’autres habiletés, facteurs et processus peuvent guider la personne testée dans le choix des réponses fournies, entre autres les inférences et recoupements basés sur les items en présence, de même que des habiletés, facteurs et processus semblables qui sous-tendent l’habileté à faire des tests, quelle qu’en soit la nature (Cohen, 1992-1993 ; Scharnagl, 2005). Ainsi, comme il importe de limiter au maximum la différence entre les personnes testées avec cette méthode et l’ensemble des participants, seuls les textes ont été éliminés, ce qui mène à des patrons de réponses auxquels nous associons le terme de pseudo-hasard plutôt que celui de hasard puisqu’ils découlent des processus cognitifs évoqués précédemment. Le pseudo-hasard sous-tendu par cette modification du test nous a semblé plus approprié que le hasard pur, que nous aurions pu facilement obtenir par des moyens mécaniques ou autres.

Déroulement

Ce nouvel instrument a été soumis en premier lieu à 171 de nos participants, qui y ont répondu sur une copie papier dans une salle de classe. La durée moyenne de passation du test fut de 21 minutes, avec un éventail de durée de 16 à 24 minutes. Par la suite, la version tronquée du test en format électronique a été soumise à 12 participants supplémentaires au profil semblable au reste des participants, c’est-à-dire des francophones universitaires locuteurs d’anglais langue seconde de niveau de compétence non débutant.

Méthode d’analyse des résultats

Une fois le test effectué par les participants, nous avons dû composer avec des données manquantes, qui étaient de l’ordre de 5 % des données recueillies. Ces données manquantes ont été traitées comme étant de mauvaises réponses et se sont vu assigner un score de zéro. Il est à noter que ce type de traitement a aussi été adopté par Raîche (2002).

Le test de vérification de phrases modifié a été calibré à l’aide du modèle de réponse à l’item à deux paramètres. Outre l’estimation du niveau de difficulté de chacun des items, ce modèle permet de donner un poids différent à ceux-ci à l’aide d’un paramètre de discrimination. Le modèle à trois paramètres n’a pas été retenu à cause de problèmes d’estimation du paramètre de pseudo-hasard, surtout avec les petits échantillons, comme ici. L’estimation des paramètres d’item et du paramètre d’habileté des participants a été conduite à l’aide de la librairie irtoys, disponible dans le logiciel R (Partchev, 2011). C’est la méthode du maximum de vraisemblance qui a été retenue pour estimer θ et la méthode du maximum de vraisemblance conjoint pour les paramètres ai et bi. Enfin, nous avons généré nous-mêmes le code[1] pour calculer l’indice lz.

Considérations éthiques

Le projet de recherche a été approuvé par les comités d’éthique de la recherche avec les êtres humains des deux universités où les participants ont été testés. Les participants ont été informés au préalable des détails de la recherche : objectifs, déroulement, durée prévue, participation volontaire et droit de retrait en tout temps, etc. Ils ont tous signé un formulaire de consentement à cet effet avant la collecte des données. Ils ont été assurés par écrit de la confidentialité dans la gestion des données, qui implique entre autres que les données sont anonymisées et qu’aucun nom ne paraîtra dans aucun rapport. Le fait pour les participants de fournir leur nom était d’ailleurs optionnel.

Résultats

Comparaison entre élimination intuitive et élimination par lz

Un type d’élimination relevé dans les recherches en langues consiste à exclure des analyses les participants ayant obtenu des scores trop faibles, sans égard au profil de données qu’ils présentent, par exemple en excluant les données situées au-dessus d’un certain nombre ou pourcentage d’erreurs (p. ex., Borghi, Glenberg & Kaschak, 2004 ; Glenberg et al., 2008 ; Guasch, Sanchez-Casas, Ferre & García-Albea, 2011 ; Yanguas, 2009), ou les participants qui présentent un certain écart par rapport à la moyenne des autres participants (p. ex., Bolger, Balass, Landen & Perfetti, 2008 ; Pothos, Chater & Ziori, 2006). Ainsi, un collègue qui n’est pas impliqué dans la présente recherche a éliminé 10 des 171 premiers participants de façon intuitive en excluant les participants ayant des résultats anormalement bas ou ceux qui ont un score élevé pour les textes difficiles et bas pour les textes faciles. Après l’élimination des données de ces 10 personnes, nous obtenons, pour les 161 participants restants, un coefficient α de Cronbach de 0,68, ce qui suggère un niveau de fidélité moyen pour notre test ; avant cette élimination, ce coefficient était égal à 0,83.

Une fois lz appliqué à nos données pour l’ensemble des 171 participants, un premier exercice à faire est de scruter l’élimination intuitive sous la loupe de lz. Parmi les paramètres, l’indice lz considère l’habileté des participants, exprimée sous la forme de scores z. Cette habileté est estimée en utilisant l’approche de vraisemblance maximale. Pour nos données, nous obtenons une étendue de l’estimation des niveaux d’habileté se situant de -3 à +4. Le tableau 1 fait ressortir un fort chevauchement entre les participants à l’habileté la plus faible et l’identité des personnes éliminées à l’oeil : parmi les huit participants les moins habiles, nous retrouvons sept des 10 personnes éliminées intuitivement.

Tableau 1

Huit participants retirés intuitivement par ordre croissant des notes

Huit participants retirés intuitivement par ordre croissant des notes

-> Voir la liste des tableaux

Par contre, parmi ces 171 participants, l’indice lz ne suggère l’élimination que d’une des 10 personnes que l’intuition d’un collègue avait suggéré d’éliminer (participant 107) ainsi que de trois participants différents (participants 2, 157 et 162) pour lesquels le coefficient lz de -1,64 (seuil de 0,05 dans un test unilatéral) et moins suggère un profil de réponses inapproprié à éliminer des analyses ultérieures.

Cette autre méthode d’identification des patrons de réponses aberrants a légèrement modifié les valeurs de l’alpha de Cronbach et de corrélation que nous avions obtenues pour nos tests. Alors que nous avions un α de Cronbach de 0,68 à la suite de l’élimination intuitive, celui-ci est plutôt de 0,83, donc considérablement plus élevé suivant l’élimination par lz que l’élimination intuitive.

Réponses par pseudo-hasard à la lumière de lz

Comme nous l’avions prévu, la moyenne au test a été de beaucoup inférieure en l’absence des textes à lire, se situant près du taux de chance avec une moyenne de 56,80 % (écart-type de 6,20) et une étendue de 48,40 à 67,20.

Le second objectif de cette étude était de vérifier si l’indice lz permet de détecter des participants ayant répondu par hasard ou par pseudo-hasard. Avec les données de ces participants intégrées aux matrices de données, comme l’indique le tableau 2, six des 10 personnes à exclure des analyses tel que le suggère lz font partie des 12 personnes ayant fait le test sans avoir lu les textes. Les six autres patrons de réponses sont tout de même associés à des indices lz négatifs ou à peu près nuls.

Au tableau 2, une analyse des erreurs de Guttman a aussi été menée a posteriori pour vérifier le rapport entre les bonnes réponses aux items difficiles et les mauvaises réponses aux items faciles, puis pour comparer celles-ci aux résultats obtenus à partir de l’indice lz. Dans ce cas-ci, la différence entre les 12 participants additionnels et les 171 participants réguliers est encore assez claire, ces répondants en situation de réponse au hasard ayant obtenu des erreurs de Guttman trois fois plus fréquemment que la moyenne de ces erreurs pour les participants réguliers.

Tableau 2

Comparaison des coefficients de lz et du nombre d’erreurs de Guttman

Comparaison des coefficients de lz et du nombre d’erreurs de Guttman

-> Voir la liste des tableaux

Le tableau 3 ci-dessous montre que 11 des 12 personnes ayant répondu par pseudo-hasard se retrouvent parmi les erreurs de Guttman les plus élevées. Les neuf participants dont l’indice lz avait suggéré l’élimination ainsi que neuf autres participants qui n’avaient pas été identifiés par l’indice lz s’y trouvent aussi. Le nombre d’erreurs de Guttman confirme également le caractère inadéquat de l’élimination intuitive puisque seulement quatre des 10 éliminations par cette méthode semblent justifiées (P157, P107, P166 et P167). Dans ce cas-ci, la puissance de détection des erreurs de Guttman semble donc supérieure à celle de l’indice lz.

Tableau 3

Erreurs de Guttman en tête de liste

Erreurs de Guttman en tête de liste

-> Voir la liste des tableaux

Discussion

Comparaison entre élimination intuitive et par l’indice lz

Tel qu’il est mis en lumière dans le tableau 1, l’élimination intuitive a permis la détection de sept des huit plus faibles participants, avec les trois autres éliminations qui les suivent de près dans l’échelle des habiletés en ordre croissant. Cette propension à éliminer les plus faibles suggère que l’élimination intuitive est grandement influencée par la performance globale des participants. Ainsi, pour éliminer un participant, il ne suffit pas qu’il ait obtenu un score faible dans un test facile combiné avec un résultat élevé dans un test difficile puisqu’un seul niveau de difficulté est considéré (celui du texte). En effet, même dans un tel cas, il est possible que, pour chaque texte, ce participant ait mieux réussi les questions faciles que les questions difficiles, ce qui veut dire que son patron de réponses n’est pas nécessairement si aberrant, malgré son score global faible ; du moins, pas assez aberrant pour justifier un rejet de ses données.

En second lieu, le tableau 2 fournit l’argument le plus convaincant pour utiliser une méthode dite objective (lz ou autre) pour l’élimination de données de recherche. Un α de Cronbach de 0,68 découlant de l’élimination intuitive suggère que les estimations du niveau d’habileté à partir de notre instrument n’étaient pas suffisamment précises, ce qui aurait pu nous inciter à retravailler inutilement cet outil. Par contre, l’élimination statistique de données à partir de l’indice lz a contredit cette impression en faisant ressortir un α de Cronbach respectable et rassurant de 0,83.

Réponses par pseudo-hasard à la lumière de lz

Le fait qu’il existe une différence de détection entre l’approche selon le nombre d’erreurs de Guttman et l’indice lz n’est pas vraiment surprenant : d’autres auteurs ont aussi établi que certains indices sont plus efficaces que d’autres afin de détecter des patrons de réponses spécifiques. Par exemple, Karabatsos (2003) a démontré que la réponse au hasard est généralement le comportement le plus facile à détecter. Par contre, ce dernier a obtenu des résultats opposés aux nôtres : dans son étude, lz présentait un taux de détection plus élevé que le nombre d’erreurs de Guttman. Néanmoins, il est important de soulever que les données analysées par Karabatsos étaient créées artificiellement par ordinateur, alors que, dans le cadre de notre étude, nous analysions des données réelles. Il faut cependant bien comprendre que l’identification des patrons de réponses aberrants à partir des erreurs de Guttman et de l’indice lz, telle qu’elle a été appliquée dans cette étude, n’est pas strictement comparable. En fait, la stratégie de détection à partir des erreurs de Guttman ne tient compte que du niveau de difficulté des items. L’indice lz a été utilisé à la suite de l’estimation des paramètres d’items, selon une modélisation logistique qui introduisait un paramètre de discrimination. Cette situation fait en sorte que l’estimateur du niveau d’habileté est tributaire d’une pondération différente pour chacun des items, contrairement à ce qui est sous-jacent à la stratégie de détection selon les erreurs de Guttman. Considérant le faible nombre de répondants, il aurait possiblement été préférable d’utiliser la modélisation de Rasch avec l’indice lz, en positionnant, d’une part, les 12 sujets en fonction des habiletés et, d’autre part, les items en fonction des difficultés, le tout sur un même continuum.

Examen d’indépendance des items grâce au pseudo-hasard

Une observation supplémentaire liée à l’instrument utilisé est permise ici par la nature de l’expérimentation menée. En présence d’un score moyen légèrement au-dessus du hasard avec un test de lecture semblable, un possible problème d’indépendance des items se pose parfois, soit des questions auxquelles le répondant peut répondre sans avoir lu le texte (p. ex., Le Titanic transportait de nombreux passagers lorsqu’il a sombré). Sans ce recours à des personnes ayant répondu de façon pseudo aléatoire, nous pourrions croire en la présence de ce phénomène, car certaines questions avaient été réussies par 98 % ou 99 % des participants. Ces 12 répondants par pseudo-hasard permettent de rejeter cette explication : les items qui ont été réussis par presque tout le monde n’ont pas eu le même succès pour ces 12 participants. À titre d’exemple, les items 49 et 54, qui ont présenté des scores respectifs de 98 % et 96 %, ont été manqués par la majorité des participants à la version modifiée du test : seuls trois participants sur 12 ont réussi l’item 49, tandis que seuls deux participants sur 12 ont réussi l’item 54. Conséquemment, malgré un score presque parfait pour certains items, ces derniers ne peuvent pas être réussis facilement sans que le participant ait lu le texte.

Conclusion

La présente étude visait à comparer l’élimination de participants de recherche de façon intuitive à leur élimination par l’indice lz, et à examiner le potentiel de lz à détecter des participants ayant répondu par pseudo-hasard. Un test de compréhension en lecture de l’anglais basé sur quatre textes a donc été soumis à 171 participants, puis une version sans les textes a été soumise à 12 participants supplémentaires afin d’obtenir des réponses par pseudo-hasard. L’indice lz a permis de découvrir que l’élimination intuitive est fortement influencée par le niveau d’habileté des participants et que, en outre, dans ce cas-ci, elle tire fortement à la baisse l’alpha de Cronbach pour notre test.

L’élimination intuitive de données de recherche est une procédure controversée et peu fiable. En y recourant, le chercheur jette inévitablement un doute sur la valeur de ses données et des conclusions qu’il en tire. Il convient donc de recourir à une méthode statistique comme outil plus objectif d’identification des participants à exclure des analyses.

La réponse au hasard n’est pas facilement détectable. Du moins, elle ne semble pas l’être à l’aide de lz : le nombre d’erreurs de Guttman ressort comme une stratégie plus efficace que lz pour l’élimination de données de petits corpus. À cet effet, il importe de prendre certaines précautions à l’égard des données analysées dans le cadre de cette étude. Ainsi, le fait que nous ayons demandé à seulement 12 étudiants de volontairement répondre en l’absence des textes ne signifie pas qu’ils aient produit un patron de réponses typique d’un étudiant ayant répondu au hasard. Un échantillon de taille plus importante de répondants au hasard serait nécessaire pour étudier sérieusement la puissance comparative des deux approches de détection de patrons de réponses aberrants. À cet effet, Meijer (1996) a bien tenté de proposer un patron théorique de réponses au hasard, mais il reste du travail à faire avant de bien comprendre la nature de la réponse au hasard, voire de déterminer si le hasard pur existe vraiment lorsque des personnes font des tests.

Appliquée à des données réelles et non simulées, l’identification des personnes à exclure peut être supportée et confirmée par la connaissance qu’ont les chercheurs de leurs participants. Par exemple, dans notre cas, le chercheur principal savait que l’un des trois étudiants identifiés par lz et que quatre des 10 étudiants qui affichaient le plus bas nombre d’erreurs de Guttman n’ont pas l’habitude de faire les choses avec sérieux et qu’ils ont probablement participé à l’étude pour plaire, donc sans fournir d’efforts. Ce dernier point met en lumière l’importance d’utiliser à la fois des considérations quantitatives et qualitatives pour éliminer des données de recherche. Dans le cas d’études sans anonymat où il est possible de relier les scores aux participants, en connaissant les participants, le chercheur peut constater que l’élimination de lz concorde avec le profil de ceux-ci, ce qui rassure le chercheur sur le fait que les individus à exclure verraient leurs données éliminées.

Toujours au sujet des erreurs de Guttman, le fait que les 12 participants ayant répondu par pseudo-hasard en aient obtenu trois fois plus que les participants réguliers semble soulever la question de la comparabilité du niveau de l’appariement entre les items et les individus à l’étude entre les deux groupes. Toutefois, il reste possible que cette différence soit imputable au faible nombre de répondants au hasard. Un nombre plus élevé de données liées aux réponses par pseudo-hasard permettrait d’élucider ce point.

Néanmoins, il faut garder en tête que l’efficacité de lz dépend du type de test utilisé. La prudence est donc de mise dans le choix du bon indice. Dans ce cas-ci, les attentes voulaient que lz soit approprié, en raison des items de difficulté variable du test, car plus il y a de variation de difficulté dans les items (ce qui est le cas ici), plus lz sera cohérent. Par contre, cet indice s’est avéré moins efficace, probablement parce que le test est trop court et que le nombre de participants au hasard est trop limité. D’autres indices de détection pourraient constituer de meilleures solutions dans des circonstances différentes. Ainsi, il serait pertinent de tenter la même analyse en utilisant l’indice de Snijders (2001), qui corrige la distribution de l’indice lz. Une autre avenue de recherche pertinente serait de reproduire les analyses en utilisant le processus de purification développé par Magis, Béland et Raîche (2013). Il serait aussi opportun d’appliquer un indice développé par Raîche (Raîche, Magis, Blais & Brochu, 2013) qui est spécifiquement destiné aux réponses au hasard. Dans le même sens, la supériorité du nombre d’erreurs de Guttman souligne l’intérêt d’analyser le test en utilisant d’autres indices de détection qui s’inspirent de cette approche. Enfin, l’élément le plus important de cette étude réside dans le fait qu’utiliser un indice de détection de patrons de réponses inappropriés permet de confirmer ou de corriger le jugement du chercheur.