Corps de l’article

La reconnaissance émotionnelle faciale

Les travaux sur la reconnaissance émotionnelle faciale (REF) ont établi que les individus, de manière universelle, reconnaissent les expressions de joie, de tristesse, de colère, de dégoût, de surprise et de peur, bien qu’il existe des différences culturelles subtiles dans la manière de les encoder et de les décoder (Keltner et Ekman, 2000). Pour ces raisons, ces émotions de base sont communément regroupées sous le terme d’émotions fondamentales (Barbeau, Joubert et Felician, 2009 ; Keltner et Ekman, 2000). Les expressions émotionnelles faciales constituent l’une des plus importantes manières de communiquer les émotions, et ce, via une transmission rapide de l’information. Elles permettent à l’observateur d’inférer les états émotionnels ainsi que les intentions d’autrui et d’anticiper ses gestes, mais aussi de réguler ses propres comportements en conséquence. Ainsi, l’aptitude à reconnaître les émotions influence les capacités d’adaptation à l’environnement et de ce fait, constitue une habileté indispensable au fonctionnement interpersonnel de l’individu (Barbeau et al., 2009 ; Blair, 2003, 2005 ; Labruyère et Hubert, 2009 ; Malone, Carroll et Murphy, 2012).

Déficits dans la reconnaissance des émotions et fonctionnement interpersonnel

Bien qu’il s’agisse d’une habileté universelle, le traitement des informations émotionnelles faciales demeure un processus complexe. Une mauvaise interprétation des informations non verbales pourrait mener à l’incapacité à répondre à l’environnement social de manière adéquate. Des déficits spécifiques sont d’ailleurs présents dans plusieurs psychopathologies et troubles neurologiques associés à des difficultés de fonctionnement interpersonnel. Par exemple, différents travaux indiquent que les individus souffrant du syndrome d’Asperger présentent un déficit général dans la reconnaissance des émotions (Baron-Cohen, Wheelwright, Hill, Raste et Plumb, 2001), que les individus atteints de la maladie de Huntington ont un déficit spécifique quant à l’identification du dégoût (Sprengelmeyer et al., 1996), alors que des dommages à l’amygdale sont associés à des difficultés dans l’identification des expressions de peur (Adolphs et al., 2005 ; Calder et al., 1996). En outre, la personnalité borderline chez une population adolescente est associée à une hyposensibilité émotionnelle, c’est-à-dire que ces individus ont besoin d’émotions plus intenses afin d’être en mesure de les identifier (Robin et al., 2011). Cela étant, il semble que l’incapacité à interpréter correctement l’état affectif d’autrui aurait des conséquences considérables sur la socialisation de l’individu (Barbeau et al., 2009 ; Jovev et al., 2011 ; Snowden, Craig et Gray, 2012). Des déficits dans la REF seraient liés à des troubles dans le développement de l’empathie, ce qui, à long terme, pourrait conduire au développement de comportements antisociaux et même violents (Blair, 2003 ; Malone et al., 2012 ; Richell et al., 2003 ; Sharp, 2008).

Stimuli affectifs employés et limites méthodologiques

Afin de mieux comprendre la question du traitement de l’information émotionnelle, l’utilisation d’expressions faciales d’émotions, le plus souvent sous forme de photographies, est de plus en plus courante, particulièrement dans le domaine des troubles de la personnalité (Dolan et Fullam, 2006 ; Gur et al., 2002 ; Goeleven, De Raedt, Leyman et Verschuere, 2008 ; Jovev et al., 2011 ; Robin et al., 2011). L’ensemble de stimuli affectifs le plus important est le POFA (Pictures of Facial Affect ; Ekman et Friesen, 1976) qui contient des exemples prototypiques d’expressions faciales associées aux six émotions fondamentales (joie, tristesse, colère, dégoût, surprise et peur). Celui-ci est constitué de 110 photographies en noir et blanc dans lesquelles 14 comédiens expriment à tour de rôle chacune des six émotions ainsi qu’une expression neutre. Bien qu’il s’agisse de l’outil d’évaluation de la reconnaissance des émotions le plus utilisé et qu’il ait été validé, on y décèle plusieurs failles. Notamment, en plus d’être constitué d’images en noir et blanc, d’être désuet (chevelure, maquillage, etc.) et de ne contenir que des expressions émotionnelles pleinement exprimées (100 %), celui-ci ne tient pas compte des différences culturelles dans le choix des modèles (Goeleven et al., 2008 ; Tottenham et al., 2009).

D’autres tests ont été développés dans les dernières années pour succéder au POFA tels que le JACFEE (Biehl et al., 1997), le MSFDE (Beaupré, Cheung et Hess, 2000), le KDEF (Lundqvist, Flykt et Öhman,1998), ou encore le RaFD (Langner et al., 2010). Toutefois, ces ensembles de stimuli comportent aussi différentes limites méthodologiques. Les plus importantes concernent les stimuli affectifs employés qui sont parfois peu nombreux (moins de 100 ; Tottenham et al., 2009), généralement exprimés à pleine intensité et présentés sous forme statique (Dolan et Fullam, 2006 ; Goeleven et al., 2008 ; Gur et al., 2002 ; Kosson, Suchy, Mayer et Libby, 2002 ; Pham et Philippot, 2010 ; Tottenham et al., 2009).

En effet, certains ensembles comprennent un nombre restreint de stimuli (Kosson et al., 2002 ; Tottenham et al., 2009). Par exemple, le JACFEE (Biehl et al., 1997), bien qu’il regroupe des modèles japonais et caucasiens, contient un nombre limité de photographies (N = 56). L’utilisation d’émotions prototypiques, qui est courante, s’avère aussi discutable puisqu’il s’agit de stimuli simplistes, exagérant la manière dont les émotions sont exprimées dans la vie quotidienne (Tottenham et al., 2009). Ces tâches sont problématiques, car en plus d’offrir peu de validité écologique et d’être facilement identifiables, elles font face au problème d’effet de plateau (Barbeau et al., 2009 ; Kosson et al., 2002 ; Pham et Philippot, 2010). La plupart des ensembles de stimuli affectifs présentent également un manque de diversité ethnique (Gur et al., 2002 ; Tottenham et al., 2009). En outre, le KDEF (Goeleven et al., 2008) et le RaFD (Langner et al., 2010) ne comportent tous deux que des modèles caucasiens. Il apparaît pourtant important de tenir compte de l’ethnicité des modèles dans les ensembles standardisés puisque celle-ci aurait des impacts sur les processus de reconnaissance faciale, les individus étant plus habiles à reconnaître des visages de leur propre type ethnique (De Viviés, Kelly, Cordier et Pascalis, 2010). Enfin, la plupart des études ont recours à une série de photographies afin de mesurer la reconnaissance des émotions. Il s’agit alors d’expressions émotionnelles faciales statiques, moins fidèles à la réalité (Goeleven et al., 2008 ; Gur et al., 2002). Plusieurs auteurs recommandent d’employer des paradigmes plus écologiques, en utilisant des expressions émotionnelles dynamiques (Barbeau et al., 2009 ; Baron-Cohen et al., 2001 ; Jovev et al., 2011 ; Kosson et al., 2002 ; Krumhuber, Tamarit, Roesh et Scherer, 2012 ; Van Der Schalk, Hawk, Fischer et Doosje, 2011).

Conception de la recherche

Le morphisme. Dans le but d’adopter une approche plus écologique, la technique du morphisme a été employée afin de créer des expressions émotionnelles faciales dynamiques. Cette technique consiste à ce qu’un stimulus facial au départ neutre évolue graduellement jusqu’à présenter l’une des six émotions de base pleinement exprimée. Plus spécifiquement, le morphisme réfère à des techniques graphiques informatiques utilisées afin de créer un continuum entre deux prototypes : ici, les expressions à 0 % et à 100 %. Pour ce faire, il s’agit de localiser les positions d’un nombre important de points spécifiques sur chacun des deux prototypes d’image, permettant de définir les traits du visage les plus importants. Après cette étape de délimitation, la forme d’un des prototypes peut évoluer vers celle de l’autre prototype : chaque point spécifique est conduit selon une ligne droite à partir de sa position sur l’affect neutre à sa position correspondante sur l’émotion pleinement exprimée (processus décrit dans Rowland et Perrett, 1995). Bien que cette interpolation linéaire ne permette pas d’obtenir une représentation exacte de l’expression réelle des expressions faciales (la typologie du modèle doit demeurer invariante ; Garchery, 2004 ; Krumhuber et al., 2012), cette méthode comporte plusieurs avantages. Notamment, ce paradigme permet de mesurer la REF de manière plus fine à l’aide d’intensités d’expressions inférieures et par conséquent, de mettre en évidence des déficits plus subtils (Calder et al., 1996 ; Robin et al., 2011). Jusqu’à présent, le morphisme a été essentiellement utilisé dans le domaine des troubles de la personnalité et commence à être intégré dans les travaux portant sur la psychopathie (Robin et al., 2011). Toutefois, la majorité des études n’emploient pas de séquences d’animations continues (Blair, Colledge, Murray et Mitchell, 2001 ; Blair et al., 2004 ; Lynch et al., 2006 ; Robin et al., 2011), mais plutôt des images intermédiaires créées entre deux prototypes d’image. En d’autres termes, 10 à 20 stades successifs sont créés entre le visage neutre et l’émotion prototypique, chaque stade intermédiaire étant présenté pendant quelques secondes, ce qui équivaut à évaluer des stimuli statiques. Dans quelques cas où des séquences de morphisme continues sont employées (Gagliardi et al., 2003 ; Gordon, 2004), il s’agit d’une interpolation entre deux photographies, ce qui peut détériorer la qualité de l’image obtenue. La clarté et la netteté des images intermédiaires sont moins précises comparativement à l’utilisation de personnages virtuels. La présente recherche emploie des séquences d’animations continues.

Création d’un nouvel ensemble de stimuli affectifs. À l’aide du morphisme, nous avons créé un ensemble de personnages virtuels présentant plusieurs avantages. Les avatars, en plus d’être dynamiques, contiennent une grande variété d’expressions émotionnelles, alors que plusieurs autres ensembles ne tiennent pas compte de la surprise (Beaupré et al., 2000 ; Dadds, Hawes et Merz, 2004 ; Dyck et al., 2008 ; Ebner, Riediger et Linderberger, 2010 ; Gur et al., 2002). Ils sont nombreux (324 animations), en couleurs, variés en termes de diversité ethnique et exprimés à différentes intensités et sous différents angles. De plus, une expression neutre a été incluse pour chaque personnage, un élément qui s’avère utile comme condition de comparaison, particulièrement dans les études d’imagerie cérébrale (Tottenham et al., 2009). Enfin, afin de respecter au mieux l’expression naturelle des émotions, le mouvement se transmet au niveau des muscles faciaux, mais également à travers l’axe de la tête des avatars.

Utilité et applications de la réalité virtuelle. À notre connaissance, il s’agit du premier ensemble d’avatars présentant une telle qualité graphique à être utilisé afin de mesurer la REF. Ces avatars, une fois validés, permettront de constituer des personnages idiosyncrasiques qui seront incorporés à différents scénarios virtuels (Renaud et al., 2010). Ultimement, il s’agit d’employer ces stimuli dans le champ de la criminologie, notamment pour l’étude des comportements violents et du trouble psychopathique. En effet, la réalité virtuelle couvre un large champ d’applications, dans le domaine de la recherche émotionnelle, mais aussi dans un contexte de santé mentale (Dyck et al., 2008). Par exemple, des avatars sont déjà employés, en recherche et en clinique, auprès de patients schizophrènes (Dumais, Potvin, Renaud et Joyal, 2015) ou encore de délinquants sexuels (Renaud et al., 2011). L’utilisation de personnages virtuels plutôt que de photographies offre plusieurs avantages, notamment la manipulation des stimuli (âge, origine ethnique, sexe) en fonction des besoins du chercheur (Dyck et al., 2008 ; Krumhuber et al., 2012). En plus de fournir d’innombrables possibilités de personnalisation, cette méthode permet de contrôler l’influence de variables telles que l’attirance éprouvée face à des personnes réelles, ainsi que de manipuler l’expression faciale présentée, son intensité tout comme sa durée (Blascovich et al., 2002 ; Krumhuber et Kappas, 2005). Les environnements d’immersion virtuelle constituent une innovation majeure en facilitant à la fois le contrôle expérimental et le réalisme, deux facettes traditionnellement difficiles à conjuguer (Dyck et al., 2008). Tout en permettant au chercheur un contrôle quasi parfait de l’environnement expérimental et des actions, la réplication devient également plus aisée (Blascovich et al., 2002).

Objectif de la recherche

Les travaux sur la reconnaissance des émotions se heurtent à différents problèmes méthodologiques se rapportant principalement aux stimuli utilisés. Plusieurs auteurs recommandent d’adopter une approche plus écologique en favorisant l’utilisation de stimuli dynamiques. Les objectifs de la recherche sont multiples : 1) améliorer la validité écologique des travaux sur la REF ; 2) valider un nouvel ensemble de stimuli affectifs composé d’avatars dynamiques ; 3) comparer les stimuli virtuels aux stimuli du POFA. Dans l’étude 1, avant de constituer des animations, il s’agit de procéder à la validation des personnages sous forme de photographies et de les comparer aux stimuli du POFA. Dans l’étude 2, la REF est étudiée à l’aide des personnages dynamiques en fonction de 1) la catégorie d’émotion ; 2) l’intensité d’expression ; et 3) la prise de vue. Bien que la question de l’effet de l’origine ethnique sur la reconnaissance des émotions soit intéressante, elle sera abordée dans un article ultérieur.

Étude 1

Méthodologie

Participants

Le recrutement des participants a été effectué dans les cours de premier cycle de l’Université de Montréal au cours de l’été et de l’automne 2012. Les groupes variaient d’une trentaine à une centaine de personnes. L’échantillon était constitué de 150 étudiants âgés de 18 à 36 ans (M = 20,84, É-t = 2,38). Plus des trois quarts des individus étaient caucasiens (85,8 %). Les Afro-Américains et les Latino-Américains représentaient respectivement 2,1 % et 2,8 % de l’échantillon tandis que la catégorie « Autres » (origine indienne, arabe, asiatique, etc.) comptait 9,2 % des individus. La majorité des participants étaient de sexe féminin (74 %).

Stimuli

Création des stimuli virtuels. À partir des Pictures of Facial Affect d’Ekman et Friesen (1976) et du Facial Action Coding System (Ekman, Friesen et Hager, 2002), un artiste multimédia spécialisé en traitement des visages a créé des personnages virtuels à l’aide de BehaVR Solutions. Leurs visages ont été modelés afin d’y appliquer les six émotions fondamentales (joie, tristesse, colère, dégoût, surprise, peur) à pleine intensité. La technique graphique du morphisme a par la suite été employée pour l’obtention des images intermédiaires à 60 % (processus décrit dans Rowland et Perrett, 1995). Au final, ont été créées 104 images en couleurs qui comprenaient huit personnages (quatre hommes et quatre femmes ; quatre Caucasiens et quatre minorités ethniques) exprimant les six émotions ainsi qu’une expression neutre. Les émotions étaient exprimées à deux niveaux d’intensité (60 % et 100 %). Le choix de créer des images à une intensité inférieure s’explique par la possibilité de mettre en évidence des déficits de reconnaissance plus subtils et ainsi accroître la validité écologique (voir aussi Gur et al., 2002 ; Hastings, 2005 ; Krumhuber et al., 2012). En aucun moment le matériel n’a été rendu public, mis à part dans le cadre des deux tests.

Stimuli employés. Afin d’éviter que le test ne soit trop long, la première tâche était constituée de 48 photographies des Pictures of Facial Affect et de 84 stimuli virtuels. Huit expressions du POFA et quatorze expressions virtuelles étaient présentées pour chacune des six émotions, de manière aléatoire. L’ordre de présentation des stimuli était le même pour tous les participants[2]. Parmi les expressions virtuelles, pour chacune des émotions on comptait sept stimuli à 60 % ainsi que sept stimuli à 100 %. Après un examen préliminaire, un modèle caucasien féminin a été mis de côté en raison du fait que son maquillage et sa coiffure rendaient les expressions émotionnelles plus difficilement reconnaissables. Nous avons donc employé sept modèles différents (4H ; 3F) de quatre origines ethniques (trois Caucasiens (2H ; 1F), deux Afro-Américains (1H ; 1F), une Latino-Américaine et un Asiatique). Chaque expression était vue de face (se référer à la figure 1 pour des exemples).

Figure 1

Exemples de chaque émotion à l’aide des différents personnages de l’ensemble de stimuli virtuels

Joie 60 %

Tristesse 60 %

Colère 60 %

Dégoût 100 %

Surprise 100 %

Peur 100 %

-> Voir la liste des figures

Procédure

La tâche était visionnée dans une présentation PowerPoint projetée sur une grande toile à l’avant de la salle de cours à l’aide d’un projecteur[3]. Les consignes ont été lues à voix haute à l’ensemble du groupe et étaient inscrites sur une diapositive au début de la présentation afin de s’assurer de la standardisation de la procédure. Après avoir reçu les consignes, les participants ont effectué un exercice en compagnie de l’expérimentateur. Ils ont ensuite accompli la tâche sans assistance dans la salle de classe. Chacun des 132 stimuli était présenté pendant un laps de dix secondes avant de passer au prochain stimulus. Durant ces dix secondes, les participants devaient indiquer leurs réponses sur les feuilles distribuées à cet effet. Pour chaque stimulus, ils devaient : 1) déterminer laquelle des six émotions fondamentales était exprimée par le visage en choisissant parmi les six choix qui leur étaient offerts ; 2) évaluer le degré de difficulté de la tâche sur une échelle de 1 (très difficile) à 7 (très facile) et 3) déterminer l’intensité d’expression pour chacune des six émotions sur une échelle de 1 (pas du tout) à 7 (très intensément).

Analyses statistiques

Une analyse de variance à mesures répétées à deux facteurs ayant un plan factoriel 6 × 2 a été réalisée, celle-ci permettant de mesurer les mêmes participants dans toutes les conditions de l’étude. Ainsi, deux variables indépendantes ont été manipulées dans le test, à savoir la catégorie d’émotion, qui comprenait six niveaux (joie, tristesse, colère, dégoût, surprise et peur) et l’intensité d’expression, qui en comptait deux (60 % et 100 %). La variable dépendante correspondait au score obtenu à la tâche de reconnaissance. Chaque sujet a été exposé à tous les niveaux des deux variables catégorielles, permettant d’obtenir un score pour chacune des douze conditions, le maximum possible étant de sept. Dans les cas où le test de Mauchly indiquait que l’hypothèse de sphéricité n’était pas respectée, les degrés de liberté ont été ajustés à l’aide des estimations de sphéricité de Greenhouse-Geisser ou de Huynh-Feldt. Le seuil alpha de p <0,05 a été employé.

Résultats

Habileté à reconnaître les émotions

Les scores obtenus au POFA s’échelonnent de 17 à 46 (M = 36,35, É-t = 4,20) sur un score possible de 48, tandis que les scores pour les stimuli virtuels varient de 25 à 72 (M = 56,35, É-t = 7,40), le maximum possible étant de 84. Pour chacun des 132 stimuli, a d’abord été calculé le taux de réussite des participants, ce qui représente la proportion de participants qui ont correctement identifié l’émotion exprimée. Par souci de concision, sont présentés dans le tableau 1 les taux de réussite combinés pour chaque catégorie d’émotion en distinguant les différents types de stimuli.

Tableau 1

Taux de réussite en fonction du type de stimuli et de la catégorie d’émotion

Taux de réussite en fonction du type de stimuli et de la catégorie d’émotion

-> Voir la liste des tableaux

Identification des stimuli virtuels. Pour l’ensemble des stimuli virtuels, toutes intensités confondues, la proportion d’identifications correctes est de 70,5 %. La surprise (88,4 %) est l’émotion la mieux reconnue, suivie de près par la joie (87,1 %), tandis que les expressions de peur (39,9 %) sont les moins bien identifiées par les participants. Afin d’étudier plus en profondeur l’influence de la catégorie d’émotion et de l’intensité d’expression sur la performance à la tâche, une analyse de variance à mesures répétées à deux facteurs a été réalisée. Les résultats confirment qu’il existe des différences significatives dans les scores moyens obtenus à travers les différentes conditions expérimentales. Le contenu émotionnel (Greenhouse-Geisser F [3,55 ; 528,22] = 209,53, p <0,001, η2 = 0,58), le niveau d’intensité (F [1 ; 149] = 571,24, p <0,001, η2 = 0,79) ainsi que l’interaction entre ces deux paramètres (Huynh-Feldt F [4,69 ; 699,10] = 84,56, p <0,001, η2 = 0,36) ont tous un effet significatif sur la performance. L’analyse des comparaisons multiples révèle que les participants sont significativement moins habiles dans l’identification des expressions de colère (M = 4,34), de dégoût (M = 3,58) et de peur (M = 2,59) (ajustement des comparaisons multiples avec Bonferroni p <0,05). La surprise (M = 5,97), la joie (M = 5,91) et la tristesse (M = 5,79) sont les émotions les plus facilement reconnues, bien que les scores obtenus pour celles-ci ne se distinguent pas significativement les uns des autres. Les expressions prototypiques (M = 5,25) sont significativement mieux identifiées que les émotions exprimées à 60 % (M = 4,14) (ajustement des comparaisons multiples avec Bonferroni p <0,05). En plus de ces constats, en tenant compte des effets d’interaction, il semble que le profil des scores moyens obtenus pour les stimuli de différentes intensités soit distinct selon la catégorie d’émotion. Dans le cas des émotions les mieux identifiées, c’est-à-dire la surprise, la joie et la tristesse, les données indiquent que les scores obtenus demeurent essentiellement les mêmes, indépendamment de l’intensité d’expression. Les participants obtiennent des scores moyens élevés, même lorsque ces émotions sont exprimées de manière plus subtile. L’intensité semble également avoir peu d’influence sur la performance pour les expressions de peur, qui demeure faible, même lorsque celles-ci sont pleinement exprimées (60 % : M = 2,41 ; 100 % : M = 2,76). De manière distincte, la reconnaissance de la colère (60 % : M = 3,09 ; 100 % : M = 5,59) et du dégoût (60 % : M = 2,48 ; 100 % : M = 4,68) apparaît être fortement influencée par le niveau d’intensité ; les participants sont nettement meilleurs dans l’identification de ces émotions lorsqu’elles sont exprimées à 100 %.

Comparaisons entre les stimuli virtuels exprimés à 100 % et le POFA. Des tests T à mesures répétées ont ensuite été réalisés entre les scores obtenus aux stimuli du POFA et aux stimuli virtuels pleinement exprimés. Rappelons que les stimuli du POFA sont constitués d’émotions exprimées à pleine intensité, d’où la nécessité de les comparer uniquement aux stimuli virtuels à 100 %. Les données indiquent que les participants obtiennent des taux de réussite similaires pour les deux types de stimuli t (149) = 0,97, p = 0,33, η2 = 0,01. Toutefois, les taux moyens sont significativement différents pour les émotions de joie t (149) = 8,96, p <0,001, η2 = 0,35, de tristesse t (149) = -11,34, p <0,001, η2 = 0,46 et de peur t (149) = 7,94, p <0,001, η2 = 0,30. La proportion moyenne de participants qui obtiennent la bonne réponse pour les émotions de joie et de peur est plus élevée au POFA. Inversement, le taux de réussite moyen pour les expressions de tristesse est plus faible au POFA comparativement aux stimuli virtuels.

Matrice de confusion

Afin d’examiner les émotions qui sont le plus souvent confondues entre elles, deux matrices de confusion, qui servent à comptabiliser la distribution des réponses des participants pour chaque émotion, ont été générées. On notera toutefois que la matrice dédiée aux stimuli virtuels regroupe deux intensités d’expressions (60 % et 100 %). Il est donc attendu que certaines confusions soient plus grandes, en raison de la plus grande difficulté à reconnaître des émotions exprimées de manière plus subtile. Pour les deux types de stimuli, l’erreur la plus fréquente est de confondre la peur et la surprise, bien que la confusion soit plus élevée dans le cas des expressions virtuelles. Le dégoût est le plus souvent incorrectement identifié comme de la colère, cette confusion étant plus marquée pour le POFA (voir les Tableaux 2 et 3).

Tableau 2

Matrice de confusion des stimuli virtuels

Matrice de confusion des stimuli virtuels

-> Voir la liste des tableaux

Tableau 3

Matrice de confusion des stimuli du POFA

Matrice de confusion des stimuli du POFA

-> Voir la liste des tableaux

En somme, les analyses soulèvent un certain problème pour les expressions virtuelles de peur qui sont les moins bien reconnues de la tâche, et ce, même lorsqu’elles sont exprimées à 100 %. Bien que le problème de la confusion entre la peur et la surprise apparaisse également avec le matériel d’Ekman et Friesen, le taux de réussite demeure moins élevé pour les stimuli virtuels à 100 %. Ces constats ont été considérés pour la réalisation de l’étude 2 et seront détaillés dans la discussion.

Étude 2

Méthodologie

Participants

L’échantillon était composé de 134 étudiants de premier cycle de l’Université de Montréal (Âge : M = 25,52, É-t = 6,36), majoritairement de sexe féminin (69,5 %) et caucasiens (77 %). On comptait également des participants afro-américains (12 %), latino-américains (2,6 %) ainsi que d’origine arabe et asiatique (7,7 %). Les groupes de participants variaient de 30 à 100 personnes.

Stimuli

Comme les données obtenues dans le cadre du premier test semblaient indiquer une confusion importante entre les expressions virtuelles de peur et de surprise, des corrections ont été apportées aux avatars pour l’étape d’animation (se référer à la Figure 2 pour un exemple). Ce faisant, 324 animations de 2,5 secondes ont été constituées. Chaque animation présentait une expression faciale évoluant de manière continue de 0 % à 40 %, 60 % ou 100 %. Compte tenu du fait que les personnages pourront être utilisés dans un contexte d’immersion virtuelle, les expressions émotionnelles faciales ont été présentées sous différentes prises de vue (face, 45 degrés et profil). Dans les environnements d’immersion virtuelle, les personnages sont appelés à bouger de sorte qu’ils ne sont pas constamment visibles de face. L’expression des émotions faciales se doit donc d’être conçue de manière à être correctement identifiée selon différentes prises de vue, d’où la nécessité d’étudier l’habileté à identifier les émotions en tenant compte de ce paramètre (Courgeon, Clavel, Tan et Martin, 2011). Différents auteurs ont employé des prises de vue similaires (Courgeon et al., 2011 ; Langner et al., 2010 ; Lundqvist et al., 1998 ; Van Der Schalk et al., 2011). Le mouvement se transmettait au niveau des muscles faciaux, mais également à travers l’axe de la tête des avatars. Les stimuli comprenaient six personnages ayant été testés dans l’étude pilote (3H ; 3F), de différentes origines ethniques (trois Caucasiens [2H ; 1F)] deux Afro-Américains [1H ; 1F] et une Latino-Américaine). Afin d’obtenir un même nombre d’hommes et de femmes, nous avons mis de côté le personnage asiatique dont l’origine ethnique était plus difficilement discernable. Cette décision était également fondée sur le fait que, selon les données de l’étude 1, il s’agissait du personnage le plus problématique pour l’expression de la peur (données non présentées). Au total, l’ensemble comptait 54 stimuli pour chacune des six émotions. La tâche était constituée de 60 animations, 10 pour chacune des six émotions, présentées de manière aléatoire. On comptait 20 stimuli pour chaque intensité et prise de vue. L’ordre de présentation des stimuli était le même pour tous les participants.

Figure 2

Comparaison des expressions de peur avant et après corrections

Peur initiale

Peur du POFA

Peur après corrections

-> Voir la liste des figures

Procédure

La procédure était similaire à celle utilisée dans le cadre du premier test. Le test débutait par une diapositive d’avertissement indiquant que le premier avatar serait présenté cinq secondes plus tard. Chacun des 60 stimuli était suivi d’un intervalle de dix secondes dans lequel les participants devaient remplir les feuilles de réponses. Un son de cloche les avertissait trois secondes avant la présentation de l’animation suivante. Pour chaque stimulus, les participants devaient : 1) déterminer laquelle des émotions fondamentales était exprimée par le visage en choisissant parmi les six choix qui leur étaient offerts et 2) évaluer le degré de difficulté de la tâche sur une échelle de 1 (très difficile) à 7 (très facile).

Analyses statistiques

En raison de certaines limites liées à notre protocole de recherche[4], trois analyses de variance à mesures répétées à un facteur ont été réalisées afin d’étudier l’influence de différents paramètres sur la performance à la tâche de reconnaissance. Pour étudier l’influence de la catégorie d’émotion, l’ANOVA comprenait six niveaux (joie, tristesse, colère, dégoût, surprise et peur), tandis que pour les paramètres d’intensité d’expression et de prise de vue, l’analyse en comptait trois (40 %, 60 % et 100 % ; face, 45 degrés et profil). Dans les cas où le test de Mauchly indiquait que l’hypothèse de sphéricité n’était pas respectée, les degrés de liberté ont été ajustés à l’aide des estimations de sphéricité de Greenhouse-Geisser ou de Huynh-Feldt.

Résultats

Habileté à reconnaître les émotions

Les scores obtenus à la tâche s’échelonnent de 19 à 49 (M = 38,05, É-t = 5,68) sur un maximum possible de 60. Les taux de réussite des participants, pour chaque catégorie d’émotion, en distinguant les niveaux d’intensité et les différentes prises de vue, sont présentés aux Tableaux 4 et 5. Le taux de réussite pour l’ensemble des stimuli est de 64,6 %, les émotions les mieux reconnues étant la surprise et la joie, tandis que la peur et la colère sont les expressions les moins bien identifiées. Comparativement au POFA, ces taux incluent cependant des stimuli exprimés à des intensités plus faibles (40 % et 60 %) et présentés sous différents angles (45 degrés et profil), des paramètres qui devraient augmenter la difficulté de la tâche. En se centrant uniquement sur les stimuli pleinement exprimés comparables aux stimuli d’Ekman et Friesen (1976), le taux de réussite obtenu est de 78,6 %. Les résultats des analyses de variance à mesures répétées indiquent que le contenu émotionnel a un effet significatif sur la performance (Huynh-Feldt F [4,77 ; 634,75] = 82,44, p <0,001, η2 = 0,38) : les scores moyens obtenus par les participants sont significativement moins bons pour le dégoût (M = 6,10), la peur (M = 4,82) et la colère (M = 4,71) (ajustement des comparaisons multiples avec Bonferroni, p <0,05). L’habileté des participants à reconnaître les émotions est également plus faible à mesure que le niveau d’intensité diminue F (2 ; 266) = 260,24, p <0,001, η2 = 0,66 et que le visage est détourné F (2 ; 266) = 248,94, p <0,001, η2 = 0,65.

Tableau 4

Taux de réussite en fonction de l’intensité d’expression et de la catégorie d’émotion

Taux de réussite en fonction de l’intensité d’expression et de la catégorie d’émotion

-> Voir la liste des tableaux

Tableau 5

Taux de réussite en fonction de la prise de vue et de la catégorie d’émotion

Taux de réussite en fonction de la prise de vue et de la catégorie d’émotion

-> Voir la liste des tableaux

Matrice de confusion

Pour finir, les données des matrices ne semblent pas indiquer de confusion majeure dans la reconnaissance des expressions émotionnelles dynamiques. Comme indiqué au Tableau 6, les principales causes d’erreurs sont de prendre le dégoût pour de la colère (24,1 %) et la peur pour de la surprise (33,3 %). En considérant uniquement les stimuli exprimés à 100 % (voir le Tableau 7), ces confusions diminuent respectivement à 19,6 % et 13,8 %. On constate à cet effet une nette amélioration quant à la reconnaissance des expressions virtuelles de peur, le taux de confusion étant dorénavant meilleur à celui rapporté pour le POFA.

Tableau 6

Matrice de confusion des stimuli virtuels animés

Matrice de confusion des stimuli virtuels animés

-> Voir la liste des tableaux

Tableau 7

Matrice de confusion des stimuli virtuels animés exprimés à 100 %

Matrice de confusion des stimuli virtuels animés exprimés à 100 %

-> Voir la liste des tableaux

Interprétation des résultats

L’objectif de cette étude était de valider de manière préliminaire un nouvel ensemble de stimuli affectifs composé de personnages virtuels dynamiques, en plus d’effectuer une comparaison avec les stimuli du POFA. Cette démarche s’inscrit dans la perspective d’accroître la validité écologique des travaux sur la REF. Les résultats constituent un premier support empirique à la validité de l’ensemble de stimuli virtuels.

Conformément aux études qui ont démontré que les expressions émotionnelles exprimées par des personnages virtuels sont reconnues de manière similaire aux expressions de personnes réelles (Dyck et al., 2008 ; Joyal, Jacob, Cigna, Guay et Renaud, 2014), les données des deux tests semblent indiquer que les stimuli virtuels sont correctement identifiés par les participants. Les taux de réussite obtenus dans les deux études pour les expressions à 100 % (78 % et 79 % respectivement) sont comparables ou supérieurs aux données obtenues avec le POFA et dans d’autres études de validation (Beaupré et Hess, 2005 ; Biehl et al., 1997 ; Dyck et al., 2008 ; Goeleven et al., 2008 ; Gur et al., 2002 ; Krumhuber et al., 2012 ; Langner et al., 2010 ; Tottenham et al., 2009 ; Van Der Schalk et al., 2011). La variation dans l’habileté à reconnaître les émotions – la surprise et la joie étant les plus faciles à reconnaître et la peur figurant parmi les émotions les plus difficiles – est constante avec les effets rapportés dans la littérature scientifique (Beaupré et Hess, 2005 ; Biehl et al., 1997 ; Goeleven et al., 2008 ; Gur et al., 2002 ; Tottenham et al., 2009).

L’habileté à reconnaître les émotions serait influencée par l’expérience dans la vie quotidienne et l’occurrence à laquelle nous devons formuler des jugements relativement à certaines émotions (Biehl et al., 1997 ; Goeleven et al., 2008). Au quotidien, les individus seraient davantage confrontés à des expressions de joie ou de tristesse qu’à des expressions de peur, ce qui faciliterait leur identification. De plus, il semble que les expressions émotionnelles diffèrent dans la complexité des muscles faciaux impliqués. Dans cette perspective, la joie et la tristesse seraient des émotions plutôt simples comparativement à la peur, qui implique une combinaison de muscles plus complexe (Barbeau et al., 2009 ; Biehl et al., 1997 ; Goeleven et al., 2008). Enfin, il pourrait y avoir un certain chevauchement entre différentes catégories émotionnelles, la peur comportant un certain élément de surprise (Biehl et al., 1997). Cette confusion entre la peur et la surprise est d’ailleurs observée avec les stimuli du POFA et a été constatée dans de nombreuses études (Elfenbein, Beaupré, Lévesque et Hess, 2007 ; Goeleven et al., 2008 ; Mazurski et Bond, 1993 ; Tottenham et al., 2009).

Bien que cette tendance à confondre la peur et la surprise semble être chose commune, dans le cadre de l’étude 1, les expressions virtuelles de peur paraissaient toutefois poser problème. Cela s’expliquerait par la mise en forme initiale des personnages. D’une part, il apparaissait nécessaire de retravailler la région des yeux, qui est cruciale dans la transmission des émotions, et plus particulièrement de la peur, afin qu’elle permette de mieux la distinguer de la surprise (Adolphs et al., 2005 ; Barbeau et al., 2009 ; Dadds et al., 2006). Des modifications ont été apportées principalement au froncement des sourcils, aux plis du front et à la forme de la bouche. D’autre part, nous avons constaté qu’un certain mouvement de recul de la tête, d’ailleurs présent dans les photographies du POFA, serait associé à la peur. Ce mouvement serait porteur d’informations nécessaires dans la reconnaissance des émotions. C’est notamment cette variation qui permet de voir le blanc de l’oeil au-dessus de l’iris dans l’expression de la peur. À la suite de ces constats, pour l’étape d’animation, les correctifs nécessaires ont donc été apportés à la région des yeux et à l’axe de la tête des avatars. Ce faisant, la confusion entre les expressions de peur et de surprise s’est considérablement atténuée dans l’étude 2 et, lorsque la peur était exprimée à pleine intensité, le taux de réussite était supérieur aux données du POFA.

En somme, l’étude a permis d’introduire un nouvel ensemble de stimuli affectifs constitué de personnages virtuels. À notre connaissance, aucun des ensembles de stimuli actuels n’offre la combinaison complète de caractéristiques offertes par nos stimuli virtuels. Ils sont nombreux et diversifiés sur d’importants paramètres : l’expression faciale, l’intensité d’expression, l’angle de vue et l’origine ethnique. Les avatars, en plus d’être dynamiques, peuvent être modifiés et personnalisés afin de répondre aux besoins spécifiques des études, contrairement aux ensembles constitués de photographies d’expressions faciales. Les personnages virtuels pourront être utilisés en réalité virtuelle, celle-ci permettant la simulation de la réalité, le contrôle précis des stimuli et l’augmentation sensible de la validité écologique. L’usage de cet ensemble de stimuli virtuels offre non seulement un apport significatif en vue d’étudier la reconnaissance des émotions, mais s’insère également dans une démarche – la réalité virtuelle – qui nous semble des plus prometteuses dans l’étude des comportements criminels et violents notamment.

Conclusion

Certaines limites de l’étude méritent toutefois d’être soulevées. D’abord, nous avons choisi d’offrir un questionnaire à choix fermés plutôt que de privilégier des réponses ouvertes. Dans le cadre du test, les participants ne pouvaient choisir qu’entre les six émotions fondamentales sans autre possibilité, ce qui a pu conduire à certaines tendances dans les réponses (Russell, 1994 ; Tottenham et al., 2009). Notre décision était toutefois fondée sur l’hypothèse de l’universalité des émotions fondamentales et nous voulions que l’attention des participants soit portée sur ces six émotions, cette option ayant été également privilégiée dans de nombreuses études (Biehl et al., 1997 ; Frigerio, Burt, Montagne, Murray et Perrett, 2002 ; Gagliardi et al., 2003 ; Hall et al., 2004 ; Krumhuber et al., 2012 ; Langner et al., 2010 ; Russell, 1994 ; Sprengelmeyer et al., 1996).

Quant à la composition de l’échantillon, les participants étaient en grande majorité de sexe féminin. Il a été suggéré que les femmes seraient plus habiles dans la reconnaissance des émotions que les hommes (McClure, 2000 ; Thayer et Johnsen, 2000), ce qui a pu influencer les taux de réussite obtenus. Notons toutefois que d’autres études de validation comprenaient également des échantillons composés majoritairement d’étudiantes (Goeleven et al., 2008 ; Krumhuber et al., 2012 ; Langner et al., 2010 ; Lynch et al., 2006) et que plusieurs recherches récentes n’ont pas observé de différence dans l’habileté à reconnaître les émotions en fonction du sexe des répondants (Calvo et Lundqvist, 2008 ; Joyal et al., 2014). Finalement, nous n’avons pas inclus d’analyse sous forme de test-retest, ce qui aurait permis de s’assurer de la fidélité des réponses des participants. Le design de la deuxième tâche a également rendu impossible la réalisation d’une analyse de variance à mesures répétées à trois facteurs, qui aurait été plus robuste et aurait permis de tenir compte de potentiels effets d’interactions entre les différents paramètres à l’étude.

En raison de ces différentes limites, la présente étude, bien que présentant des résultats prometteurs, nécessite des validations additionnelles. En ce sens, notons que la recherche de Joyal et ses collaborateurs (2014) a permis de comparer les stimuli virtuels dynamiques à des animations élaborées à partir des stimuli du POFA. Les données ont révélé que les deux types de stimuli étaient reconnus de manière similaire en plus de susciter une activation similaire des muscles faciaux ainsi que des temps de fixation oculaires comparables. Aucune différence significative n’a été observée entre les hommes et les femmes dans la reconnaissance des émotions. Cette étude et la nôtre fournissent ainsi des résultats encourageants qui témoignent de la validité des stimuli virtuels.