Qu’est-ce que le son diégétique dans le jeu vidéo ? Une introduction à la perspective vidéoludique et au problème de la catégorisation

Séguin, Nicholas

doi:https://doi.org/10.7202/1110922ar

L’influence des conventions musicales cinématographiques sur le jeu vidéo peut être ressentie sur plusieurs fronts. Par exemple, Zach Whalen (2004) note l’emploi de techniques dérivées de l’animation telles que le mickey mousing — la synchronisation des mouvements d’un objet visuel et de motifs musicaux — ainsi que de particularités stylistiques provenant du genre de l’horreur dans une variété de jeux vidéo. Il est aussi possible d’entendre, dans les jeux vidéo modernes, de la musique orchestrale qui rappelle le processus d’underscoring au cinéma (Grimshaw, Tan, et Lipscomb 2013). En effet, en raison des similitudes entre ces deux médias audiovisuels, il n’est peut-être pas surprenant de constater l’emprunt d’une terminologie originaire de la théorie du cinéma chez les théoricien·nes du jeu. Le médium du jeu vidéo, néanmoins, se démarque à plusieurs égards. Larissa Hjorth (2011) identifie notamment l’interactivité et la simulation comme étant les deux propriétés fondamentales qui distinguent le jeu vidéo des autres médias. Ces caractéristiques influencent plusieurs étapes de la création et de l’implémentation de la bande sonore, puisqu’il est nécessaire de réinterpréter les traditions stylistiques cinématographiques afin de tenir compte de l’influence du·de la joueur·euse sur le jeu (Summers 2016). De ce fait, certaines nuances du domaine vidéoludique échappent aux modèles analytiques en provenance de la théorie du cinéma.

La ludomusicologie est une récente sous-discipline académique qui se spécialise dans l’étude de la musique et de l’audio au sein de contextes ludiques, dont le jeu vidéo. En 2021, dans un article paru dans le Journal of Sound and Music in Games, Juan Pablo Fernández-Cortés et Karen Cook identifient certaines des avenues principales de recherche ayant alors cours dans la discipline. Parmi celles-ci, on retrouve le développement d’outils conceptuels ayant pour but d’analyser la relation entre les éléments visuels et sonores du jeu vidéo. Plus précisément, les auteur·rices soulignent les difficultés rencontrées par le passé lors de l’application de la dichotomie du son diégétique/extradiégétique au médium du jeu vidéo, et partagent certaines avancées faites à ce sujet.

Le présent article a pour but de présenter l’historique de cette problématique, avec un accent particulier sur les théories concernant l’emplacement de la musique et la notion de diégèse. D’abord, je procéderai à une brève description de l’origine du terme diégèse, de sa signification, et de son application sur le plan sonore en théorie du cinéma et en théorie du jeu vidéo. Je me pencherai par la suite sur les diverses approches employées afin d’adapter le concept de la diégèse au médium du jeu vidéo. Enfin, le texte se conclut sur une courte réflexion quant à l’état actuel de la recherche sur ce sujet.

Origine du terme

Nous pouvons tracer les origines du concept de la diégèse à la Grèce antique, plus précisément dans les écrits de Platon où ce dernier distingue deux types de récits. Diégésis est définie comme étant le récit pur, où le narrateur ne parle que pour lui-même. Platon y oppose le concept de la mimèsis, qui elle fait référence à la représentation dramatique des propos d’autrui par imitation (Genette 1983). Le terme diégésis prend un nouveau sens lorsqu’il réapparaît en 1953 et est réinterprété par Étienne Soreau, avec l’orthographe diégèse, et assume la définition de « tout ce qui appartient […] à l’histoire racontée, au monde supposé ou proposé par la fiction du film » (Souriau 1953, 7). Le qualitatif diégétique se répand dans les décennies qui suivent, en partie grâce aux écrits de Gérard Genette sur la narratologie, et s’inscrit dans la terminologie de la théorie de la littérature et des études du cinéma (Boillat 2009). La diégèse acquiert ainsi son sens moderne, soit « l’univers fictif d’un récit » (Bordwell 1985, 16). Par conséquent, dans les médias audiovisuels, le son diégétique se veut tout son dont la source est située dans l’univers mis en place dans le médium. En contrepartie, le son extradiégétique[1] provient d’une source extérieure à cet univers (Bordwell, Thompson, et Smith 2020, 285).

En théorie du jeu vidéo

Tout comme le film, le jeu vidéo présente (du moins, la grande majorité du temps) un univers fictionnel au·à la joueur·euse, invitant ainsi l’utilisation du concept de la diégèse :

Les spécialistes du jeu qui utilisent les termes diégétique et extradiégétique afin de décrire le son du jeu vidéo ont tendance à prendre comme point de départ cette nouvelle conception de la diégèse, issue de la théorie du cinéma, et à élargir la définition de « monde fictif du récit » afin d’y inclure l’univers du jeu[2].
Jørgensen 2010, p. 81

L’une des premières utilisations du terme diégétique afin de qualifier le son du jeu vidéo peut être retrouvée dans une présentation donnée à Level Up, Digital Games Research Conference en 2003 par Axel Stockburger, où ce dernier mentionne l’emplacement typique dans la diégèse de divers types de sons. Par exemple, selon l’auteur, la parole est principalement un élément diégétique contribuant au développement du récit du jeu (Stockburger 2003, 4). Dès 2008, Huiberts et Van Tol affirment que les termes diégétique et extradiégétique sont « plus ou moins devenus les termes établis dans le domaine de la ludologie pour décrire cette distinction particulière dans l’environnement des jeux[3] » (Huiberts et Van Tol 2008).

Le développement de modèles vidéoludiques

La terminologie adaptée

Bien qu’à première vue, le concept de la diégèse tel qu’emprunté à la théorie du cinéma semble adéquat afin de décrire l’emplacement du son dans le jeu vidéo, les attributs uniques de ce médium entraînent certaines difficultés au moment de l’application de la dichotomie diégétique/extradiégétique. C’est ce que note Karen Collins en 2008 dans son ouvrage Game Sound: An Introduction to the History, Theory, and Practice of Video Game Music and Sound Design :

L’audio dynamique complique la division traditionnelle diégétique/extradiégétique du son cinématographique. La relation unique qui existe dans les jeux, du fait que le public participe directement au processus de lecture du son à l’écran […] exige un nouveau type de catégorisation de la relation entre son et image. Le son des jeux peut être catégorisé de manière générale comme diégétique ou extradiégétique, mais à l’intérieur de ces catégories générales, il peut être séparé en sons dynamiques ou non dynamiques, puis divisé encore davantage en types d’activité dynamique selon la relation avec la diégèse et le·la joueur·euse[4].
Collins 2008, p. 125

L’autrice propose ainsi l’un des premiers modèles spécifiques au jeu vidéo en ajoutant les sous-catégories non dynamique, adaptatif et interactif afin de qualifier davantage les sons diégétiques et extradiégétiques. Lorsque le·la joueur·euse n’a aucun contrôle sur le déclenchement ou l’interruption d’un son, par exemple dans le cas d’une musique entendue lors d’une scène de transition, ce son est décrit comme étant non dynamique. Les sons adaptatifs, quant à eux, réagissent aux événements du jeu, mais ne peuvent pas être directement contrôlés par le·la joueur·euse. Enfin, les sons interactifs sont ceux qui peuvent être directement déclenchés par le·la joueur·euse à sa guise. Collins souligne également la fluidité de ces sons dans le domaine vidéoludique ; différentes itérations du même son peuvent appartenir à des catégories différentes, et ce tant par rapport à leur niveau de dynamisme, ou à leur emplacement dans la diégèse.

Dans la même année, Huiberts et Van Tol (2008) proposent un modèle à deux dimensions visant à catégoriser l’audio du jeu vidéo. La première dimension différencie les sons diégétiques et extradiégétiques, tandis que la deuxième distingue entre les sons relatifs à l’activité du jeu, et les sons relatifs à l’environnement du jeu. Le modèle, intitulé IEZA, comporte ainsi quatre domaines permettant de décrire et comparer les divers éléments sonores du jeu vidéo : Interface, Effet, Zone, et Affectivité (Figure 1).

Les deux premières catégories concernent les sons diégétiques. La première, Effet, décrit les sons qui sont cognitivement liés à une source spécifique dans la diégèse. Chez l’auditeur·rice, ces sons sont perçus comme étant produits par une source visible ou invisible dans l’univers du jeu. Habituellement, ces sons sont crédibles, dans le sens où ils imitent ceux que l’on entend dans le monde réel ; par exemple, des sons causés par des armes ou des véhicules. La seconde catégorie, Zone, regroupe les sons qui émanent d’une source diégétique et qui sont liés à l’environnement dans lequel le jeu se déroule. On y retrouve les sons souvent qualifiés d’ambiants ou d’arrière-plan, tels que la pluie ou les bruits d’un centre urbain. Contrairement aux sons retrouvés dans la catégorie Effet, ceux-ci ne possèdent pas de source distincte et appartiennent plutôt à une couche sonore générale.

Les catégories Interface et Affectivité contiennent, quant à elles, les sons extradiégétiques. La catégorie Interface comporte les sons dont la source se retrouve en dehors de l’univers fictif du jeu. Ces sons transmettent de l’information concernant les éléments extradiégétiques de l’activité du·de la joueur·euse ou du jeu, tels que la barre de vie ou les menus. Les sons de la catégorie Affectivité ont pour but de représenter le contexte émotionnel, social ou culturel de l’environnement dans lequel le·la joueur·euse se trouve. La musique orchestrale d’un jeu d’aventure et les effets sonores effrayants d’un jeu d’horreur sont deux exemples de sons appartenant à cette catégorie.

Le modèle IEZA présente donc l’avantage de distinguer non seulement la diégétique et l’extradiégétique, mais également les éléments environnementaux et ceux liés à l’activité du·de la joueur·euse, prenant ainsi en considération la relation bidirectionnelle qui existe entre le déclenchement d’un son et les actions du·de la joueur·euse.

Un autre modèle qui élargit le vocabulaire du son diégétique dans le jeu vidéo est celui de Rob Bridgett (2021). En premier lieu, l’auteur propose une nouvelle sous-catégorisation du son diégétique en fonction de la distance perçue entre la source du son et le point d’audition de l’avatar du·de la joueur·euse (Bridgett 2021, 77‑83). La catégorisation de Bridgett prend la forme d’une échelle qualifiant cette distance diégétique entre le son et l’auditeur d’immédiate, de moyenne, d’extrême, ou d’éthérée (Figure 2).

La diégèse immédiate contient les sons qui se retrouvent dans l’environnement immédiat du personnage-joueur. Dans le cas d’objets et de mouvements visibles, leur présence dans l’environnement entraîne une attente chez le·la joueur·euse d’un son synchronisé avec ces éléments. La source du son peut se retrouver hors du champ de vision du·de la joueur·euse ; cependant, lorsque ce·tte dernier·e déplace la caméra vers cette source, une association doit être perçue entre le son et sa source. Il est également possible pour certains sons dans la diégèse immédiate de ne pas avoir de source visible. C’est le cas, par exemple, d’un·e joueur·euse qui entend des cris d’oiseaux lorsque son personnage-joueur se retrouve dans une forêt, bien que ceux-ci ne soient pas représentés visuellement. Il s’agit donc de sons dont l’existence dans la diégèse immédiate est suggérée, et « appartient autant au monde [du jeu] que tout ce qui est représenté à l’écran[5] » (Bridgett 2021, 79).

La distance diégétique moyenne décrit les sons qui n’ont aucune source visible à l’écran, mais dont la qualité sonore suggère une distance plus éloignée entre leur source et le point d’audition du personnage-joueur. Lorsqu’il s’agit de sons reconnus par le·la joueur·euse, ce·tte dernier·e peut utiliser cette information afin de décider s’il·elle désire s’en éloigner ou s’en approcher. Lorsque le personnage-joueur est suffisamment près de la source afin que celle-ci soit chargée par le moteur de jeu et que le·la joueur·euse puisse y associer le son qu’elle produit, ce son passe à la diégèse immédiate.

Encore plus éloignés du point d’audition du personnage-joueur se trouvent les sons de distance diégétique extrême. Il s’agit de sons causés par des événements sonores d’un volume extrêmement élevé, rendant ainsi possible de les détecter à une grande distance, tels qu’un orage. Il n’est pas nécessaire pour ces sons de posséder une source actuelle dans le monde du jeu ; ces derniers font simplement partie de l’univers diégétique et contribuent à créer un environnement cohérent pour le·la joueur·euse. Enfin, les sons de distance diégétique éthérée sont ceux qui possèdent une source perçue dans l’univers diégétique et sont clairement entendus par le personnage-joueur, mais qui proviennent d’une autre époque ou d’un autre lieu. Il s’agit ici typiquement de communications radio ou d’enregistrements audio.

En plus des catégories diégétiques et extradiégétiques, Bridgett propose la notion de musique « interdiégétique » afin de décrire les situations où la position diégétique de certains éléments musicaux est ambiguë (Bridgett 2021, 131‑33). L’auteur avance l’exemple d’éléments sonores qui semblent faire partie de la musique extradiégétique, mais qui possèdent simultanément une localisation apparente dans l’environnement du jeu, entraînant ainsi un sentiment d’incertitude chez le·la joueur·euse :

Ce que nous décrivons ici est une manière d’opposer délibérément certaines des conventions de la musique diégétique et extradiégétique dans le but de créer une tension dans la façon de ressentir ce qui est à l’écran. En déplaçant des éléments « musicaux » dans l’espace tridimensionnel du jeu, cela suggère que la musique a en quelque sorte traversé la membrane diégétique et s’infiltre désormais dans ce lieu physique réel, et que ce qui est à l’origine de cette musique est, d’une manière ou d’une autre, superposé à ce lieu[6].
Bridgett 2021, 132

La pièce musicale « End Times » du jeu Outer Wilds (2019) est un excellent exemple de ce phénomène décrit par Bridgett. Dans Outer Wilds, le·la joueur·euse incarne un extra-terrestre qui explore une galaxie à la recherche de vestiges d’une ancienne civilisation. Après 22 minutes d’exploration, un événement vient perturber le progrès du·de la joueur·euse, soit l’explosion du Soleil, détruisant de ce fait tout ce qui trouve dans le système solaire. Cependant, plutôt que d’être confronté·e à un écran game over, le·la joueur·euse fait face à une courte séquence dépeignant les 22 dernières minutes jouées en accéléré et à rebours. Ensuite, le personnage-joueur se réveille sur sa planète natale, tout comme au début du jeu, mais découvre rapidement qu’il est le seul à savoir ce qui est sur le point de se produire. Ainsi est révélé l’attrait principal du jeu : le personnage-joueur est prisonnier d’une boucle temporelle d’une durée de 22 minutes, condamné à être répétitivement témoin de la destruction de la galaxie, jusqu’à ce que celui-ci trouve une solution.

Vers la 21^e minute de chaque boucle temporelle, le·la joueur·euse peut entendre le morceau « End Times », ce qui lui fournit un indice sonore indiquant que la fin de la boucle approche. Le morceau est joué peu importe l’environnement dans lequel se trouve le personnage-joueur, et il n’est pas possible d’identifier l’origine de ce son à l’intérieur de l’univers fictionnel, suggérant ainsi qu’il s’agit d’un élément sonore extradiégétique, selon la définition traditionnelle. Toutefois, sa qualité sonore se voit modifiée selon l’emplacement du personnage-joueur dans le jeu. Lorsque ce dernier se trouve dans la majorité de la galaxie, le morceau joue dans son état original, tel qu’il peut être entendu sur la bande sonore du jeu. Cependant, si le·la joueur·euse décide d’explorer la planète Sombronces, qui est en fait un amas de ronces enveloppé d’une brume opaque, le morceau devient subitement étouffé, comme si les ondes sonores devaient traverser l’épais brouillard afin d’atteindre les oreilles du personnage-joueur. Cette différence acoustique crée donc, chez le·la joueur·euse l’ayant discernée, une certaine ambiguïté quant à la position diégétique de la pièce musicale.

La frontière diégétique

Le concept de musique interdiégétique illustre un problème soulevé par plusieurs au cours des dernières décennies, soit l’absence d’une frontière rigide entre le domaine diégétique et le domaine extradiégétique dans le cadre du jeu vidéo. Ce phénomène se distingue des sons transdiégétiques, c’est-à-dire lorsqu’un élément sonore passe d’un domaine diégétique à l’autre (p. ex., une chanson qui débute à la radio et est entendue par un personnage, puis transitionne vers la bande sonore extradiégétique). Bien que l’élément sonore traverse la frontière diégétique, cette dernière demeure clairement définie. En revanche, dans le jeu vidéo, l’interaction entre le joueur et le jeu vient remettre en question l’existence de cette frontière :

Les frontières entre les sons diégétiques et extradiégétiques dans le jeu vidéo ne sont pas toujours clairement définies et sont parfois sciemment franchies dans un but fonctionnel. Lors de la projection d’un film, les composantes sonores sont immuables et, par conséquent, sont toujours entendues de la même manière chaque fois que le film est rediffusé. Mais la propriété interactive du jeu vidéo fait en sorte que tous les sons, y compris les sons musicaux, peuvent varier en fonction des décisions et des actions adoptées par le·la joueur·euse, qui devient ainsi un·e cocréateur·rice souvent involontaire de l’environnement sonore du jeu[7].
Fernández-Cortés et Cook 2021, 29

Dans Outer Wilds, le morceau « End Times » fournit un indice sonore au joueur lui indiquant que la fin de la boucle temporelle approche. Lorsque le·la joueur·euse entend « End Times » et se rend compte qu’il ne lui reste approximativement qu’une minute avant de se retrouver au début de la boucle temporelle, il va de soi que ses actions en sont affectées. Sachant qu’il ne lui reste que peu de temps, il est possible que le joueur se dépêche afin de finir d’explorer l’endroit où il se retrouve, ou de lire le document qu’il tient entre ses mains. Si le·la joueur·euse est actuellement en train de voyager d’une planète à l’autre, il est tout à fait raisonnable que celui ou celle-ci cesse de se déplacer et attende patiemment la fin de la boucle, sachant qu’il ne lui reste pas suffisamment de temps afin de poursuivre son exploration. Bref, l’indice temporel fourni par « End Times » a des conséquences directes sur les actions du·de la joueur·euse, et de ce fait, sur les actions du personnage qu’il·elle incarne, d’où le problème : comment est-il possible qu’un élément extradiégétique ait une influence sur le personnage à l’intérieur de la diégèse, qui ne peut pas percevoir cet élément ?

Kristine Jørgensen (2007 ; 2011) offre une solution à cette énigme. Selon elle, le son n’étant ni tangible ni visible et possédant une qualité temporelle, celui-ci a la capacité d’outrepasser les frontières du monde du jeu de manière non intrusive. Jørgensen (2007) propose donc le néologisme de sons « transdiégétiques » (à ne pas confondre avec l’autre définition de sons transdiégétiques mentionnée plus haut) afin de refléter cette propriété. Ce concept se divise en deux catégories : les sons transdiégétiques internes, soit les sons diégétiques qui communiquent à une entité extradiégétique, et les sons transdiégétiques externes, soit les sons extradiégétiques qui, par le biais des actions du·de la joueur·euse, communiquent à une entité à l’intérieur de la diégèse, comme dans le cas d’« End Times ».

Isabella van Elferen (2011) fait écho aux propos de Jørgensen quant aux propriétés du son et ses conséquences sur la définition de la frontière diégétique. Celle-ci avance le concept de sons « semi-diégétiques », qui combinent à la fois des éléments diégétiques et extradiégétiques, comme il est possible d’observer dans le jeu Resident Evil iv (2007) :

Le personnage diégétique de Leon entend l’appel « ¡Un Forastero! » lorsque des zombies approchent, mais pas la musique extradiégétique qui l’accompagne. Les joueur·euses qui contrôlent Leon dans le jeu, cependant, entendent à la fois l’appel et la musique, car leurs oreilles sont situées en dehors de la diégèse du jeu. La situation est donc complexe. Leon est l’avatar, la représentation du·de la joueur·euse à l’intérieur de la diégèse, le personnage qui lui permet de jouer au jeu — mais le·la joueur·euse entend plus que l’avatar, puisque celui-ci peut également entendre les sons extradiégétiques. Et pour compliquer la situation davantage, c’est cette musique extradiégétique qui influence les actions du·de la joueur·euse dans le jeu plutôt que le cri diégétique. La question se répète : qu’est-ce qu’une musique de jeu diégétique ? Il est clair qu’elle ne peut être distinguée de la musique extradiégétique de manière aussi nette que dans un film, compte tenu de son importance pour la navigation et la progression du jeu. […] La musique semidiégétique de Resident Evil démontre comment la musique de jeu estompe les frontières entre les domaines diégétiques[8].
Van Elferen 2011, 35

Ainsi, selon Van Elferen, une portion significative de la musique du jeu vidéo peut être qualifiée de « supra-diégétique », c’est-à-dire qui dépasse les bornes traditionnelles des domaines de la diégèse, se mouvant entre diégétique, semi-diégétique, et extradiégétique. Cela soulève la question : le concept de la diégèse tel qu’emprunté à la théorie de la littérature et à la théorie du cinéma est-il en soi applicable au jeu vidéo ?

Vers une nouvelle terminologie

Dans son ouvrage Gaming: Essays On Algorithmic Culture (2006), Alexander Galloway insiste sur l’importance de considérer le jeu vidéo comme une activité. L’auteur propose ainsi une approche centrée sur l’activité ludique : lorsque le·la joueur·euse effectue une action qui influence l’univers simulé du jeu, celle-ci est diégétique. Les actions qui influencent, quant à elles, un élément hors du monde fictif mais tout de même intégré au jeu (p. ex., les interfaces ou le menu) sont extradiégétiques. De ce fait, bien que l’approche de Galloway réemploie la terminologie de la théorie du cinéma, leur définition se voit modifiée selon le médium.

Mark Grimshaw (2007), dans sa thèse portant sur l’écologie acoustique des jeux de tir, emploie une approche similaire, soit redéfinir le concept de son diégétique lorsque celui-ci est appliqué au médium du jeu vidéo afin d’englober tous les éléments reliés à l’activité du jeu :

Je propose donc que le son diégétique dans le jeu vidéo soit défini comme le son qui émane de l’environnement de jeu, des objets et des personnages et qui est défini par cet environnement, ces objets et ces personnages. Il comprend donc, par exemple, les bruits de pas, les sons ambiants, les coups de feu, les messages radio vocaux […], les indications que d’autres personnages sont entrés dans le jeu ou l’ont quitté et les notifications de la réalisation d’objectifs de jeu importants (tel que la capture d’un drapeau). En d’autres termes, pour qu’un son d’un jeu de tir à la première personne soit diégétique, il doit provenir d’une entité du jeu pendant la partie. Une telle définition sépare conceptuellement la bande sonore musicale des jeux de tir de tous les autres sons du jeu de manière plus satisfaisante que la définition cinématographique du son diégétique[9].
Grimshaw 2007, 224

Ainsi, selon Grimshaw, le son dans l’univers du jeu n’a pas besoin d’avoir une source tangible comme dans le monde réel, il suffit plutôt qu’il soit relié d’une manière ou d’une autre aux activités du jeu. L’auteur précise sa pensée sur cette idée en proposant plusieurs nouvelles sous-catégories permettant de définir plus précisément le son diégétique dans un jeu de tir multijoueur Les sons « idéodiégétiques » sont tous les sons diégétiques qui peuvent être entendus par un·e joueur·euse, peu importe s’ils sont causés par les actions de ce·tte dernier·e ou par une source dans son environnement. Les sons « télédiégétiques » sont des sons idéodiégétiques pour un·e ou plusieurs joueur·euses, mais qui, s’ils ne sont pas entendus par un·e autre joueur·euse, sont télédiégétiques pour ce·tte dernier·e dans l’éventualité où la réaction du·de la joueur·euse ayant entendu le son a des conséquences pour celui ou celle ne l’ayant pas perçu. Les sons télédiégétiques sont spécifiques aux jeux multijoueurs. Dans les jeux solos, tous les sons diégétiques sont considérés idéodiégétiques. Grimshaw catégorise également les sons selon leur mode de production : les sons causés par une action du·de la joueur·euse sont « kinédiégétiques », alors que tous les autres sont « exodiégétiques ».

Selon Jørgensen (2017 ; 2011), la perspective de Galloway et de Grimshaw qui considère le jeu vidéo comme une activité constitue une étape importante vers la conception d’un modèle adapté au jeu vidéo. Toutefois, l’autrice avance que la réutilisation des termes diégétique et extradiégétique pour décrire le son du jeu vidéo dans le modèle de Grimshaw (2007), ainsi que dans son propre modèle antérieur de sons transdiégétiques (Jørgensen 2007) porte à confusion, et justifie l’adoption d’une nouvelle terminologie qui permet de saisir pleinement le caractère unique du son du jeu vidéo sans le banaliser ou le confondre avec des caractéristiques connexes dans d’autres médias.

Jørgensen (2011) avance ainsi l’idée de catégoriser le son du jeu vidéo en fonction de son niveau d’intégration dans le jeu. Pour ce faire, l’autrice propose d’employer la notion de « l’espace de jeu[10] », tirée de Juul (2005), soit « l’espace conceptuel dans lequel le jeu est joué […], indépendamment de tout univers fictif possible utilisé comme contexte » et lequel « comprend tous les éléments pertinents pour le jeu[11] » (Jørgensen 2011, 89). Cette définition de l’espace de jeu englobe donc tous les éléments liés à l’activité du jeu, y compris les sons causés par des systèmes externes (p. ex., un logiciel pour communiquer avec d’autres joueur·euses) qui exercent une influence sur l’expérience de jeu. L’espace de jeu se distingue donc du « monde du jeu[12] », qui lui se réfère à « l’univers contenu ou l’environnement conçu pour le jeu, dans lequel des actions et des événements ont lieu[13] » (Jørgensen 2011, 89).

Encore selon l’autrice, le monde du jeu se démarque des autres mondes fictifs présents dans d’autres médias, ce qui permet au·à la joueur·euse d’accepter la présence de sons irréalistes comme faisant partie de ce monde :

Le fait que les mondes de jeu reposent sur des fondements différents que les mondes fictifs traditionnels est ce qui fait en sorte que le·la joueur·euse accepte des sons stylistiques et abstraits qui intègrent le système de jeu dans le monde de jeu, mais cette propriété fait aussi partie de la raison pour laquelle les mondes de jeu sont acceptés comme des entités qui diffèrent des mondes fictifs traditionnels. Cette discussion met également l’accent sur l’argument selon lequel parler de la diégèse, et donc de sons diégétiques et extradiégétiques, présente des lacunes cruciales qui sont évitées si nous évaluons plutôt les espaces de jeu selon leurs propres termes en soulignant en quoi les mondes de jeu diffèrent des autres mondes fictifs[14].
Jørgensen 2011, 91

Le modèle de Jørgensen (2011) prend donc la forme d’un continuum détaillant le niveau d’intégration d’un élément de l’interface dans le monde du jeu. Dans cette optique, le son du jeu vidéo est considéré comme un élément de l’interface, puisque celui-ci procure de l’information au joueur. La chercheuse identifie cinq points sur ce continuum où se retrouve typiquement le son dans les jeux vidéo modernes.

La première catégorie, l’interface métaphorique, est la seule où les sons se retrouvent dans l’espace de jeu, mais ne sont pas intégrés au monde du jeu. La musique d’arrière-plan se retrouve typiquement dans cette catégorie. Les sons de l’interface du recouvrement correspondent aux sons directement liés au recouvrement du jeu (p. ex., les menus, les cartes, les barres d’action, etc.). Lorsqu’un son est lié à un élément de l’interface qui est, d’une manière ou d’une autre, positionné à l’intérieur du monde du jeu, il s’agit d’un son de l’interface intégrée. Les sons de l’interface accentuée, quant à eux, semblent provenir d’une source dans le monde du jeu, mais sont en fait générés par le système et ont été stylisés afin de donner l’apparence de provenir de l’univers du jeu. Jørgensen fournit un exemple du jeu World of Warcraft (2004) : lorsqu’un·e joueur·euse cible un personnage non-joueur, ce dernier prononce une phrase en réponse à cette action, même si le·la joueur·euse ne converse pas avec le personnage. Enfin, les sons de l’interface iconique sont complètement intégrés dans le monde du jeu et sont donc connexes à la notion de sons diégétiques provenant de la théorie du cinéma.

Afin de catégoriser le son du jeu vidéo encore plus précisément, Westerberg et Schoenau-Fog (2015) revisitent le modèle IEZA de Huiberts et Van Tol (2008) et proposent d’y combiner le continuum élaboré par Jørgensen (2011), dans un modèle qu’ils intitulent le Flexible Game Audio Model for Categorization (FGAMC). Le continuum remplace donc la dimension diégétique/extradiégétique du modèle IEZA (Figure 3). La ligne pointillée entre l’interface intégrée et l’interface accentuée illustre une distinction présente dans la majorité des jeux, mais reflète également le fait que certains sons dans ces catégories pourraient être utilisés à la fois à des fins environnementales et en réponse à une action du·de la joueur·euse.

Synthèse, réflexion et conclusion

La création d’outils conceptuels ayant pour but d’analyser la relation entre le son et l’image dans le médium du jeu vidéo est une aire de recherche en plein essor. Cet article identifie deux branches importantes de ce champ de recherche ; l’une d’entre elles adapte et élargit la notion de diégèse empruntée à la théorie du cinéma, tandis que l’autre s’éloigne de cette notion en faveur d’une nouvelle terminologie propre au jeu vidéo. Les deux approches présentent des avantages. L’utilisation des termes diégétique et extradiégétique permet, par exemple, une comparaison plus appropriée avec d’autres médias audiovisuels (Jørgensen 2011). D’autre part, l’adoption de nouveaux termes permet de mieux refléter les caractéristiques du médium vidéoludique, et d’éviter la confusion avec des concepts similaires.

Cela étant dit, l’on peut tout de même observer un manque de consensus au sein de ce domaine, ce qui est peut-être attendu compte tenu de sa jeunesse ; après tout, ces discussions ont commencé il y a à peine vingt ans. Nous nous retrouvons ainsi avec une panoplie de modèles et de nomenclatures de plus en plus complexes, qui se chevauchent, s’opposent, et rendent l’analyse du son du jeu vidéo d’autant plus confuse. En outre, l’exercice de catégorisation peut, à l’occasion, révéler des failles dans les modèles avancés jusqu’à présent. Westerberg et Schoenau-Fog (2015) notent, par exemple, des difficultés dans le modèle IEZA original, où un élément sonore pourrait faire partie de plusieurs catégories à la fois. Si nous retournons à l’exemple d’« End Times », nous pouvons constater qu’il s’agit d’un cas assez complexe : la pièce musicale est à la fois « interdiégétique » et « transdiégétique », ce qui complique sa catégorisation dans les divers modèles présentés plus haut. Sa catégorisation dépend également du progrès du·de la joueur·euse ; il s’agit d’un son transdiégétique seulement pour le·la joueur·euse ayant fait la connexion entre l’apparition du morceau et la fin de la boucle temporelle, ce qui n’est pas possible durant la première boucle.

Les enjeux de la catégorisation se voient exacerbés par la vitesse à laquelle croît non seulement l’industrie du jeu vidéo, mais également la technologie qui la soutient. Selon Game Developer, plus de 6000 jeux vidéo ont paru sur la plateforme de distribution Steam dans les six premiers mois de l’année 2022, un rythme qui constitue une moyenne de 34 jeux par jour (Kontus 2022). Dans les dernières années, on peut remarquer, entre autres, une explosion de jeux en réalité virtuelle ; un développement qui, à son tour, se voit la cible de nouvelles taxonomies qui y sont spécifiques (Jain et collab. 2021). Par ailleurs, comme le remarque Karen Collins (2016), les innovations au niveau sonore dans les consoles et dans les jeux vidéo peuvent servir d’arguments de vente, comme fut le cas pour le jeu No Man’s Sky (2016) et sa bande sonore générée de manière procédurale. Le domaine vidéoludique est également extrêmement vaste ; on peut y retrouver une multitude de combinaisons entre genres environnementaux (p. ex., science-fiction ou fantaisie) et genres interactifs (p. ex., jeux de rôle ou jeux de tir), créant ainsi une énorme diversité de jeux et de designs sonores.

En somme, concevoir un modèle prenant en compte toutes les possibilités qu’offre l’audio vidéoludique et qui permet une catégorisation claire semble être une tâche insurmontable ; un constat qui n’échappe pas aux créateurs du modèle FGAMC (Westerberg et Schoenau-Fog 2015). Selon Jørgensen (2017), c’est cette impossibilité qui, en fait, justifie la création de modèles qui permettent à leur tour d’analyser et d’organiser toutes les complexités du son dans ce médium. À mon avis, la question demeure : s’agit-il d’une quête dont le but principal est futile ? Je ne tiens pas à dire que la recherche sur ce sujet a été, jusqu’à présent, infructueuse ; elle a certainement contribué à mettre en évidence les propriétés uniques du médium du jeu vidéo, à accentuer la nécessité de créer des outils adaptés à ce médium, et à permettre à la ludomusicologie de se tailler une place distincte dans le monde de la recherche. Les modèles actuels peuvent également avoir une certaine valeur pédagogique ou servir d’outil aux créateur·rices de jeux vidéo (Huiberts et Van 2008 ; Jørgensen 2017).

Malgré tout, je remets en question cette poursuite de la catégorisation du son dans un médium aussi vaste. Je crois qu’il est raisonnable d’admettre qu’il n’existe pas de modèle idéal à ce jour, et qu’il est difficile d’envisager un modèle qui soit infaillible et fasse l’unanimité (ou presque). Et peut-être est-ce en raison de cette fidélité que semble posséder le domaine de la théorie du jeu vidéo envers le concept de la diégèse tel qu’emprunté à la théorie du cinéma, alors que même dans cette dernière, la notion de diégèse se voit fréquemment manipulée. La théoricienne Claudia Gorbman, par exemple, suggère le terme supplémentaire de son métadiégétique afin de qualifier les sons qui sont entendus ou imaginés par un seul personnage (Gorbman 1976). Michel Chion, quant à lui, propose les divisions « son in », « son hors-champ » et « son off » (Chion 1985 ; 2009 ; 2019). Il est possible, dans ce cas, que l’abandon de la diégèse traditionnelle, comme le font Jørgensen (2011 ; 2017) et Westerberg et Schoenau-Fog (2015), constitue un premier pas vers un modèle qui sera en mesure de saisir pleinement le son dans le jeu vidéo.

Qu’est-ce que le son diégétique dans le jeu vidéo ? Une introduction à la perspective vidéoludique et au problème de la catégorisation

Résumé

Abstract