Module NooJ du français. Traitement automatique de corpus de français parlé régional

Chevalier, Gisèle; Kasparian, Sylvia

doi:https://doi.org/10.7202/1038912ar

Introduction : Traitement automatique de corpus oraux en français régional

Bien qu’il existe maintenant de nombreux outils informatisés pour le traitement automatique de textes (Hyperbase, Lexico, Alceste, Cordial, NooJ, etc.)[1], le développement ou l’adaptation d’outils existants pour faciliter la constitution, l’annotation et la description des corpus reste un enjeu de première importance. Plusieurs de ces logiciels exécutent les concordances et appuient les linguistes dans leurs analyses lexicales qualitatives et quantitatives, leur analyse de contenu ou de statistique lexicale, mais peu d’entre eux traitent du niveau morphosyntaxique et aucun n’est encore conçu pour l’analyse de l’oral, des variétés régionales ou de corpus qui présentent des occurrences de mélange de langues.

Le grand défi de l’analyse informatisée de l’oral reste celui des spécificités de la parole spontanée : difficulté de délimitation de la phrase orale, forte variabilité, syntaxe non canonique, redondance, phrases inachevées, etc. Un autre aspect technique non négligeable qui ralentit l’évolution des outils automatiques de description des corpus oraux est le défi de la normalisation de la transcription des corpus. Il y a un manque d’homogénéité dans la transcription de ces corpus qui, selon le cadre théorique dans lequel ils s’inscrivent, se présentent sous des formes très variées[2].

Nous avons donc relevé le défi d’automatiser la description d’une langue orale régionale, le français acadien et sa variante anglicisée, le chiac, en adaptant le formalisme de NooJ, logiciel de traitement automatique du langage (TAL) développé par Max Silberztein (1993, 2003, 2004).

Tel que décrit par son auteur (www.nooj4nlp.net), NooJ est un environnement de développement linguistique qui permet de formaliser des phénomènes linguistiques aux niveaux orthographique, lexical, morphologique, syntaxique et sémantique, sous forme de grammaires et de dictionnaires. NooJ comprend des outils permettant de créer et de gérer des ressources lexicales importantes, ainsi que des grammaires morphologiques et syntaxiques. Les dictionnaires et grammaires sont appliqués aux textes afin d’identifier les structures morphologiques, lexicales et syntaxiques et de marquer des mots simples et composés[3].

Les outils de NooJ permettent même à des chercheurs peu versés en informatique de produire les ressources linguistiques requises pour l’analyse des états de langue qui les intéressent. Toutefois, il ne sera pas possible dans l’espace qui nous est imparti de rendre compte en détail des travaux accomplis pour la réalisation du module acadien de NooJ. Nous nous limiterons ici à décrire trois outils fondamentaux qui ont été développés pour appuyer nos recherches, soit la structure des entrées du dictionnaire de la langue, qui permet de mettre en relation les variantes de toutes sortes (phonétiques, orthographiques, lexicales), la grammaire flexionnelle qui rend compte des formes morphologiques non standard et, pour finir, les graphes de désambiguïsation. Nous allons d’abord donner un bref aperçu de ce qu’on appelle « les français acadiens » et, ce faisant, des défis que pose le traitement d’un parler spontané, régional, et mixte de surcroît.

1. Le français parlé en Acadie

Le français parlé en Acadie est issu d’un ensemble de parlers issus du français implanté dans l’actuelle région des Provinces maritimes (Canada), il y a plus de 400 ans, par des colons venant majoritairement du Poitou (France).

La variation linguistique entre les parlers des différentes communautés du Nouveau-Brunswick, de la Nouvelle-Écosse et de l’Île-du-Prince-Édouard reste significative malgré les efforts de normalisation de l’instruction publique dans chaque province. Dans la région du Sud-Est du Nouveau-Brunswick s’est développée une variété de langue mixte, appelée le chiac. Fondamentalement, le chiac présente une matrice française auquel se mêlent des emprunts lexicaux à l’anglais, qui ont une couverture plus large que dans les français majoritaires (québécois ou hexagonal, par exemple) de même que des traces d’influence de l’anglais sur les plans phonologique, morphologique et syntaxique. L’importance qualitative et quantitative de l’anglais sur le français acadien se fait sentir à des degrés divers, selon le locuteur et la situation de communication (Kasparian, 2003)[4].

On peut décrire les spécificités relevées dans les corpus de parler acadien que nous avons analysés[5] en les regroupant en trois strates :

La strate des traits d’oralité (applicables à de nombreuses variétés de français oral). Les transcriptions de productions orales visent à reproduire le plus fidèlement possible les paroles énoncées, y inclus les hésitations (// euhm //), les répétitions (tout c’ que/ que t’as vu), les mots omis ((ça-)fait-que), les élisions (qu(i) est en juin) t(u)’as vu; not(r)e)…
La strate des traits régionaux (formes ou usages connaissant une distribution géographique restreinte), qui touche tous les niveaux de la langue : le niveau phono-morphologique, ex. dans rue « dans la rue », icitte « ici »-, awère « avoir »-, cte « ce » (cte point-là); le niveau morphosyntaxique, ex. fait que « ça fait que »-, il est un quart de trois « il est trois heures moins le quart », je voulions touT « je voulais tout »; le niveau lexical, zire « vomir », asteur « maintenant », hardes « vêtements ».
La strate des phénomènes de contact de langue où l’on retrouve à la fois des emprunts lexicaux, exceptionnellement, de toutes les catégories grammaticales : noms, adjectifs, verbes, adverbes, marqueurs discursifs et jurons en anglais et des restructurations (réorganisation de la structure morphosyntaxique française pour accommoder des marques de l’anglais, ce qui donne naissance au chiac proprement dit. Citons les verbes anglais intégrés morphologiquement, comme watcher (regarder), driver (conduire), freakant (dérivé de freak au sens de « épeurant ») ou les verbes anglais à particules, comme alle est tu pissée off?[6]

Les extraits ci-dessous font ressortir le type de phénomènes qu’il nous incombe de décrire pour traiter automatiquement les corpus acadiens et chiac. On y trouve en police italique des particularismes régionaux et en police grasse des emprunts à l’anglais.

CK : 1-9F1[7] : La girlfriend à Roger était dans le carespèrait (attendait) que Roger arrive / I guess qu’a laisse le car runer des quinze vingt minutes
CK : 1-10F1 : As-tu entendu le monde qu’ontcampé / il y a du monde qu’a (est) resté dans leurs cars / i ont dit sur le radio à matin / il y a du monde qu’a resté dans leurs cars toute la souèrée (soirée) avec le motor qui runait / les RCMP checkiont pour ouère (voir) si qu’étiont (étaient) encore en vie
CK : 1-15 F1 : Al (elle) est après de (en train de) turner off le monde / everybody en parle à l’ouvrage (travail)
CK : 1-18 H1 : Oui ben / les jeunes sont impressed / pis tu sais comment c’est que Roger est by the time qu’i sort / j’ai rouvré (rouvert) la porte / je voulais i parler / pis t’arrais (aurais) dû entendele train (entendre le bruit) / j’ai dit “Ton muffler est-tubusté

2. L’élaboration du module acadien de NooJ

Concrètement, la tâche d’élaborer un module acadien peut se résumer à décrire les unités linguistiques que ne reconnait pas NooJ après l’application des ressources linguistiques du français commun, essentiellement, le DELAF.nod[8]. Le développement des ressources lexicales acadiennes s’est fait principalement à partir de quatre corpus, dont trois du Sud-Est, soit les corpus Anna-Malenfant (1994), Chiac Kasparian (1999) et Parkton (1999), un corpus du Nord-Est (Beaulieu, 1996), et un corpus recueilli dans trois régions du Nouveau-Brunswick, le corpus Péronnet-Kasparian (1992). En appliquant les ressources lexicales intégrées à NooJ, la majorité des éléments linguistiques qui constituent nos corpus sont reconnus comme formes françaises[9]. Les formes non reconnues, les ‘UNKNOWNs’, sont mises à part. Elles forment notre matière première.

Dans un premier temps, il s’agissait de dresser l’inventaire des UNKNOWNs sous la forme d’un dictionnaire de vocables (nous l’avons intitulé ACADICO.dic). Il fallait ensuite décrire les particularismes morphologiques dans une grammaire flexionnelle (flexions nominales et verbales, ACADICO.flx). Il restait enfin à générer le dictionnaire des formes fléchies : ACADICO.nod, qui sera appliqué aux corpus, conjointement avec le DELAF.nod. Le système étant incrémentiel, il y a toujours possibilité de bonifier le dictionnaire par l’ajout successif de mots rencontrés dans de nouveaux corpus, à la seule condition que l’on génère une nouvelle version d’ACADICO.nod périodiquement.

La démarche est simple en soi, mais l’entreprise demeure compliquée vu la diversité des faits à décrire et les exigences du traitement que l’on veut faire des données d’analyse. Ayant affaire à la variation linguistique intra et interlangue, il faut être en mesure de mettre en correspondance les variantes acadiennes et anglaises avec les formes du français commun. Rappelons en outre la difficulté que présente l’hétérogénéité des conventions de transcription des formes non normalisées.

Nous nous pencherons ici sur trois solutions apportées par NooJ pour automatiser le traitement de certaines spécificités du corpus acadien[10] :

La configuration des entrées du dictionnaire pour la mise en relation des variantes orthographiques, régionales et anglaises;
La description des flexions nominales et verbales des formes non standard et anglaises et, en dernier lieu;
La désambiguïsation des formes hyper fréquentes ambiguës, comme la graphie a qui représente à la fois la forme populaire a du pronom elle et la forme de l’auxiliaire avoir au présent.

2.1. La configuration des entrées du dictionnaire ACADICO.dic

En plus des informations morphosyntaxiques conventionnelles (catégorie grammaticale et paradigme flexionnel), les entrées du dictionnaire ACADICO.dic sont conçues de façon à fournir des informations quant à la langue d’origine du mot vedette, quand ce n’est pas le français (LG=ac /en) et à la « glose » des mots acadiens et anglais en français courant (FC=xyz).

Le dispositif développé dans NooJ pour le traitement de la variation donne la possibilité de hiérarchiser les éléments de l’entrée en lemme et super lemme, ce qui permet de régler d’un seul coup la question des variantes orthographiques, régionales et anglaises. Par exemple, les différentes orthographes du mot asteur, contraction de « à cette heure »[11] seront reconnues comme des variantes du « super lemme » asteur et mises en relation avec la forme standard.

asteur, asteur, ADV+LG=ac+FC=maintenant
asteure, asteur, ADV+LG=ac+FC=maintenant
astheure, asteur, ADV+LG=ac+FC=maintenant
à cette heure, asteur, ADV+LG=ac+FC=maintenant+UNAMB
à c’t’heure, asteur, ADV+LG=ac+FC=maintenant+UNAMB

Cette forme d’entrée sert à extraire les occurrences du vocable de divers corpus, qui suivent différents protocoles de transcription. En tapant l’expression naturelle <asteur> dans la boite « locate pattern », NooJ générera une table de concordances contenant n’importe quelle variante orthographique du terme dans les corpus auxquels on l’appliquera. NooJ pourra également les repérer, au moyen de la requête <FC=maintenant>.

La structure lemme-super lemme ne s’applique pas uniquement aux mots invariables. En reliant les variantes orthographiques du verbe badrer au lemme <badrer>, NooJ pourra extraire du corpus toutes les variantes morphologiques du verbe pour toutes les variantes orthographiques.

badrer, V+FLX=Aimer+LG=ac+FC=déranger
bâdrer, badrer, V+FLX=Aimer+LG=ac+FC=déranger
bodrer, badrer, V+FLX=Aimer+LG=ac+FC=déranger

Cette même structure permet d’associer les variantes de <cheval> en français courant et en français acadien.

cheval, cheval, N+FLX=Cheval
jeval, cheval, N+FLX=Cheval+LG=ac
joual, cheval, N+FLX=Cheval+LG=ac
Les formules FLX=Aimer et FLX=Cheval dans les entrées sont des indications pertinentes pour la grammaire flexionnelle dont il sera question dans la prochaine section.

2.2. La grammaire flexionnelle

2.2.1. La flexion nominale

La morphologie nominale du français acadien est similaire à celle du français courant, avec, comme seule exception, la tendance à « régulariser » les paradigmes exceptionnels du français courant. La formule FLX=Cheval, intégrée à chaque entrée des variantes de <cheval> dans ACADICO.dic (ci-haut) renvoie à la règle flexionnelle suivante pour les noms se terminant en – al :

Cheval = <E>/m+s + s/m+p+ac + <B1>ux/m+p;

En vertu de cette règle, on ajoute un s à cheval pour former le pluriel acadien, et on remplace le l par –ux pour obtenir le masculin pluriel courant en –aux. Lors de la génération du dictionnaire ACADICO.nod, NooJ appliquera la règle flexionnelle à tous les noms répertoriés qui finissent par –al dans ACADICO.dic., dont jeval et joual. La figure 1 présente les entrées du dictionnaire des formes fléchies pour les variantes du super-lemme <cheval>, incluant donc jeval et joual.

Figure 1

**Variantes de <cheval> dans ACADICO.nod**

De cette façon, la requête de localiser le super lemme <cheval> nous donne alors toutes les variantes graphiques et morphologiques de « cheval » attestées dans les corpus étudiés (Figure 2).

Figure 2

**Concordances du super lemme <cheval>**

2.2.2. La flexion des verbes acadiens

La flexion verbale typique du français acadien est la forme –ont à la 3^e personne du pluriel : ils allont, ils alliont, ils iriont, qu’ils alliont. C’est un vestige du 16^e siècle, mais elle est encore très productive dans les variétés acadiennes les plus conservatrices. Il a suffi d’ajouter une ligne à la description morphologique des verbes (les quelque 94 paradigmes du Bescherelle), spécifiant que la 3^e personne se construit par l’ajout de la variante -ont en plus de la variante –ent à tous les temps grammaticaux, et que la première est marquée du trait (+ac). La règle s’applique même aux verbes empruntés à anglais qui se conjuguent sur le modèle des verbes du premier groupe. La figure 3 présente les formes du verbe minder, générées par la règle flexionnelle FLEX=AIMER, parmi lesquelles se retrouve (ils) mindont (pas) (ils ne s’en formalisent pas), ils mandiont pas, ils manderiont pas…

Un autre phénomène rencontré est la production de flexions verbales non standard attribuables, comme pour les flexions nominales, au processus de régularisation des verbes irréguliers, comme disez, faisez à la 2^e personne du pluriel ou il faulait qu’ils faisent au subjonctif. Elles sont également marquées (+ac) dans les dictionnaires ACADICO.nod, même si elles ont cours en français populaire dans toute la francophonie (Figure 4).

Application de la grammaire flexionnelle acadienne au verbe mixte minder — Figure 3

Application de la grammaire flexionnelle acadienne au verbe mixte *minder*

Flexions du verbe dire avec la grammaire acadienne — Figure 4

**Flexions du verbe *dire* avec la grammaire acadienne**

Ainsi quand nous posons la requête <V+3+p>, soit « verbe à la 3^e personne du pluriel », on obtient à la fois les verbes de français commun (elles sont, ils ont, mes parents comprennent), les verbes à flexion acadienne (i écoutont, i m’écoutont, i avont, i appelont, tes parents te laisseriont) et les verbes anglais conjugués selon la forme acadienne ou standard (i turnont, i wonderont, i pukaient, ils se behavent). Si par contre, uniquement les formes acadiennes nous intéressent, la requête <V+3+p+ac> permet d’isoler les concordances de ces formes acadiennes.

2.3. Graphes de désambiguïsation : l’exemple de a, soit auxiliaire, soit pronom

La transcription du pronom elle par la graphie a pour représenter sa prononciation effective, entraîne une fâcheuse ambiguïté avec l’auxiliaire avoir au présent de la 3^e personne du singulier. Cette ambiguïté vient brouiller toute étude sur les pronoms sujets en acadien. Pour lever ce type d’ambiguïtés, on a recours à la construction de graphes qui décrivent la distribution syntaxique propre à chaque catégorie.

Le graphe présenté dans la figure 5 propose les deux chemins possibles de a de façon à décider si la graphie représente le pronom ou le verbe dans chacune de ses occurrences dans le texte :

la ligne qui va vers la partie supérieure du graphe indique que a est un pronom lorsqu’il est suivi d’un verbe à la 3^e personne, ou encore, dans les cases superposées, lorsqu’il peut être suivi d’autres pronoms comme le, la, les / leur, lui / en / y, placés avant le verbe.
la ligne qui va vers le bas du graphe indique que a est un verbe s’il est précédé des pronoms personnels contenus dans la longue boîte à gauche ou du pronom impersonnel transcrit i-y-a « il y a »; enfin a est un verbe auxiliaire s’il est suivi d’un participe passé ou un adverbe pouvant se placer avant ce participe passé.

Figure 5

**Graphe de désambiguïsation de a**

L’application de ce graphe aux corpus acadiens permet de localiser précisément et uniquement les occurrences de a verbes ou pronoms et de regrouper les occurrences dans des tables de concordances séparées. La figure 6 reproduit un extrait des concordances obtenues par l’application de la grammaire de désambiguïsation du pronom et de l’auxiliaire a.

Concordances du verbe avoir à la 3e personne du singulier — Figure 6

**Concordances du verbe avoir à la 3^e personne du singulier**

Conclusion

L’environnement NooJ nous a permis de relever le défi de traiter automatiquement des corpus de productions dans une variété de français vernaculaire régionale et mixte. Le module NooJ du français acadien et du chiac fonctionne au moyen d’un dictionnaire français de référence de large couverture, le DELAF.nod, conjointement avec le dictionnaire du français acadien, ACADICO.nod, qui a priorité sur le dictionnaire français à l’étape de l’analyse lexicale du corpus. Le dictionnaire du français acadien « reconnait » les variantes orthographiques et morphologiques des unités lexicales non standards du français, y compris les unités lexicales empruntées à l’anglais, qu’elles soient intégrées morphologiquement (les noms et les verbes) ou invariables (marqueurs discursifs, conjonction, adverbes, particules verbales).

Vu la définition à la fois large et étroite que nous avons donnée du français acadien, soit, d’une part, l’ensemble des formes du français standard plus des régionalismes et des emprunts à l’anglais et, d’autre part, l’accent mis sur les formes qui se trouvent dans les productions spontanées de registre familier ou populaire, le module acadien de NooJ rend possible les recherches sur la variation touchant les particularismes acadiens (le lexique du vieil acadien, la troisième personne du pluriel en –ont) et ceux du chiac (les mots anglais fléchis en français, les verbes à particules). Il peut également servir à l’analyse des formes vernaculaires communes aux français du Canada et, pour finir, à l’extraction des formes de la langue parlée en général, comme l’étude des variantes morphologiques des pronoms personnels, par exemple.

ACADICO.nod ayant été élaboré à partir de corpus oraux incluant une des variétés de français les plus conservatrices, celle du Sud-Est du Nouveau-Brunswick, il peut prétendre couvrir, en principe, les variantes morphosyntaxiques du français oral populaire de la plupart des français parlés au Canada[12]. À ce titre, la prochaine étape logique de notre entreprise consisterait à appliquer le module acadien de NooJ à des corpus représentatifs d’autres variétés de français canadiens, incluant le français québécois, et à examiner la nature des formes non reconnues générées par le logiciel. Nous faisons l’hypothèse que la plupart des formes non reconnues, les UNKNOWNs, relèveraient des conventions de transcription du corpus et son degré de granularité, d’une part, et, d’autre part, des traces d’oralité (hésitations, reprises, troncations, ruptures syntaxiques), des emprunts nominaux et verbaux à l’anglais de faible fréquence, à l’exclusion des morphèmes grammaticaux et de phénomènes dérivationnels ou flexionnels[13]. De par sa nature incrémentielle, le dictionnaire pourrait être bonifié par l’ajout d’items lexicaux venus de différentes régions francophones du Canada.

Nous avons construit maintenant le socle du module NooJ acadien, qui pourrait être appelé à devenir un module des français parlés au Canada. Nous nous sommes limitées ici aux fonctions lexicales et morphosyntaxiques de NooJ. Le module ouvre des pistes de recherches innombrables pour le traitement automatisé de corpus en français, que ce soit au niveau lexical (par exemple, les expressions figées, les mots du discours), morphosyntaxique (les structures avec les prépositions, l’usage des pronoms) ou sémantique (réseaux sémantiques, identification des entités nommées, etc.).

Module NooJ du français. Traitement automatique de corpus de français parlé régional

Résumé

Abstract

Introduction : Traitement automatique de corpus oraux en français régional

1. Le français parlé en Acadie

2. L’élaboration du module acadien de NooJ