Abstracts
Résumé
Le traitement automatique des corpus oraux est en plein essor. L’intérêt gagne du terrain, mais les outils restent rares. Dans notre article, nous présentons un outil que nous avons développé pour l’analyse de corpus oraux spontanés en français acadien. Ces variétés de français parlées dans les Provinces maritimes du Canada ont trois niveaux de traits caractéristiques : elles sont orales, régionales et mixtes. Notre défi fut celui d’adapter et de créer un module NooJ acadien qui permette le traitement d’un corpus présentant de telles spécificités. Nous présentons ici trois solutions développées avec NooJ : 1) la configuration d’un dictionnaire qui permette la reconnaissance orthographique et lexicale de mots présentant des traits à la fois de français standard, d’acadien traditionnel et de l’anglais ou du vernaculaire; 2) les grammaires développées pour l’analyse des traits morphologiques de la flexion nominale et verbale; 3) un graphe de désambiguïsation pour a, qui représente non seulement la 3e personne du singulier du présent du verbe avoir, mais aussi la 3e personne du pronom personnel féminin singulier en français acadien.
Mots-clés :
- traitement automatique du langage,
- NooJ,
- oral,
- corpus,
- variété régionale,
- français acadien,
- chiac,
- langue mixte,
- langues en contact
Abstract
Automated analysis of oral corpora is still in its infancy. Interest is growing, but tools are still scarce. This paper presents processing tools that we have developed to analyze corpora of spontaneous oral speech in Acadian French. This variety of French spoken in the Maritime Provinces of Canada has three levels of characteristics: oral, regional, and mixed language traits. The challenge was to adapt an existing processing tool, NooJ, to find solutions to the problems presented by our corpora. We will present three different solutions developed with NooJ: (1) the configuration of dictionary entries that allows users to relate the orthographic and lexical representations of a word coming from standard French, traditional Acadian, English, or the vernacular; (2) grammars developed to process the morphological characteristics of nominal and verbal inflections; and (3) a disambiguation graph for the ambiguous form a, which is the 3SG pronoun in Acadian French as well as the 3SG.PRES of the auxiliary avoir.
Keywords:
- automatic language processing,
- NooJ,
- oral,
- corpus,
- regional varieties,
- Acadian French,
- chiac,
- mixed language,
- languages in contact
Appendices
Bibliographie
- Chevalier, G. (2008a). L’interrogation de corpus oraux en français périphérique. Communication présentée à la Journée d’étude du labo MoDyCo (Paris X, Nanterre) : Français périphérique et traitement des corpus oraux non standard tenue le jeudi 17 avril 2008, sous la direction de Colette Noyau.
- Chevalier, G. (2008b). Les français du Canada : faits linguistiques, faits de langue. Alternative francophone. 1:1.80-97.
- Chevalier, G., Kasparian. S., et Silberztein, M. (2004). Éléments de solution pour le traitement automatique d’un français oral régional. In Véronis, J. (dir.). Le traitement automatique des corpus oraux. Revue française en traitement automatique du langage (TAL). 2:45.41-62.
- Kasparian, S. (2003). Parler bilingue et actes identitaires : le cas des Acadiens du N.-B. In Stebbins, R.A., Romney, C., et Ouellet, M. (dir.). Francophonies et langue dans un monde divers en évolution : contacts interlinguistiques et socioculturels. Winnipeg : Presses universitaires de St Boniface. 159-177.
- Péronnet, L. (1988). Le parler acadien du sud-est du Nouveau-Brunswick. Eléments grammaticaux et lexicaux. New York : Peter Lang.
- Perrot, M.-È. (1995). Aspects fondamentaux du métissage français / anglais dans le chiac de Moncton (Nouveau-Brunswick, Canada). Thèse de doctorat, Université de la Sorbonne Nouvelle Paris III.
- Perrot, M.-È. (2000). Ordre des mots et restructurations dans le chiac de Moncton : l’exemple du syntagme nominal. Cahiers de linguistique de l’Inalco. 1-3.
- Poirier, P. (1993). Le glossaire acadien; Édition critique établie par Pierre M. Gérin. Moncton : Éditions d’Acadie et Centre d’études acadiennes
- Silberztein, M. (2003). NooJ Manual. http://www.nooj4nlp.net.
- Silberztein, M.(2004). NooJ: an Object-Oriented Approach. In Muller, C., Royauté, J., et Silberztein, M. (dir.), INTEX pour la linguistique et le traitement automatique des langues. Bezançon : Presses Universitaires de Franche-Comté. 359-369.
- Gauvin, K., et Chevalier, G. (1994). Corpus Anna-Malenfant (N.-B., Canada), Université de Moncton, Moncton (Canada).
- Kasparian, S. (1999). Corpus chiac Kasparian. Université de Moncton, Moncton (Canada).
- Poissant, G. (1995). Corpus Parkton. CRLA, Université de Moncton, Moncton (Canada).
- Péronnet, L., et Kasparian S. (1992). Corpus Péronnet-Kasparian, Université de Moncton, Moncton (Canada).
- Beaulieu, L. (1996). Corpus sociolinguistique du français acadien du Nord-Est du Nouveau-Brunswick, Université de Moncton, Campus de Shippagan, Shippagan, Nouveau-Brunswick (Canada).
- Étienne, G. (2008). Corpus Gérard Étienne du français de la péninsule acadienne des années 1970. Transcription réalisée par les bons soins du CRLA (Centre de recherche en linguistique appliquée), Université de Moncton.
- Hallion, S. (2000). Étude du français parlé au Manitoba. Thèse de doctorat, Université de Provence, Aix-en-Provence, 3 vol., 464 f. + 859 f. (corpus).
Corpus dépouillés pour l’élaboration du module NooJ
Six conversations en dyades entre jeunes de 11 à 12 ans (20 000 mots)
Une trentaine de conversations spontanées entre jeunes de 18 à 24 ans ou entre les jeunes et leurs parents (84 600 mots)
29 entrevues sociologiques recueillies auprès de résidents d’un quartier de niveau socio-économique faible (177 900 mots)
18 entrevues formelles auprès de jeunes cadres ayant une formation universitaire et oeuvrant dans des entreprises francophones dans trois régions du N-B. (35 000 mots)
16 entrevues semi-dirigées avec des locuteurs représentatifs de différentes couches sociales, les deux sexes, niveau d’éducation et types de réseaux sociaux (210 000 mots)