Résumés
Résumé
La présente contribution fait état d’un projet de recherche dont l’objectif principal est de conceptualiser la relation chef (une relation de hiérarchie s’établissant à l’intérieur d’un groupe ou d’une organisation) du point de vue de la sémantique lexicale. Le deuxième objectif de ce travail est de définir un lexique trilingue (structuré par domaine) identifiant cette relation. Pour proposer une description complète de la relation chef, nous avons étudié d’un point de vue contrastif des données extraites de corpus monolingues et multilingues (parallèles et comparables) en français, en anglais et en allemand. Les noms propres de ces corpus ont été étiquetés, lemmatisés et annotés. Des patrons lexico-syntaxiques permettant une extraction automatique des expressions linguistiques de la relation chef ont été définis dans les trois langues.
Mots-clés :
- noms propres,
- sémantique lexicale,
- relation de hiérarchie,
- corpus,
- annotation
Abstract
This paper presents a research paper from the lexical semantics domain. The project aims to provide a complete conceptual description of the relation chief (establishing a hierarchy inside a group of humans or an organization). The second goal of the project is to define a trilingual lexicon, structured by domains, identifying this relation. For our purpose, we study linguistic data from monolingual and multilingual, parallel and comparable corpora, available in English, in French and in German. The corpora have been tagged, lemmatized and annotated for proper names. A multilingual base of lexico-syntactic patterns has been defined to automatically extract chief relation.
Keywords:
- proper names,
- lexical semantics,
- hierarchy relation,
- corpora,
- annotation
Corps de l’article
1. Introduction
Le projet de recherche que nous présentons dans le cadre du présent article a pour objet la conceptualisation de la relation chef sous l’angle de la sémantique lexicale. La relation chef est une relation exprimant une hiérarchie sociale et reliant des noms propres à d’autres noms propres (par exemple Barack Obama est le président des États-Unis d’Amérique) ou des noms propres à des noms communs (par exemple Henri Proglio est le patron d’une société). Pour définir cette relation en termes d’arguments, nous nous proposons d’étudier les variations linguistiques permettant de l’exprimer à travers plusieurs langues : le français, l’anglais et l’allemand. Après avoir collecté des données dans ces trois langues à partir de corpus fournis par le projet européen CLARIN (Common Language Ressource Infrastructure)[1] ou rassemblées par nos soins, nous analysons la relation chef d’un point de vue contrastif. L’analyse linguistique proposée se situe dans le contexte théorique de la sémantique des cadres (FrameNet). L’étude de la relation chef nous a permis de déterminer plusieurs catégories d’arguments et de définir un lexique trilingue exprimant cette relation. Sur la base des résultats de cette étude contrastive, nous avons créé une base multilingue de patrons d’extraction automatique de la relation chef.
2. Contexte et motivation
La relation chef est une relation sémantique qui permet d’identifier l’organisation hiérarchique établie au sein d’un groupe de personnes. Bien que moins étudiée au regard de la relation d’hyperonymie, la relation chef relie aussi des personnes à leur organisation d’appartenance.
La relation chef a été peu étudiée dans une perspective linguistique. Cette relation a été modélisée à l’aide d’une fonction lexicale paradigmatique dénommée « Cap », décrite succinctement dans le Dictionnaire explicatif et combinatoire du français contemporain d’Igor Mel’čuk et de son équipe montréalaise (1984 ; 1988 ; 1992 ; 1999). Cette relation a aussi été étudiée dans le domaine de la sémantique lexicale par Lyons (1977) et Cruse (1986) qui considèrent qu’il s’agit d’une relation d’ordre dans un domaine particulier (le domaine militaire). D’autres théories linguistiques proposent une analyse du point de vue de la sémantique des cadres (Baker et al., 2002). Tran et al. (2006) considèrent cette relation comme un cas particulier de la relation dite d’accessibilité permettant de relier des noms propres divers (personnes et organisations, organisations et organisations, lieux et lieux) entre eux. Gross (2011) identifie plusieurs classes de noms d’humains potentiellement porteurs de la relation chef : les grades, les fonctions ou les métiers.
En sémantique lexicale, les relations d’hyponymie/hyperonymie, méronymie/ holonymie ainsi que synonymie/antonymie ont été à la fois décrites et intégrées dans des dictionnaires électroniques comme WordNet (Miller, 1995 ; Fellbaum, 1998) et EuroWordNet (Vossen, 1998). La relation d’ordre indiquée par Lyons (1977) s’établit entre les concepts par des relations d’hyponymie/hyperonymie. Toutefois, ces relations, bien que structurantes, ne suffisent pas à appréhender l’ensemble des connaissances pouvant être extraites d’un texte. D’autres relations, génériques ou dépendantes d’un domaine donné, sont exprimées dans les textes de spécialité sous une variété de formes linguistiques. C’est le cas de la relation chef, un cas spécifique de la relation d’accessibilité que nous étudions ici dans une perspective multilingue.
Ces relations non classiques sont toutefois utiles pour des applications d’extraction automatique d’information, de veille économique ou en traduction. La veille économique fait l’objet de recherches menées par des entreprises spécialisées. Dans ce domaine, la demande d’outils d’aide à la recherche d’informations est croissante. Certains moteurs de recherche spécialisés peuvent ainsi répondre à des questions précises telles que : « qui est le chef de l’organisation X ? » ou bien « qui est associé à l’organisation Y ? ».
La traduction de ces relations non classiques est difficile, compte tenu de la diversité des formes lexicales et syntaxiques permettant de l’exprimer (noms, verbes, expressions figées). Les ressources électroniques existantes ne proposent pas d’équivalents de traduction pour toutes ces relations. Les relations génériques, telles que chef, ont notamment des définitions et des interprétations différentes selon le domaine d’application.
Nous présenterons ici les difficultés de traduction des expressions de la relation chef ainsi que les informations contenues dans les bases lexico-sémantiques et terminologiques existantes. Nous proposerons également un lexique trilingue de termes qui expriment cette relation et nous analyserons les corpus pour relever leurs arguments.
2.1. La relation chef et ses variations linguistiques
Comme nous l’avons déjà évoqué, la relation chef est une relation liant des noms propres à des noms communs (par exemple Henri Proglio est le patron d’une société) ou des noms propres entre eux (par exemple Barack Obama est le président des États-Unis d’Amérique). Les noms propres peuvent être des noms de personnes, d’organisations ou de lieux. Les noms d’organisations ou de lieux sont des noms d’humains collectifs (Gross, 2011), de ce fait nous considérons que la relation chef relie des personnes avec des noms d’humains collectifs.
Nous considérons cette relation comme importante et structurante d’un point de vue psychologique et d’organisation sociale : de nombreux groupes humains fonctionnent selon une hiérarchie établie entre des sujets au sein d’un système organisé par des règles de vie en groupe. L’organisation hiérarchique implique, hormis la formation de groupes, des alliances entre individus visant un but précis, comme l’organisation de la production dans le cadre d’une entreprise, la gestion d’un pays dans le cadre politique, la guerre ou des « actions de maintien de la paix » dans l’armée, l’organisation des enseignements et de la recherche à l’université, etc. Pour certaines sociétés, la hiérarchie a pour but l’organisation du groupe et, idéalement, le partage des tâches suivant un principe pyramidal. Elle est aussi censée éviter les conflits et apporter sécurité et clarté en ce qu’elle définit précisément les rôles tout en permettant la transparence de la communication.
2.2. La relation chef dans les bases lexicales existantes
Peu de ressources électroniques ou d’outils de TAL permettent le traitement de la relation chef. Toutefois, certaines ressources en proposent une représentation qui diffère suivant le cadre théorique adopté. Nous avons d’abord consulté les bases lexicales disponibles dans les trois langues traitées pour appréhender l’ensemble des synonymes et hyperonymes du mot chef.
2.2.1. L’apport de WordNet et d’EuroWordNet
WordNet part du principe que tous les mots de la langue sont organisés en une hiérarchie fondée sur la synonymie. Plus un mot a un sens général, plus il est proche du sommet de la hiérarchie de synonymes. Le mot le plus général est l’« entity[2] » qui recouvre l’ensemble du vocabulaire. Pour WordNet, la langue de référence est l’anglais américain et si l’on s’y réfère (Miller, 1995), le mot « leader », l’une des traductions possibles de chef, se situe au quatrième niveau de hiérarchie en dessous d’« entity ». « Leader » est ainsi hyponyme d’« entity » (la classe la plus générale de la hiérarchie). Certains synonymes plus étroits de « leader » comme chief, honcho, gaffer, foreman et, dans une moindre mesure boss, sont moins utilisés dans la langue générale.
Du fait de l’absence d’isomorphie sémantique entre les langues, on ne retrouve pas les mêmes niveaux de hiérarchie en français et en allemand.
Pour le français, ce qui est remarquable c’est la grande polysémie du vocable chef qui s’organise autour de six synsets dans EuroWordNet (Vossen, 1998) avec jusqu’à huit niveaux de hiérarchie :
//chef 1// (une personne responsable d’un groupe, dérivé d’entité) ;
//chef 2// (un poste, ayant comme concept de base acte, action) ;
//chef 3// (chef de tribu, dérivé de entité) ;
//chef 4// (chef qui surveille ou qui contrôle un groupe d’ouvriers) ;
//chef 5// (boss, dérivé de //entité//, dans l’interprétation que l’on donne en Afrique) ;
//chef 6// (qui guide ou qui dirige un groupe).
On retrouve la hiérarchie de l’anglais : //chef 6// (dérivé d’entité) < //supérieur// < //superviseur// < //chef d’équipe//. Les autres concepts dérivés (noms de fonctions : directeur général) sont présents dans la hiérarchie, mais ils sont directement dérivés de //entité//. Il apparaît donc qu’en français, le vocable chef est particulièrement riche de sens. Toutefois, certains sens sont trop proches pour qu’un système automatique les identifie.
Le mot chef existe aussi en allemand mais il ne recouvre pas non plus les mêmes significations, le mot générique étant plutôt Leiter apparenté à « leader », mais moins général. Les synonymes de //chef// dans la hiérarchie de synsets de la partie allemande d’EuroWordNet se situent au huitième niveau de la hiérarchie (Boß, Boss, Vorgesetzter) et correspondent à un « être humain occupant une position hiérarchique » (hierarchisch ausgerichteter Mensch).
Pour compliquer le tout, il existe encore d’autres expressions nominales comme directeur en français, president ou Chief Executive Officer en anglais qui expriment la relation chef et sont présentes dans EuroWordNet, mais elles ne constituent pas toujours des hyponymes des autres « chefs » décrits dans la hiérarchie. Nous pouvons ainsi constater que les références au chef sont limitées. On retrouve quelques références au chef en français : chef d’équipe ou contremaître sont présents, mais des chefs identifiés par les grades militaires ou par d’autres catégories de fonctions hiérarchiques ne le sont pas toujours. De plus, les éventuelles variations morphologiques comme généralissime[3] ou des unités polylexicales comme chef adjoint ne figurent pas parmi les unités définies dans EuroWordNet.
Il apparaît ainsi que ces ressources sont difficilement compatibles les unes avec les autres lorsque l’on tente une approche multilingue. C’est cette absence d’isomorphie dans les niveaux d’hyponymie qui constitue l’impasse d’EuroWordNet pour ce qui est de l’approche multilingue. Il s’ensuit que pour construire un lexique multilingue structuré par domaine exprimant la relation chef, il est sans doute préférable d’adopter une approche dite « bottom-up », en partant du bas, et donc des mots qui expriment l’idée de commandement. Nous tentons ainsi de découvrir les différentes dénominations possibles pour un chef dans différents domaines et leurs traductions ou équivalences dans différentes langues et nous les complétons avec des données identifiées dans le corpus, pour définir des patrons multilexicaux. Malgré les différences de structure et de couverture lexicale trouvées dans le dictionnaire, EuroWordNet s’avère toutefois utile pour l’extraction de données à partir de corpus.
2.2.2. L’apport de FrameNet
Parmi les autres ressources consultées, l’une des plus riches est FrameNet, une base lexico-sémantique développée pour l’anglais. Cette base lexicale a été construite dans la perspective de la sémantique des cadres (Frame Semantics) proposée par Fillmore (1985). La sémantique des cadres part de l’hypothèse qu’un ou plusieurs sens sont associés à chaque mot et que chaque sens est décrit par un cadre sémantique (une activité, un événement ou un état) impliquant plusieurs participants. Les participants remplissent des contraintes syntaxiques spécifiques imposées par le mot associé au sens décrit par le cadre et jouent des rôles sémantiques prédéfinis.
FrameNet est constitué de couples formés de mots et de leurs cadres sémantiques respectifs. Au sein d’un couple, le mot est appelé « porteur de cadre », sachant qu’un même cadre sémantique pourra être porté par plusieurs mots.
Dans FrameNet, l’unité lexicale chief (l’une des traductions de chef) est rattachée au cadre //leadership//. La définition de ce cadre peut être traduite de la façon suivante :
Il s’agit de mots se référant au contrôle d’une entité ou d’une activité par un chef. Le cadre comprend à la fois des mots se référant à un titre, à un grade ou à un rang social (directeur, roi, président p.ex.) ainsi que des verbes décrivant l’action de commander (commander, diriger, gouverner, régner). À l’aide des verbes, il est aussi possible de mettre en évidence le rôle joué par le chef qui est souvent associé à un nom décrivant son rang (par exemple roi).
Baker et al. 2003[4]
En anglais, la relation chef associée à la fonction lexicale « Cap » chez Mel’čuk correspond sémantiquement en partie à la relation leadership de FrameNet.
Après avoir brièvement rappelé le cadre d’analyse linguistique adopté par FrameNet, nous nous pencherons en détail sur les unités lexicales porteuses du cadre leadership, ainsi que sur les participants à ce cadre sémantique.
2.2.2.1. Les porteurs du cadre leadership
Dans FrameNet, en ce qui a trait aux unités lexicales associées, le cadre //leadership// se manifeste par des noms, des verbes ou des locutions verbales. Les verbes comme to rule (= gouverner, régner, diriger, commander) relèvent de l’interaction sociale et peuvent être rassemblés sous la dénomination de verbes de commandement. Leur nombre est limité. Sur le plan lexical, ce sont les noms qui jouent le rôle le plus important dans la relation, à la fois par leur nombre significatif et la richesse des nuances sémantiques ainsi que culturelles (imam et pape bien que tous deux porteurs des sèmes « chef religieux » ne sont évidemment pas synonymes). Le nom de chef, sa dénomination et par là son rattachement à un domaine est également le nom porteur du cadre //leadership//, ce que nous retrouvons dans l’exemple suivant[5] :
Dans l’exemple ci-dessus, c’est tsar qui est le porteur du cadre //leadership// et renvoie à la relation chef dans le domaine politique. En dehors du domaine politique, on retrouve dans FrameNet le domaine économique (par exemple CEO, abréviation de chief executive officer, équivalent anglais du PDG français), le domaine religieux (par exemple imam), le domaine militaire (par exemple commandant), le domaine administratif (par exemple rector = président d’université), le domaine artistique (par exemple director = metteur en scène) et même le domaine du banditisme (par exemple drug lord = parrain de la drogue). La liste des chefs de FrameNet est loin d’être exhaustive et l’on peut y ajouter le domaine des métiers qui dispose également de noms de chefs (par exemple contremaître à l’usine, chef de rang dans la restauration, etc.). Bref, il n’est guère d’activité humaine où l’on ne retrouve pas de hiérarchie fondée sur le commandement.
2.2.2.2. Le cadre //leadership// et les rôles sémantiques
Comme nous l’avons mentionné, FrameNet décrit chaque cadre sémantique au moyen de ses participants et chacun desdits participants joue un rôle sémantique spécifique. Certains de ces participants sont obligatoires et les éléments essentiels qui forment le cadre //leadership//, appelés « frame elements » en anglais, sont au nombre de quatre : a) le leader, b) l’entité gouvernée, c) l’activité qui est réalisée et d) le rôle joué par le leader.
Le leader est celui qui gouverne l’entité (b) ou l’activité (c). Il peut aussi jouer un rôle précis (c’est-à-dire une fonction occupée à un moment donné). Il se manifeste par le nom de la personne détentrice de l’autorité (nom propre anthroponymique) ou son titre (synonyme de chef). S’il n’y a que le nom de la personne, il sera associé à un verbe de commandement. Souvent, le titre entre parenthèses peut se substituer au nom propre anthroponymique pour exprimer le leader dans le cadre :
L’entité gouvernée peut être une institution, une personne ou un groupe de personnes, un pays, etc. L’entité peut apparaître au sein d’une dénomination de chef. Dans ces trois exemples, le parti conservateur français, l’UMP, constitue l’entité régie :
L’activité est dirigée par le leader et elle a une durée limitée dans le temps. Le leader est à la tête soit d’une entité identifiable comme une organisation, soit d’une activité, comme dans l’exemple repris de FrameNet (en anglais). On peut avoir comme leader de cette activité une organisation (l’exemple français indique le leader, soit le collège, et l’activité, soit la mutinerie) :
Le rôle accompagne les verbes de commandement. Il prend souvent la forme d’un titre officiel et peut ainsi se confondre avec le leader lorsque celui-ci n’est pas un nom propre anthroponymique. Le rôle est souvent antéposé ou postposé à un nom propre anthroponymique, comme dans Le président de la Commission, José Manuel Barroso. Cependant, le rôle peut aussi être introduit par une préposition ou une locution prépositionnelle (as en anglais, comme, en tant que, en qualité de en français, als en allemand), comme le montre l’exemple (5b) présent dans FrameNet[9] :
Afin de définir un lexique trilingue de porteurs de la relation chef, nous sommes partis de la liste des porteurs du cadre //leadership// et nous les avons traduits. Pour compléter cette liste et pour construire des patrons d’extraction multilingues des instances de la relation chef, nous avons extrait les contextes à partir de corpus parallèles et comparables. Ensuite, nous avons annoté les arguments de la relation chef dans les contextes trouvés autour des porteurs du cadre chef.
2.2.2.3. Construire un lexique trilingue avec FrameNet
FrameNet, de même que WordNet sont au départ des bases de données lexicales conçues en anglais et pour l’anglais. Afin de pouvoir utiliser FrameNet comme outil de traduction, mais aussi pour constituer des patrons d’extraction d’informations, il est non seulement nécessaire de trouver des équivalents de traduction pour les éléments du cadre, mais aussi de fournir une indication du domaine.
Par ailleurs, il apparaît nécessaire de créer une catégorie générale dans la liste des domaines où l’on retrouve des dénominations qui sont relativement passe-partout, comme président, un mot dont le français est particulièrement friand, et qui, selon son extension, peut appartenir aux domaines politique (président du sénat), économique ou administratif (président du conseil d’administration) ou encore à la sphère publique au sens large (président d’une association). Ainsi, un porteur particulier de la relation chef peut provenir de différents domaines : il y a des capitaines dans l’armée, mais aussi dans la navigation aérienne, maritime et fluviale ainsi que dans le domaine sportif. Selon le contexte, les traductions peuvent varier d’une langue à l’autre suivant la couverture sémantique : en allemand, un capitaine de l’armée se traduit par Hauptmann alors que s’il s’agit d’une équipe de football ou d’un bateau, on parlera de Kapitän. Une unité lexicale dans une langue donnée peut ainsi donner davantage d’informations concernant le domaine que dans une autre langue. L’anglais a par exemple une kyrielle de dénominations pour exprimer les relations de hiérarchie au sein d’une entreprise et le modèle anglo-saxon étant prédominant dans ce domaine, les autres langues ont souvent repris les termes en les empruntant ou en les calquant. L’allemand a ainsi tendance à emprunter les termes anglais : business development manager = Business Development Manager. En français, les procédés sont plus variés : des calques (business development manager = responsable du développement de l’entreprise), des appellations endogènes ou des traductions.
Nous avons aussi jugé utile de structurer le lexique en un nombre limité de domaines (général, économique, politique, religieux, militaire et administratif). Les porteurs du cadre //Leadership// présents dans FrameNet ont été traduits vers le français et l’allemand. Un extrait de cette liste est présenté dans la Figure 1. Ce lexique est utilisé pour définir les patrons d’extraction de la relation chef.
Toutefois, le lexique structuré en domaine construit manuellement devrait être complété par des lexies extraites à partir des corpus monolingues et multilingues, même pour l’anglais.
3. Méthodologie et corpus
Pour étudier la relation chef et pour élargir le lexique, nous avons tout d’abord exploré les corpus monolingues et multilingues disponibles dans les langues étudiées. À cet effet, nous avons consulté la base de ressources et d’outils mise à la disposition des chercheurs en sciences humaines et sociales par le projet européen CLARIN, et identifié des corpus parallèles mais aussi certains corpus monolingues couvrant plusieurs domaines et genres textuels (journalistique, littéraire, articles scientifiques).
3.1. Méthode
La méthode de travail était la suivante et s’organisait autour de trois catégories de requêtes :
d’abord, nous avons recherché des variantes (quasi-synonymes plus étroits) de chef dans les trois langues. Ces variantes ont été identifiées à partir des ressources électroniques telles que WordNet (Miller, 1995) et leurs équivalents pour le français et l’allemand (Vossen, 1998), ainsi que la liste des noms porteurs de cadre proposée par FrameNet (Baker et al., 2003) et leurs équivalents dans l’ontologie ;
ensuite, nous avons cherché des couples de personnes et d’organisations connus unis par la relation chef (et ce, en priorité dans les corpus comparables) comme José Manuel Barroso et la Commission européenne, François Fillon et le gouvernement français, etc. ;
enfin, nous avons identifié les noms propres de type personne et organisation en français. Nous avons exporté les annotations de ces noms propres en anglais et en allemand sur la base des annotations en français en utilisant les corpus alignés sur le plan propositionnel.
Les requêtes de type 1 (trouver des synonymes de chef) ont pu être lancées sur plusieurs corpus monolingues ou multilingues. Les requêtes de type 2 (trouver des couples personnes-organisation) nécessitent la connaissance des contenus des corpus et, pour les corpus disponibles en ligne, cette catégorie de requêtes n’a pas donné de résultats satisfaisants. En effet, les textes littéraires ne comportent pas toujours des occurrences de chef reliées à des organisations ou tout au moins pas en nombre suffisant. Les requêtes de type 3 (export des annotations dans les autres langues) nécessitent quant à elles des annotations en termes de noms propres ainsi qu’un alignement propositionnel des corpus parallèles utilisés. Or, il existe peu de ressources disponibles en ligne permettant d’effectuer de telles requêtes. Nous avons donc dû les formuler sur des corpus constitués par nos soins.
3.2. Corpus utilisés
Après une première collecte de données effectuée à partir des corpus comparables exploités en ligne, nous avons constaté que peu de contextes étaient utiles pour notre étude. Nous avons donc complété les corpus disponibles sur la toile en construisant des corpus parallèles et comparables dans trois domaines : l’économie, l’aviation et la politique. De plus, nous avons effectué une annotation des noms propres, nécessaire pour notre étude.
3.2.1. Corpus disponibles
Les corpus parallèles disponibles dans les trois langues de travail sont principalement l’Acquis Communautaire (Steinberger et al. 2006) et le corpus DGT-TM (Steinberger et al. 2012) aligné sur le plan propositionnel. Pour compléter ces ressources, nous avons identifié plusieurs autres corpus en faisant appel au catalogue de ressources proposé par le projet CLARIN. Ce catalogue propose une liste de corpus qui sont dotés d’une interface Web ou qui peuvent être exploités à l’aide d’un concordancier. Nous avons ainsi exploré des corpus de textes bruts ou étiquetés comme le corpus CLUVI, un corpus contenant des textes scientifiques et de vulgarisation ainsi que des textes littéraires ou journalistiques. Nous avons également utilisé le corpus OSLO composé de textes de fiction et de textes journalistiques ainsi que le corpus JOC, un corpus multilingue parallèle issu du projet MULTEXT (Ide et Véronis, 1994).
Pour ce qui est des corpus monolingues, nous avons utilisé IULA pour l’anglais, COSMAS pour l’allemand et L’Est Républicain pour le français.
3.2.2. Corpus constitués par nos soins
Pour notre étude, nous avons constitué plusieurs corpus multilingues parallèles et un corpus multilingue comparable. Si la constitution des corpus monolingues à partir du Web est actuellement une tâche facilitée par des technologies de TAL performantes, la constitution de corpus multilingues parallèles dépend principalement de la disponibilité de ressources identiques dans différentes variations linguistiques (en genre, registre, domaine), soit dans notre cas à la fois pour le français, l’anglais et l’allemand. Ainsi, pour collecter les corpus parallèles dans ces trois langues, nous avons pris en considération plusieurs critères : la disponibilité des domaines, la fiabilité de la source des textes, la qualité des traductions. Nous avons constitué manuellement nos corpus parallèles dans les domaines de la politique et de l’aviation, à partir des sites web d’institutions européennes (la Commission européenne et le Parlement européen) et de compagnies aériennes (Blue Air, TAROM[10]). De plus, nous avons constitué un corpus parallèle des rapports financiers publiés par la compagnie aérienne SWISS[11] entre 2003 et 2009.
Enfin, nous avons constitué un corpus comparable comprenant des articles de presse du domaine de la politique disponibles sur le site web du Parlement européen[12].
Les corpus multilingues ainsi constitués sont décrits dans le Tableau 1 ci-dessous. Après avoir constitué nos corpus parallèles, nous avons procédé au nettoyage des éléments non textuels (images, tableaux, notes de bas de page) ainsi qu’à des prétraitements desdits corpus sous la forme d’alignement propositionnel.
4. Prétraitements des corpus et outils de TAL utilisés
Pour effectuer une recherche translingue, il ne suffit pas de disposer de corpus parallèles, il faut aussi que ceux-ci soient alignés. Pour effectuer cet alignement pour les phrases, nous avons utilisé l’outil d’alignement Alinea (Kraif, 2000) qui propose des paramètres optimisés pour nos trois langues de travail. Alinea réalise un alignement propositionnel basé sur des paramètres tels que les transfuges (nombres, noms propres, sigles, etc.), les cognats (paires bilingues de mots présentant des similarités orthographiques importantes), le rapport des longueurs des phrases (en tokens ou en nombre de caractères) et les lexiques bilingues. Des algorithmes d’alignement récursifs combinent ces informations pour fournir un alignement propositionnel optimal. Nous avons utilisé les paramètres optimisés proposés par Alinea pour les couples de langues étudiées et nous avons obtenu des corpus bilingues alignés français-anglais et français-allemand en partant du français comme langue source.
Les noms propres sont aussi des éléments importants de notre analyse. Nous avons annoté les noms propres avec CasSys[13] (Friburger et Maurel, 2004) dans les corpus français. CasSys (intégré dans la plateforme Unitex (Paumier, 2000)) identifie les noms de personnes, les noms d’organisations, les lieux, les unités temporelles et les noms de fonctions ou de métiers, suivant les conventions d’ESTER 2[14]. Dans l’exemple suivant, plusieurs entités sont annotées : l’organisation (ministère belge des Affaires économiques), le nom de fonction (secrétaire général) et l’ensemble du groupe (secrétaire général du ministère belge des Affaires économiques) est annoté comme nom de personne :
{{ secrétaire général du {ministère belge des Affaires économiques, .N+Entity+Org} \.N\+Entity\+Function\+Administration\}.N+Entity+Pers+Hum }
Pour pouvoir repérer les équivalents de traduction des entités nommées du français en anglais et en allemand, nous avons combiné les résultats d’alignement français-anglais et français-allemand obtenus avec Alinea avec les annotations effectuées par CasSys pour le français. Pour obtenir ces ressources, nous avons défini une méthode d’exportation des annotations réalisées par CasSys pour le français vers les corpus alignés fournis par Alinea. Nous avons donc croisé les fichiers contenant les phrases annotées du français avec les fichiers d’alignement initiaux. Cette mise en correspondance nous a permis d’exporter l’annotation du français vers les autres langues, par des règles de correspondance. Le Tableau 2 ci-dessous donne un exemple de phrases alignées dans le couple de langues français-anglais et français-allemand :
5. Analyse linguistique des données
Après avoir annoté les corpus, nous avons procédé à la phase d’extraction des contextes exprimant la relation chef. Certaines caractéristiques particulières de nature morphosyntaxique ou sémantique vont être mises en évidence ici.
5.1. Morphosyntaxe de l’élément porteur du cadre
À partir de nos corpus, nous avons analysé les formes du porteur du cadre en français et nous avons cherché les équivalents dans les autres langues de travail. Il en ressort d’abord que le critère de polylexicalité ne suffit pas pour mettre en évidence un composé en allemand ou en anglais, comme pour vice-roi qui se traduit par viceroy en anglais et par Vizekönig en allemand.
Les composés français se retrouvent toujours sous la forme de lexies complexes, soit en tant que composés à trait d’union (lieutenant-colonel), soit en tant que N prep N (rédacteur en chef), soit encore en tant que N Adj (directeur adjoint) ou comme NN (directeur marketing). La plupart des composés allemands, à de rares exceptions près, sont quant à eux monolexicaux (Schloßhauptmann).
De nombreux porteurs de cadre sont des noms modifiés par des adjectifs (directeur général, general director, Generaldirektor) mais certaines constructions varient considérablement d’une langue à l’autre. Par exemple, l’adjectif antéposé en allemand dans wissenschaftlicher Leiter se traduit par une structure NNN en anglais (chief science officer).
La plupart des N prep N français sont des N de N. Cette structure devient souvent NN en anglais (chef de service se traduit par assistant physician dans le domaine médical) et devient un composé monolexical Oberarzt en allemand. En revanche, d’autres N prep N peuvent se construire de façon analogue en anglais et en français : rédacteur en chef se traduit par editor-in-chief, mais par Chefredakteur en allemand ; commandant en chef se traduit par commander-in-chief, mais par Oberbefehlshaber en allemand.
Les structures N à N n’apparaissent guère dans les porteurs de cadre. Si, par exemple, dans commissaire aux affaires économiques, commissaire est le porteur du cadre, aux affaires économiques décrit l’activité mais il n’est toutefois pas possible de systématiser.
Tous les composés à trois éléments ne sont pas des N prep N : il existe des structures (N Adj) Adj comme directeur général adjoint (où le porteur du cadre est directeur général) ou encore des composés à partir de composés de forme N à N Adj comme délégué aux opérations aériennes, ou N de N à N Adj comme secrétaire d’État aux Affaires étrangères (où le porteur du cadre est secrétaire d’État).
D’autres formes plus marginales en français sont constituées par les NN (directeur marketing) et par les N-N (lieutenant-colonel).
5.2. Les participants à la relation « leadership »
Après avoir étudié les contextes extraits par les divers types de requêtes présentés en section 2.1., nous avons identifié les catégories de leaders, d’activités, de rôles et d’entités gouvernées dans chaque contexte. Une fois ces arguments classés, nous nous sommes aperçus que le leader est exprimé le plus souvent par un nom propre de type « personne », ce qui n’a rien de surprenant car ces entités de type « personne » sont souvent des noms propres complets (titre + prénom + nom), suivis de syntagmes nominaux apposés concernant le statut ou le métier de la personne (le professeur Heidegger, Dr Vincent Lord, Vorsteher Andreas Sand).
Bien qu’ils soient moins nombreux, on trouve des contextes où la relation chef ne comporte qu’un seul actant, l’élément régi est alors implicite (elliptique) ou exprimé par un adjectif de nationalité pour remplacer un toponyme. On relèvera par exemple :
De manière moins fréquente (quelques occurrences seulement), le leader peut aussi être une organisation (Swiss Private Aviation SA, le groupe Lufthansa, die Deutsche Bahn AG). Dans quelques contextes, le nom complet de l’organisation est remplacé par une abréviation (UE, ONU, PE). Souvent, l’élément régi est remplacé par son nom générique. Dans les exemples suivants, le nom d’organisation « SWISS » est désigné selon la langue par société, company ou Unternehmen :
L’entité dirigée par le leader est le plus souvent une organisation. Les cas les plus fréquents sont ceux qui relient une personne avec l’organisation qui lui est rattachée, mais on rencontre aussi des cas où une organisation est dirigée par une organisation hiérarchiquement supérieure (X filiale de Y). Un nom de personne peut aussi être relié à un état. Si le corpus est à dominante économique ou politique, on constate l’apparition de relations entre organisations (comme dans le corpus SWISS ou dans le corpus du Parlement européen) alors que, dans un corpus journalistique, on rencontre plutôt des contextes où le leader est une personne.
L’activité est souvent évoquée de manière indirecte, elle peut être déduite de l’intitulé ou du modificateur du porteur du cadre « leadership » comme dans directeur financier ou directeur de publication. Le modificateur du porteur indique ici l’activité portée par le leader, la finance et l’édition.
Dans certains cas, le rôle est précisé par l’intermédiaire des prépositions ou de locutions prépositionnelles comme en tant que, comme, en qualité de en français ou par la préposition as en anglais et als en allemand :
5.3. Les verbes porteurs du cadre //leadership//
La relation chef est aussi largement exprimée par l’intermédiaire de verbes de commandement, de verbes d’état, de verbes de changement de statut employés à la voix active ou passive.
On recense des verbes pleins de commandement employés seuls comme présider, diriger, siéger, etc. en français ; to chair, to head, etc. en anglais ; leiten, vorsitzen, etc. en allemand, ainsi que des collocations équivalentes sémantiquement telles que présider la direction, assumer la présidence, prendre la direction opérationnelle, to held the post of Director, das Mandat als Präsident halten, etc. :
L’utilisation des verbes d’état être, rester et leurs équivalents anglais (to be, to remain) et allemands (sein et bleiben) permet de rendre compte de la relation chef (être/rester directeur, to be/remain chairman, Vorsitzender sein/bleiben) principalement vis-à-vis des noms propres de personnes :
La relation chef s’exprime enfin par l’intermédiaire des verbes de changement de statut par rapport à des noms de personnes (devenir, être élu, être nommé, être désigné, être délégué, être promu, to become, to be appointed as, werden, gewählt werden, ernannt werden, befördert werden, etc.) :
6. Patrons lexico-syntaxiques
C’est sur la base des observations proposées que nous avons pu définir des patrons lexico-syntaxiques pour déterminer les relations chef dans les trois langues étudiées. En effet, l’intérêt du travail mené sur la relation chef se situe sur plusieurs plans et l’un d’entre eux est de permettre de détecter ses réalisations au sein d’un corpus. À partir des corpus monolingues et multilingues alignés et étiquetés, nous avons procédé à l’analyse manuelle de la liste des contextes extraits. Nous avons ensuite établi une typologie des contextes des noms propres reliés par la relation chef en utilisant comme modèle de départ les formes du français. Ces opérations nous ont permis de définir plusieurs catégories de patrons d’extraction automatique.
La plupart des contextes concernant la relation chef s’expriment par un nom, porteur du cadre //leadership// qui relie deux noms propres de types différents (voir section précédente). La relation entre la personne et l’organisation s’exprime en français par le porteur du cadre et la préposition « de ». Le porteur du cadre est souvent un nom de fonction, éventuellement modifié par un des types de modificateurs également présentés dans la section précédente. En français, le porteur du cadre est souvent mis en apposition et postposé, comme dans l’exemple suivant :
Par contre, en anglais et en allemand, le porteur du cadre est antéposé avec le nom de l’organisation en première position :
Les verbes de commandement et les verbes de changement sont aussi utilisés pour définir des patrons. Les premiers ont comme sujet un nom de personne et une organisation comme argument. Les verbes de changement sont plutôt employés au passif, suivis du porteur du cadre //leadership// :
6.1. Conventions d‘annotation
Dans cette section, nous utilisons les annotations suivantes pour définir les patrons syntaxiques :
<Enpers> identifie un nom propre de personne ;
<Enorg> identifie un nom propre d’organisation ;
<NCAP> désigne le porteur du cadre, que l’on retrouve dans le lexique trilingue de la liste de « chefs » ;
<MOD> est un modificateur possible du <NCAP> qui peut être lui-même modifié par un adjectif (de nationalité, ordinal, ou de temporalité) ;
<mot> désigne un mot qui peut intervenir entre l’entité nommée et le porteur du cadre,
{0,n} exprime entre 0 et n mots ;
<VCAP> désigne les verbes exprimant la relation « chef » comme diriger, conduire, organiser, etc. ;
<Vchange> identifie les verbes exprimant un changement de statut comme nommer, devenir,to become, ernennen, werden ;
<terme> désigne un terme du domaine considéré, comme l’économie dans maison mère, subsidiary firm, etc.
6.2. Exemples de patrons
L’entité gouvernée peut précéder le nom porteur du cadre ou peut lui succéder. Notons que dans les deux derniers exemples, la relation chef s’établit entre deux noms propres de même catégorie : deux noms d’organisations. Pour les noms d’organisations ou de lieux, des termes particuliers indiquent la relation de hiérarchie entre les entités, comme maison mère et Muttergesellschaft où l’organisation qui est l’élément régi (on parle de filiale) est introduite par la préposition de en français et par l’antéposition suivie du trait d’union en allemand.
Une première évaluation de ces patrons lexico-syntaxiques a été réalisée pour le français sur les corpus Swiss (493 contextes) et Parlement (982 contextes). Ces contextes contiennent des occurrences de la relation chef, identifiés à l’aide du lexique trilingue. La plupart des contextes (77 %) ne contiennent que l’unité lexicale qui exprime le cadre Leadership, ces participants (l’entité gouvernée, le leader) demeurent absents. Nous nous sommes intéressés aux contextes qui contiennent au moins deux participants.
Le Tableau 3 montre quelques résultats de l’évaluation des patrons appliqués sur les corpus. Les patrons sont dépendants de l’étiquetage proposé par Unitex, mais aussi par l’annotation des noms propres obtenue à l’aide de CasSys. Ces informations sont exploitées par les patrons d’extraction automatique. Les patrons les plus productifs sont ceux construits à l’aide d’un nom porteur de cadre //leadership// qui fait partie du lexique trilingue (ligne 1 du Tableau 3, avec 81 occurrences dans le corpus Swiss et 111 occurrences dans le corpus du Parlement). Le porteur de cadre se trouve dans une apposition pour préciser le statut de la personne, ou bien il compose le prédicat avec le verbe être. Les patrons qui sont construits autour des verbes de commandement <VCAP> ou de changement d’état <Vchange> sont bien moins fréquents (respectivement 56 et 89 occurrences dans les corpus). Les verbes porteurs de cadre sont souvent accompagnés d’un nom de fonction (dernier patron présent dans le Tableau 3). Des erreurs fréquentes d’identification des instances de la fonction chef apparaissent si plusieurs noms d’organisations sont présents dans la même phrase ou bien s’il y a des conjonctions de plusieurs statuts et noms de fonctions.
7. Conclusion
Cette contribution présente les premiers résultats d’un projet de recherche qui a comme objectif la conceptualisation de la relation chef, une relation structurante au sein d’un groupe d’humains ou d’une organisation. Pour atteindre cet objectif, nous avons étudié cette relation dans le contexte de la sémantique des cadres de Fillmore (1985). Nous avons également effectué un recensement trilingue des porteurs du cadre de cette relation en français, en anglais et en allemand. Cette étude contrastive a été réalisée sur plusieurs corpus monolingues et multilingues (parallèles et comparables) mis à disposition par le projet CLARIN ou constitués spécialement pour notre projet. À partir des données disponibles pour les trois langues, nous avons analysé les divers porteurs de cadres et les catégories d’arguments de cette relation d’accessibilité. Nous avons développé une base de patrons d’extraction automatique sur la base de cette relation. Les résultats de cette étude permettront, sur le plan théorique, d’introduire, nous l’espérons, un peu plus de clarté sur une relation relativement peu étudiée sur le plan linguistique et sur le plan pratique, l’amélioration du système de classification des noms propres. La base de patrons lexico-sémantique peut être utilisée par un système de questions-réponses, ou d’extraction d’information. Sur le plan de la traduction et de l’extraction de données terminologiques, les patrons d’exportation d’annotations des noms propres sont en mesure d’apporter une aide considérable à la création de glossaires multilingues spécialisés dans une multitude de domaines, car des « chefs », il y en a partout.
Parties annexes
Remerciements
Nous adressons nos remerciements à Koenraad de Smedt pour l’accès au corpus Oslo ainsi qu’à Nuria Bel (Université Pompeu Fabra de Barcelone) pour l’accès étendu au corpus IULA.
Notes
-
[*]
Équipe Fonctionnements discursifs et traduction (FDT), Unité de recherche linguistique, Langues, Paroles (LiLPa).
-
[*]
Équipe Fonctionnements discursifs et traduction (FDT), Unité de recherche linguistique, Langues, Paroles (LiLPa).
-
[*]
Équipe Fonctionnements discursifs et traduction (FDT), Unité de recherche linguistique, Langues, Paroles (LiLPa).
-
[*]
Équipe Fonctionnements discursifs et traduction (FDT), Unité de recherche linguistique, Langues, Paroles (LiLPa).
-
[1]
Projet Common Language Ressource Infrastructure (CLARIN)
-
[2]
Selon la définition de WordNet : « That which is perceived or known or inferred to have its own distinct existence (living or nonliving). »
-
[3]
Dans le sens de « chef suprême des armées en temps de guerre » (TLFI).
-
[4]
Définition prise de la base FrameNet, traduite par nos soins (https://framenet.icsi.berkeley.edu/fndrupal/index.php?q=frameIndex).
-
[5]
Exemple pris de FrameNet et traduit en français et en allemand par nos soins.
-
[6]
L’exemple 2, provenant de Wikipédia (consulté en septembre 2012), est traduit en anglais et en allemand.
-
[7]
L’exemple 3 est pris de Le Nouvel Observateur, 23.03.2010 et traduit par nos soins en anglais et en allemand.
-
[8]
L’exemple 4 provient du site www.cnt-f.org/fte?CNT-education-69-College-Barbusse. Il a été traduit par nos soins en anglais et en allemand.
-
[9]
Nous avons traduit l’exemple 5 (provenant de FrameNet) en français et en allemand.
- [10]
- [11]
- [12]
-
[13]
Une version plus récente est disponible sous le nom de CasEN.
-
[14]
ESTER 2 Entités nommées, Dates, heures et montants – Guide d’annotations : consulté le 10 septembre 2012, www.afcp-parole.org/camp_eval_systemes_transcription/docs/Conventions_EN_ESTER2_v01.pdf
-
[15]
Les exemples présentés dans cette section proviennent des corpus constitués par nos soins ou mis à disposition par le projet CLARIN.
Bibliographie
- Baker, Collin, Fillmore, Charles J., et al. (2003) : The Structure of the Framenet Database. International Journal of Lexicography. (16)3 : 281-296.
- Cruse, Alan D. (1986) : Lexical Semantics. Cambridge : Cambridge University Press.
- Fellbaum, Christiane (1998) : WordNet : An Electronic Lexical Database. Princeton : MIT Press.
- Fillmore, Charles J. (1968) : Lexical entries for verbs. Dordrecht : D. Reidel.
- Fillmore, Charles J. (1985) : Frames and the semantics of understanding. Quaderni di Semantica. (6)2 : 222-254.
- Friburger Nathalie et Maurel Denis (2004) : Finite-state transducer cascade to extract named entities in texts. Theoretical Computer Science. 313 : 94-104.
- Fritzinger, Fabienne, Kisselew, Max, et al. (2009) : Werkzeuge zur Extraktion von signifikantenWortpaaren als Web Service. In : Wolfgang Hoeppner, Angela Klutsch, Marc Lechtenfeld et Nino Simunic (dir.) Symposium « Sprachtechnologie und eHumanities ». (GSCL Symposium Sprachtechnologie und eHumanities, 26-27 Februar 2009, Universität Duisburg-Essen) Duisburg : Bteilung für Informatik und Angewandte Kognitionswissenschaft Fakultät für Ingenieurwissenschaften Universität Duisburg-Essen, 32-43. Consulté le 30 juillet 2011, http://duepublico.uni-duisburg-essen.de/go/technische-berichte/2009/01
- Gross, Gaston (2011) : Classification sémantique de collectifs humains. Cahiers de lexicologie. 98(1) : 65-81.
- Gross, Gaston (1995) : À propos de la notion d’humain. In : Jacques Labelle et Christian Leclère (dir.) Lexiques-Grammaires comparés en français : actes du colloque international de Montréal. (1er colloque international, 3-5 juin 1992, Montréal), 71-80.
- Ide, Nancy et Veronis, Jean (1994) : MULTEXT : Multilingual Tools and Corpora. Proceedings of COLING 1994 - The 15th International Conference on Computational Linguistics (15th International Conference on Computational Linguistics [COLING 1994], August 5-9, 1994, Kyoto) Vol. 1, 588-592. Consulté le 14 mars 2014, http://anthology.aclweb.org//C/C94/C94-1097.pdf
- Kraif, Olivier (2000) : Extraction automatique de correspondances lexicales : évaluation d’indices et d’algorithmes, Actes de TALN 2000, 16-18 octobre 2000, Lausanne, p. 225-236.
- Lyons, John, Cambridge University Press, Oct. 27, 1977.
- Mel’Čuk, Igor (dir.) (1984) : Dictionnaire explicatif et combinatoire du français contemporain, vol. I. Montréal : Les Presses de l’Université de Montréal.
- Mel’Čuk, Igor (dir.) (1988) : Dictionnaire explicatif et combinatoire du français contemporain, vol. II. Montréal : Les Presses de l’Université de Montréal.
- Mel’Čuk, Igor (dir.) (1992) : Dictionnaire explicatif et combinatoire du français contemporain, vol. III. Montréal : Les Presses de l’Université de Montréal.
- Mel’Čuk, Igor (dir.) (1999) : Dictionnaire explicatif et combinatoire du français contemporain, vol. IV. Montréal : Les Presses de l’Université de Montréal.
- Mel’Čuk, Igor, Clas, A., et al. (1995) : Introduction à la lexicologie explicative et combinatoire. Louvain-la-Neuve : Duculot.
- Miller, George (1995) : WordNet : A Lexical Database for English. Communications of the ACM, vol. 38, n° 11 : p. 39-41.
- Paumier, Sébastien (2000) : Nouvelles méthodes pour la recherche d’expressions dans de grands corpus. In Anne Dister (dir.) Actes des troisièmes journées Intex (13-14 juin 2000, Université de Liège). Revue, Informatique et Statistiques dans les sciences humaines. 36(1-4) : 289-295. Consulté le 14 mars 2014, http://promethee.philo.ulg.ac.be/RISSHpdf/annee2000/Articles/SPaumier.pdf
- Ruppenhofer, Josef, Ellsworth, Michael, et al. (2010) : FrameNet II : Extended Theory and Practice. Berkeley. Consulté le 14 mars 2014, http://framenet2.icsi.berkeley.edu/docs/r1.5/book.pdf.
- Steinberger, Ralf, Pouliquen, Bruno, et al. (2006). The JRC-Acquis : A multilingual aligned parallel corpus with 20+languages, Proceedings of LREC’2006, Italy.
- Steinberger, Ralf, Eisele, Andreas, et al. (2012) : DGT-TM : A freely available Translation Memory in 22 languages. In Nicoletta Calzolari, Khalid Choukri et al. (dir.) Proceedings of the Eight International Conference on Language Resources and Evaluation. (LREC’12, 21-27 May 2012, Istanbul). European Language Resources Association. Consulté le 14 mars 2014, http://arxiv.org/pdf/1309.5226.pdf
- Tran, Mickaël et Maurel, Denis (2006) : Prolexbase - Un dictionnaire relationnel multilingue de noms propres. Traitement automatique des langues (TAL). 47(3) : 115-139.
- Vossen, Piek (dir.) (1998) : EuroWordNet – A Multilingual Database with Lexical Semantic Networks. Dordrecht : Kluwer Academic Publishers.