Corps de l’article

Introduction

La naissance de la statistique linguistique peut être située en France au début des années soixante. C’est sous cette appellation que Guiraud définit une nouvelle discipline qui ne l’est pas à l’étranger puisque Guiraud en propose une bibliographie dès 1954[1]. Le modèle anglais se nomme quantitative linguistics et son représentant le plus connu Gustav Herdan[2]. Au même moment les thèses de Muller[3] faisant appel à l’adjectif lexical semblent restreindre le champ d’application et annoncer le terme de lexicométrie sous lequel la discipline va se développer vingt ans plus tard[4].

À l’origine, deux événements expliquent l’intérêt porté à cette voie de recherche : le premier est un ouvrage de G.K. Zipf[5] où l’on apprend que la fréquence d’utilisation d’un mot est inversement proportionnelle à son rang, les mots d’un texte étant classés par fréquence décroissante. En réalité les travaux de Zipf sont connus depuis 1935 sous la fameuse loi de Zipf dont les applications se multiplient même en dehors du langage. Le second facteur favorable tient à la disponibilité de l’outil informatique, capable de réaliser traitements et calculs.

1. La chiquenaude initiale

1.1 La traduction automatique

Les perspectives et les illusions créées par l’avènement de l’ordinateur ont engagé d’emblée la recherche dans le problème le plus ardu : celui de la traduction automatique. Le premier vol dans l’espace accompli par Gagarine en 1961 avait montré le retard de l’Amérique non seulement dans la technologie des fusées mais aussi dans l’information et la maîtrise des langues étrangères. Des crédits inhabituels ont alors alimenté les travaux de linguistique, la plupart orientés vers la traduction.[6] La France s’est aussi engagée dans cette voie, un peu plus tard, mais plus longtemps, notamment à Grenoble dans un laboratoire (CETA, puis GETA) fondé et animé par Bernard Vauquois[7]. Dès 1959 paraissait La Machine à traduire de E. Delavenay qui rendait compte des travaux des uns et des autres[8].

1.2 Index, Concordances et Dictionnaires

Là aussi les débuts ne sont pas proprement français. Le premier qui imagine un traitement automatique (ou mécanographique) des données textuelles est un jésuite italien, Roberto Busa (qui vient de s’éteindre en 2011, presque centenaire). Le père Busa aimait à raconter la visite qu’il fit en 1949 au siège d’IBM. Dans l’antichambre qui menait au bureau de Thomas J. Watson, le fondateur, il s’était saisi d’un écriteau vantant la puissance et la célérité de l’entreprise : « Pour les urgences, c’est déjà fait. Pour les miracles c’est en cours. » Le Père Busa brandit l’écriteau sous le nez du directeur, et, comme il croyait au miracle, il l’obtint sous la forme d’un mécénat de trente ans qui aboutit à l’Index Thomisticus en 56 volumes, grand format, reliés cuir. Un ingénieur d’IBM, Antonio Zampolli, avait été attaché à ce projet, avant de fonder le CNUCE de Pise, de présider l’ALLC (Association for Linguistic et Litterary Computing) et de devenir l’un des acteurs majeurs de l’informatique européenne.

En France, quelques années plus tard, grâce à l’appui de René Moreau[9], directeur du développement scientifique d’IBM-France, Bernard Quemada et les chercheurs bisontins mettaient en route le Centre d’étude du vocabulaire français, en prolongeant une entreprise antérieure initiée dès 1953 par Wagner et Guiraud et vouée à l’établissement d’un Index du Vocabulaire du théâtre classique. À la fin des années 50, le Recteur Imbs démarrait le chantier lexicographique qui allait devenir le TLF et où aucun exemple ne devait se trouver qui ne fût daté et signé. Tous ces projets sont d’ordre documentaire. La technique n’y est guère sollicitée que pour fournir des exemples, des références et des relevés. On utilise certes la notion de fréquence et en 1971 R. Martin publie le Dictionnaire des fréquences qui rend compte des données amassées au Trésor de la langue française. Mais brutes ou relatives, ces fréquences sont données telles quelles, sans donner lieu à une véritable exploitation.

1.3 La statistique linguistique

1 – C’est Pierre Guiraud qui imagine le premier le profit statistique qu’on pourrait tirer des données engrangées. Mais isolé en France, il note non sans quelque dépit : « La linguistique est la science statistique type; les statisticiens le savent bien; la plupart des linguistes l’ignorent encore[10] ». Les idées de Guiraud ont pourtant germé alentour, à Paris autour de Wagner ou Georges Gougenheim, à Liège autour d’Etienne Evrard, à Strasbourg autour de Ch. Muller.

2 – Le CREDIF, créé en 1959 sous la direction des linguistes Georges Gougenheim et Paul Rivenc, se proposait une mission pédagogique : constituer un corpus d’énoncés oraux afin d’établir la liste des mots les plus utiles à la communication en français. Aux simples fréquences s’ajoutaient des calculs plus complexes de disponibilité[11].

3 – Sur le même site de l’ENS de Saint Cloud, un autre laboratoire s’installait sous l’égide de Robert-Léon Wagner et Maurice Tournier : le Centre de lexicologie politique. L’équipe qui était épaulée par des mathématiciens ou informaticiens comme G. Th. Guibaud et, plus tard, Pierre Lafon et André Salem, allait pousser plus loin la méthodologie statistique et l’instrumentation informatique, en produisant un manuel de saisie (le machinal), divers programmes de traitement (dont le logiciel Pistes de P. Muller), des colloques (dont le premier en 1968) et une publication périodique, la revue Mots.

4 – Fondé à l’Université de Liège en novembre 1961, le Laboratoire d’Analyse statistique des Langues anciennes (L.A.S.L.A.) se donnait pour objectif d’analyser les textes classiques - latins ou grecs - en recourant aux technologies nouvelles. Il ne s’agit plus seulement de produire des index, comme l’Index Thomisticus du Père Busa, mais d’analyser chaque forme avant de la soumettre aux tris et aux comptages. Pour la première fois la statistique apparaît pleinement dans le titre et la pratique. Pour la première fois aussi la lemmatisation reçoit l’aide des machines. Il est vrai qu’un latiniste doué de tous les dons, Etienne Evrard, savait déjà maîtriser les ordinateurs, les programmes et les calculs, et en exploiter savamment les résultats.[12]

5 – Au même moment, à Strasbourg, Charles Muller s’employait à établir la méthodologie de la discipline, en l’appliquant au français, et principalement à Corneille. Ses deux thèses sont publiées respectivement en 1964 et 1967. Mais l’influence prépondérante du « lexicomaître »[13] sur des générations de lexicologues vient de son manuel de 1968[14]. Au lieu d’être enseignées par un mathématicien sévère, les leçons de probabilité et de raisonnement statistique ont trouvé sous la plume de Muller une clarté rigoureuse, mais souriante. Il s’agissait alors d’une statistique inférentielle fondée sur le schéma d’urne et accessible aux calculettes de l’époque. Dix ans plus tard avec l’abondance des données, la taille des tableaux, la puissance des méthodes multidimensionnelles et la disponibilité des ressources informatiques, un autre catéchisme devenait nécessaire et ce sont deux mathématiciens, Lebart et Salem, qui prirent le relais de Muller[15]. L’ordinateur remplaçait la calculette et l’analyse des données complétait la statistique inférentielle.

2. L’évolution

La comparaison de ces deux manuels montre assez l’évolution de la discipline. Dans les années 70, on se préoccupait de richesse lexicale, de spécificités, de corrélation et on appliquait aux fréquences les lois statistiques (normale, binomiale et hypergéométrique). Vingt ans plus tard, les textes littéraires ont cédé la place aux données commerciales, sociologiques, psychologiques ou politiques. Sous la pression des instituts de sondage, des études de marché et de la veille technologique, de nouveaux logiciels sont nés dont les résultats acquièrent un impact économique. Et les méthodes ont gagné en puissance ce qu’elles perdaient en prétention. Devenue plus modeste et seulement descriptive, l’analyse multidimensionnelle des données a offert des vues synthétiques, mettant de la lumière dans l’opacité des tableaux. Reste à savoir si vingt ans plus tard une nouvelle étape n’a pas été franchie.

Au moment où un dictionnaire de la discipline est en gestation, l’idée nous est venue d’examiner la liste des mots retenus pour cet ouvrage. Si on avait consulté Guiraud ou Muller il y a quarante ou cinquante ans, la liste eût été différente, avec des lacunes (là où ni le mot ni la chose n’existaient) et des points de rencontre (car le dictionnaire d’une discipline doit recouvrir toute son histoire, y compris ses débuts). On se contentera de cette nomenclature en la projetant sur un immense corpus issu de Google Books.

Cette base qui répond au nom de Culturomics peut être interrogée pour n’importe quel mot ou expression, par exemple la notion de statistique. Il suffit de s’adresser au site http://books.google.com/ngrams, en choisissant le français parmi sept langues et en précisant les dates de départ et d’arrivée. La figure 1 montre le progrès du mot de 1800 à 2000, avec une pointe à la fin du XIXe et au milieu du XXe et un fléchissement dans la phase finale[16]. Cet essoufflement est moins celui de la discipline que du mot qui la désigne et que d’autres expressions peuvent remplacer. Ainsi en s’en tenant à la période qui nous intéresse on voit dans la figure 2 que l’appellation initiale statistique linguistique domine jusqu’en 1980, puis s’efface devant la lexicométrie, laquelle à son tour donne des signes de faiblesse, tandis que des termes concurrents semblent vouloir assurer la relève. La figure 3 montre que le profil des promoteurs français accompagne ce décalage qui voit Guiraud céder la place à Muller, qui s’incline à son tour devant Benzécri et ses épigones. Le mot cooccurrences, que nous avons ajouté au graphique et qui est en croissance rapide, n’est pas un candidat crédible, n’ayant pas le profil idoine, mais il indique la tendance où se porte la recherche actuelle[17].

Figure 1

Fréquence de l’emploi du mot statistique de 1800 à 2000

Fréquence de l’emploi du mot statistique de 1800 à 2000

-> Voir la liste des figures

Figure 2

Fréquence de l’emploi des termes statistique linguistique et lexicométrie de 1950 à 2000

Fréquence de l’emploi des termes statistique linguistique et lexicométrie de 1950 à 2000

-> Voir la liste des figures

Figure 3

Profil des promoteurs français

Profil des promoteurs français

-> Voir la liste des figures

On est amené à multiplier l’interrogation de Culturomics autant de fois que le présent dictionnaire compte d’entrées. On attend une vue d’ensemble qui situe dans l’histoire les unités représentatives de la discipline. La figure 4 restitue le résultat que la statistique obtient quand elle s’applique à elle-même. On n’y trouvera cependant que les 71 mots qui ont plus d’un million d’occurrences dans le corpus.

Figure 4

Analyse factorielle des 71 mots ayant plus d’un million d’occurrences dans Goofre

Analyse factorielle des 71 mots ayant plus d’un million d’occurrences dans Goofre

-> Voir la liste des figures

Or la chronologie est parfaitement reconnaissable dans le croissant qui parcourt l’espace de droite à gauche. Les premières tranches mettent en oeuvre les ingrédients habituels de la statistique inférentielle. On isole des unités (unité, forme, mot, ligne, paragraphe). On établit des partitions (partie, population, section, volume, série, classe). On fait des calculs probabilistes (produit, mesure, moyenne, union, écart réduit, probabilité) d’après un modèle théorique ou expérimental (mesure, coefficient, indice, loi, pondération, limite). On étudie la fréquence des mots, leur distribution, leur répartition, leur richesse, leur accroissement. On fabrique des concordances. On dresse des courbes. On délimite le vocabulaire caractéristique. Bref on suit l’enseignement de Muller.

Les mots ou valeurs qui se concentrent dans la partie gauche réservée aux tranches récentes correspondent plutôt à ce qu’on attend de l’analyse des données textuelles. L’accent y est mis sur la variété des données qui peuvent être politiques, scientifiques, commerciales aussi bien que littéraires (données, corpus, texte, chaîne, document, discours, enquête, entretiens, questionnaire, journal, oral, corpus, contexte). Un soin particulier est porté à la préparation de ces données et à leur étiquetage (édition, source, OCR, norme, normalisation, standard, désambiguïsation, catégorisation, transcription, annotation, étiquetage, filtrage, balise, TEI). Si l’analyse factorielle est connue dans les périodes précédentes, son vocabulaire tend à se préciser et à se formaliser (cluster, AFC, ACP, dimension, contribution, paramètre, vecteur). On semble porter intérêt au contenu sémantique plutôt qu’aux questions morphologiques ou syntaxiques (thésaurus, dictionnaire, concept, contenu, champ, motif, pôle, focus). Enfin la recherche paraît s’intéresser moins aux mots individuels qu’à leur association (cooccurrences, collocation, réseau, proximité, distance)[18].

3. Perspectives

1 – S’agissant du français, on aurait pu s’adresser à la Bibliothèque nationale de France, qui est riche de 14 millions de documents, dont 11 millions de livres sur le site de Tolbiac. Ce serait comparable à l’offre de Google Books, si l’accès était pareillement électronique. Malheureusement le nombre de documents accessibles par Internet, principalement dans la base Gallica, est loin d’atteindre ce chiffre. On a certes accès au catalogue et un choix sophistiqué des paramètres de métadonnées permet une sélection aussi fine que l’on veut. Mais le texte même de l’ouvrage échappe le plus souvent à l’internaute. Et quand le texte est transmis, il n’est lisible le plus souvent qu’en mode image. Certes la transcription en mode texte est parfois proposée. Mais c’est souvent le résultat brut du lecteur optique, avec la mention du taux d’erreur probable. Quand ce taux s’abaisse au-dessous de 99 %, cela signifie qu’un caractère sur cent est douteux ou fautif et donc qu’un mot sur vingt l’est aussi (la longueur moyenne du mot tournant autour de cinq lettres). Naturellement le pourcentage de réussite diminue à mesure qu’on s’éloigne dans le passé, les documents anciens souffrant des outrages du temps et proposant souvent des polices inhabituelles. Ces défauts sont communs à tous les corpus ou bases fondés sur la lecture automatique des documents, mais ils sont plus sensibles dans Gallica parce que les siècles passés y sont moins sous-représentés. Encore ne voit-on dans les résultats que les lectures correctes du mot proposé, parce qu’il ne vient pas à l’esprit de chercher des lectures erronées. Quoique Gallica soit une base déjà ancienne et largement antérieure à Google Books, son extension n’a pas la même ampleur et c’est ce qui limite son intérêt statistique. Le nombre de documents exploitables en mode texte est limité à 200 000 alors que le rival américain en propose des millions. Et les informations proprement statistiques sont réduites au minimum, à la seule mention de la fréquence du mot cherché. Difficile avec si peu d’éléments d’établir une courbe, encore moins un tableau[19].

2 – En réalité les textes les plus fiables de Gallica, en dehors des plus récents transmis par les éditeurs sous forme numérique, sont ceux qui relèvent de l’héritage de Frantext. Ceux-là ne doivent rien à la lecture optique, dont l’invention par Ray Kurzweil en 1974 est postérieure à la saisie initiale, réalisée par des clavistes sur ruban perforé. Cette saisie manuelle, dûment revue et corrigée durant cinquante ans, a résisté à tous les changements de systèmes ou de supports, passant sans encombre du ruban perforé à la bande magnétique, puis au disque et enfin à toutes les variétés de mémoires disponibles aujourd’hui.

À cette fiabilité du texte, même lorsqu’il s’agit d’éditions anciennes, Frantext ajoute bien d’autres vertus : un certain équilibre entre les époques, ce qui autorise les comparaisons et donne une assise solide aux calculs d’évolution; un large empan chronologique recouvrant cinq siècles de publication; une homogénéité voulue des textes dont le choix obéit à des critères précis, quant au genre et au niveau de langue; une constance dans les services offerts à la communauté scientifique, le même logiciel Stella étant maintenu sans changement sur Internet depuis vingt ans; un accroissement modéré et un enrichissement contrôlé des données qui ménage la compatibilité avec l’exploitation antérieure. Bref dans le projet initial du Trésor de la langue française comme dans les produits dérivés que sont le TLFi et Frantext, on observe une conception claire des objectifs et une définition précise des moyens qui ont fait de la réalisation française un modèle. Or une particularité de ce modèle nous intéresse : c’est la part qu’y prend la statistique. Dès l’origine le TLF réserve pour chaque article une rubrique finale où l’on relève la fréquence du mot dans l’ensemble du corpus, mais aussi dans les sous-ensembles constitués autour de l’époque et du genre. Pendant toute la fabrication du dictionnaire, les rédacteurs ont eu à leur disposition, outre les concordances, des informations chiffrées portant sur les fréquences et les cooccurrences[20] et s’appliquant aux graphies, aux lemmes, aux parties du discours, aux expressions, aux constructions. La plupart des fonctions documentaires et statistiques qui ont fait le succès de Frantext étaient déjà opérationnelles en mode local sur le site de Nancy ou même, en mode distribué, sur les réseaux nationaux (Transpac ou le minitel) qui ont précédé Internet. Elles trouvaient aussi leur application dans le cédérom Discotext produit et distribué en 1984. Mais c’est en 1998, avec Frantext sur Internet, que les recherches proprement statistiques se trouvent grandement facilitées. L’utilisation reste avant tout documentaire et les résultats chiffrés sont assez discrets. Car, pour ne pas effrayer les populations littéraires, Frantext se contente souvent de fournir des pourcentages ou fréquences relatives. Mais il est facile d’en déduire les fréquences réelles, de calculer des écarts, et de bâtir des courbes, des tableaux de distribution et des analyses multidimensionnelles, en opposant les textes les uns aux autres, ou les auteurs, ou les genres ou les époques. Le traitement statistique n’étant pas totalement pris en charge par Frantext, l’utilisateur a besoin de programmes complémentaires et spécialisés[21].

Pourtant, quels que soient son renom et son mérite, Frantext a des perspectives limitées. Cinquante ans de passé font de l’ombre à son avenir. Cela tient pour une part à la timidité de son appareillage statistique : se contenter de distribuer du texte sous forme de listes de mots ou de séries de nombres, à l’heure où les images ont envahi Internet, c’est se priver le la lisibilité immédiate propre à la représentation graphique. Mais le handicap le plus lourd vient des données : on a loué leur fiabilité et leur homogénéité, mais elles ne représentent guère qu’un seul usage du français, celui de la langue relevée, littéraire et classique. C’est le français qu’on apprend dans les manuels de l’école ou qu’on lit dans les livres des bibliothèques. Ce n’est pas le français qu’on parle ou qu’on utilise dans la vie courante, dans les journaux et les médias. Il porte le témoignage de la culture, non le reflet de l’actualité. Certes le catalogue s’agrandit en s’ouvrant à la production récente : on en est présentement à 4 000 références et 270 millions de mots. Mais la BNF pèse dix fois plus, Google Books mille fois plus et le rythme de croissance y est bien plus rapide. Enfin Frantext reste bridé par une convention, faite avec les éditeurs, qui limite la taille des extraits et contraint l’utilisateur à un abonnement préalable. Cette souscription peut se justifier s’il s’agit de communiquer un texte ou un extrait sous copyright. Mais on n’en voit nullement la légitimité juridique s’il s’agit d’informations quantitatives réalisées à partir du texte, qu’il soit ou non du domaine public. Enfin Frantext n’a pas retenu la solution intermédiaire qui consisterait à déporter le texte, au moins le texte libre de droits, et à l’offrir au téléchargement afin que l’utilisateur lui applique le traitement informatique et statistique de son choix. Cette fonction de distribution a été sous-traitée à un organisme annexe, le CNRTL, dont le catalogue actuel est très restreint.

3 – Sketchengine n’a qu’un point commun avec Frantext : la nécessité de souscrire un abonnement, mais ici pour des raisons de rentabilité et non de copyright[22]. Pour le reste tout les oppose. Frantext a des données propres. Sketchengine écume le Web et en tire sa subsistance et ses corpus. Le premier s’attache aux livres et aux textes complets, le second à des contextes courts, au mieux à des documents de peu d’ampleur. Le premier est diachronique, le second synchronique.

Comme beaucoup d’applications branchées sur Internet, Sketchengine explore les données du WEB, non pour en tirer des informations sur les nouveautés ou les tendances comme fait le data mining, mais pour en extraire de larges corpus représentatifs d’une langue donnée. Le point de départ est une liste de quelques centaines de mots de moyenne fréquence, que l’on considère comme la semence[23]. Pour engranger la récolte, un processus utilisant les moteurs Google, Bing ou Yahoo est réitéré des milliers de fois, à la recherche des sites et des pages où apparaissent simultanément trois mots tirés de la liste au hasard. À chaque fois on recueille les extraits en les empilant dans un corpus cumulatif avec les étiquettes correspondant aux métadonnées disponibles (à tout le moins l’adresse et le titre du site et la date de l’enregistrement). Vient ensuite un nettoyage des données qui expurge les doublons (grâce au logiciel « onion ») et élimine (grâce au logiciel « justext ») la gangue des balises et des hors-textes divers dont s’entoure abondamment le standard HTML (surtout au début et à la fin du document[24]). Divers filtres sont alors appliqués pour extraire le contenu intéressant : pour être retenu le document doit remplir plusieurs conditions : être de type TXT ou HTML, avoir une longueur suffisante (au moins 500 mots) et contenir un dosage minimum de mots grammaticaux sans lesquels un texte ne saurait être estimé normal. Ce contrôle automatique exercé sur des critères simples, sinon toujours pertinents, rejette beaucoup de sites et beaucoup de données dans les sites acceptés : le rapport entre ce qui est retenu et ce qui est examiné se situe entre 1/10 et 1/1000. De toute façon l’exploitation d’un site est limitée en quantité pour assurer au corpus plus de diversité. L’automate peut ainsi empiler jusqu’à un milliard de mots par jour. Les données textuelles recueillies reçoivent alors des traitements linguistiques pour en assurer la lemmatisation (TreeTagger est utilisé pour les langues occidentales) et toute une série d’opérations statistiques pour en permettre une consultation sophistiquée.

La demande la plus simple est documentaire, c’est la recherche de concordances. Le concordancier de Sketchengine restitue le contexte (ligne ou phrase) de tout objet qu’on lui propose : graphie, lemme ou expression avec filtres divers. Il peut aussi examiner l’environnement du mot-pôle et classer les mots cooccurrents selon le type de rapport qu’ils entretiennent avec celui-ci (objet, sujet, qualification, coordination, attaches prépositionnelles, etc.) et selon la force de l’aimantation exercée par le pôle. Ainsi peut-on faire une monographie sur le mot « samedi » et observer que les mots qui l’accompagnent le plus souvent sont dimanche, dernier, prochain, pluvieux et ensoleillé, exprimant ainsi le rôle majeur que joue le week-end dans les préoccupations des gens. En ajoutant à l’étude le profil des autres jours de la semaine, on obtient une typologie sociologique du rythme hebdomadaire, ou du rythme saisonnier si l’on s’attache aux mois de l’année. Des sondages de toutes sortes s’offrent à la recherche, quand on met en balance des valeurs comme la liberté, la justice, l’égalité, la communauté, ou quand on répertorie les péchés capitaux.

À titre d’exemple, les hommes politiques de la scène nationale pourraient observer sans grands frais l’image qui est la leur dans Internet et dont rend compte la figure 5. Il s’agit d’une analyse factorielle qui réunit les contextes où l’on rencontre le nom des acteurs majeurs de la cinquième république. Le sous-corpus extrait du corpus FrTenTen12[25] de Sketchengine est le fruit de 37 consultations, dont chacune est consacrée à un homme politique (président, ministre ou chef de parti) et relève de façon aléatoire 5000 concordances-citations[26]. Le calcul porte sur l’environnement des 279 substantifs les plus fréquents du corpus (où figurent par définition les noms des hommes politiques concernés, chacun ayant au moins 5000 occurrences). Le tableau, carré et symétrique, soumis à l’analyse croise ces mêmes mots en ligne et en colonne (à l’intersection de la ligne (i) et de la colonne (j) on a le nombre de fois où mot « i » cooccurre avec le mot « j »). S’agissant d’une enquête sur des hommes liés au temps historique, on ne se sera pas surpris de voir la chronologie régner sur le premier facteur et séparer les anciens des modernes. La dérive du temps, évidente dans les noms propres, s’observe aussi parmi les noms communs. Ceux qu’on trouve à gauche appartiennent à l’actualité politique[27] des années 2000 (c’est-à-dire des batailles électorales et particulièrement des présidentielles de 2007 et 2012). On y voit s’affronter les candidats au milieu des sondages, des campagnes et des votes (débat, déclaration, programme, émission, média, opinion, parti, soutien, militant, candidature, primaire, présidentielle, tour, résultat, victoire). Avec le recul du temps, la confrontation est plus apaisée dans la moitié opposée. Mort ou retraite, certains des acteurs ont quitté la scène politique. On y voit leur oeuvre plutôt que leur ambition et l’histoire plutôt que l’actualité.

Figure 5

Analyse factorielle des corrélats dans le corpus des hommes politiques

Analyse factorielle des corrélats dans le corpus des hommes politiques

-> Voir la liste des figures

Quant au second facteur qui oppose le haut et le bas de la figure, on pourrait s’attendre à y trouver le clivage gauche-droite. Et ce serait peut-être le cas si les discours des hommes politiques étaient directement en cause. Or ce qu’ils disent n’importe pas, mais seulement ce qu’on dit d’eux. Et dans les propos des tiers, où la comparaison est fréquente, la droite et la gauche peuvent cohabiter, et Mitterrand voisiner avec de Gaulle - ce qu’on observe en effet dans le graphique. L’opinion tend à classer - et à confronter - les gens selon leur rang. Les présidents de la République occupent le haut du pavé, dans la moitié supérieure, où ils se donnent la main dans l’ordre à peu près chronologique[28]. Les premiers ministres sont relégués dans la moitié inférieure, où Balladur voisine avec Rocard, Jospin avec Villepin, Mauroy avec Juppé. Tandis que les présidents ont le privilège des valeurs et des objectifs nobles de la politique (peuple, famille, homme, femme, pays, société, valeur, liberté, justice, loi, démocratie, politique, guerre, mort), les premiers ministres n’ont droit qu’à la gestion administrative des affaires (ministère, cabinet, comité, conseil, commission, directeur, secrétaire, conseiller, assemblée, groupe, chef, membre, député, maire, poste, finance, université, presse, fonction, réforme, emploi, etc.).

4 – De telles analyses cooccurrentielles ne sont pas possibles sur le site Culturomics que nous avons rencontré précédemment à l’occasion de l’évolution de la lexicométrie (Figures 2 et 4). Car si le texte d’une citation est nominalement accessible dans Google Books, il disparaît dans le produit dérivé Culturomics en ne laissant que des traces de la lecture : des ngrammes ou tronçons de texte dont le plus long ne dépasse pas cinq mots. Mais l’entreprise de Google offre des avantages appréciables en qualité comme en quantité. En extension elle l’emporte largement dans le domaine français, avec un volume dix fois supérieur : près de 100 milliards de mots dans la version de 2012[29]. Et la couverture chronologique, si rétrécie et incontrôlable dans Sketchengine, s’étend ici sur des siècles, en ouvrant des perspectives sur l’histoire des mots et des réalités dont les mots portent témoignage. La qualité des sources est aussi à l’avantage de Google. Internet est un fourre-tout où la parole est libre et les contrôles impraticables. Le pompage auquel se livre le « spider » de Sketchengine a beau multiplier les filtres, il reste insensible aux barbarismes qui se multiplient sur les réseaux sociaux. Comme Google Books ne s’intéresse qu’aux livres, de même que la B.N. et Frantext, on accède par là même à un certain niveau de langue et de culture, que Facebook ne peut garantir. Un simple sondage en donne la mesure : le rapport de fesait à faisait est de 388213/1474862, soit 2,6 % dans Sketchengine alors qu’il s’abaisse à 55584/9494928, soit 0,6 % dans Culturomics[30]. Sans viser ni atteindre la langue relevée et littéraire de Frantext, Google Books accepte le tout-venant de l’édition, surtout dans les publications de l’actualité technique, sociale ou médiatique. Mais la barrière du livre imprimé le protège contre la logorrhée envahissante et insignifiante qui se répand sur les blogs et les réseaux sociaux.

Jean Véronis, qui vient de nous quitter, ne cachait pas son enthousiasme à la naissance de Culturomics, à Noël 2010. Il a dû saluer pareillement la version 2012 qui corrige certains défauts de la version 2009 et en multiplie la puissance et la souplesse. La sélection ne se limite plus aux graphies ou groupes de mots. Elle s’exerce maintenant sur les lemmes (par exemple faire_INF, pour solliciter le détail des formes conjuguées de ce verbe), sur les catégories seules (_DET_) ou suffixées (est_VERB), sur les jokers (symbole *), et sur le choix des corpus (symbole :). Un handicap pourtant empêchait encore le libre développement de la base Culturomics : en obtenant une courbe opaque au lieu d’une série de nombres, on se heurtait à un terminus ad quem, qui interrompait la chaîne des traitements ultérieurs. Les auteurs de Culturomics ont donc proposé une API téléchargeable[31] qui pour un mot donné distribue les 201 pourcentages observés le long de la chronologie, de 1800 à 2000. Mieux même : les données brutes qui servent à la fabrication des tableaux et des courbes ont été livrés au libre téléchargement, dont nous avons profité pour constituer une base offrant en local l’exploitation des unigrams (ou mots individuels) du domaine français. À titre d’illustration la figure cinq livre une synthèse sur l’évolution syntaxique de la phrase française, où le verbe et ses acolytes, pronoms, adverbes et conjonctions, perdent du terrain, au bénéfice des classes liées au nom : substantifs, adjectifs et prépositions. Or cette évolution n’est pas propre au français : on la retrouve pour la même période dans les autres langues occidentales. Cette tendance quoique unanime ne laisse pas d’être un peu suspecte. On a le soupçon qu’il s’agit moins d’un changement dans l’usage du français, que d’un changement dans la composition du corpus. Les textes récents étant les plus nombreux et les plus techniques ont donné aux tranches modernes une coloration abstraite et impersonnelle où l’information passe par les catégories nominales, tandis que les époques plus anciennes puisaient sur les rayons des bibliothèques les livres qui avaient subsisté et qui appartenaient plus souvent à la littérature qu’à la science et à la technique, lesquelles se démodent plus vite. Or le verbe est plus présent dans le discours littéraire, les pronoms et le dialogue y sont plus vivants et plus personnels. Le genre aurait donc créé une hétérogénéité du corpus, donnant l’illusion d’une évolution[32].

Figure 6

Le dosage variable des parties du discours (24 milliards de substantifs contre 10 milliards de verbes)

Le dosage variable des parties du discours (24 milliards de substantifs contre 10 milliards de verbes)

-> Voir la liste des figures

On voit que la taille gigantesque des données et des résultats statistiques peut donner le vertige au jugement, mais le doute subsiste dans les failles de la muraille. Il s’accroît d’autant plus que l’obscurité règne sur la composition du corpus. On voit aussi que l’évidence aveuglante d’un résultat graphique ne doit pas en imposer à la raison. L’effet peut être massif, et la cause obscure, laissant à l’interprétation des chances incertaines et à la lexicométrie une perspective fuyante.