Abstracts
Résumé
Au terme d’une carrière de cinquante ans entièrement consacrée à la statistique linguistique, l’auteur tente d’établir un bilan de la discipline, au moins pour le domaine français. Il s’attache d’abord à évoquer les premières initiatives auxquelles sont associés entre autres les noms de Guiraud, Quemada, Gougenheim, Tournier et Muller. Puis il suit l’évolution des méthodes qui tendent à s’éloigner du modèle inférentiel prôné par Muller pour adopter une démarche descriptive où l’analyse s’appuie sur des calculs multidimensionnels. En passant de la calculette à l’ordinateur, l’outil informatique développe sa puissance sur des corpus de taille croissante, dont certains font l’objet d’un examen particulier : la BNF, Frantext, SketchEngine et enfin Google Books. La taille de ce dernier projet – qui atteint presque 100 milliards de mots pour la production française de ces deux derniers siècles – peut donner le vertige au jugement, sans effacer le doute, la composition du corpus, inégale et incertaine, faussant la chronologie. On en conclut que l’évidence aveuglante d’un résultat graphique ne doit pas en imposer à la raison. L’effet peut-être massif, et la cause obscure. La lexicométrie s’est beaucoup étendue en surface; il lui faut aussi gagner en profondeur.
Mots-clés :
- lexicométrie,
- méthodes statistiques,
- corpus textuels,
- BNF,
- Frantext,
- SketchEngine,
- Google Books
Abstract
After a fifty year career entirely devoted to statistical linguistics, the author attempts to establish a report on this discipline, at least for the French area. He first seeks to evoke the raw intitiatives that involve among other names Guiraud, Quemada Gougenheim, Tournier and Muller. Then he follows the evolution of methods which tend to move away from the inferential model advocated by Muller to adopt a descriptive approach where the analysis is based on multidimensional calculations. Passing from the calculator on the computer software tool developed its power on big size corpus, some of which are subject to particular scrutiny: the BNF, Frantext, SketchEngine and finally Google Books. The size of this last project - which is almost 100 billion words for the French production of the last two centuries - may make you dizzy judgment without erasing doubt, the composition of the corpus, uneven and uncertain, distorting the timeline. It is concluded that the blinding evidence of a graphic result should not impose on the reason. The effect can be massive, and the cause obscure. The lexicometry spread much surface; he must also gain depth.
Keywords:
- lexicometry,
- statistical methods,
- text corpora,
- BNF,
- Frantext,
- SketchEngine,
- Google Books