Résumés
Résumé
Cet article propose d’aborder la question du positionnement entre qualitatif et quantitatif (que suppose l’analyse informatisée de données textuelles) au travers d’exemples concrets tirés d’un projet de recherche se situant dans le domaine de la création littéraire et son rapport aux savoirs biologiques (Biolographes : http://biolog.hypotheses.org). Une première partie expose les aspects pratiques des corpus numériques, de l’accès aux sources à leurs métadonnées, en passant par les questions d’océrisation et de stockage (base de données). Les deuxième et troisième parties illustrent la façon dont des outils textométriques et de visualisation (TXM, Treecloud) servent de point d’appui, dans le cas de grands corpus, à de nombreuses hypothèses de travail. En conclusion, il souligne le pont opéré par le TAL entre les outils informatisés et l’analyse littéraire.
Mots-clés :
- Analyse informatisée,
- données textuelles,
- création littéraire,
- savoirs biologiques,
- corpus, métadonnées,
- textométrie,
- visualisation,
- TAL
Abstract
This article addresses the issue of the relationship between qualitative and quantitative analysis (i.e. computerized analysis of textual data) through experiments (and their results) conducted in a research project focusing on the impact of biological knowledge on French literary work in the XIXth century (Biolographes: http://biolog.hypotheses.org). The first part sets out the practical aspects of digital corpora, from access to the texts, to their transformation by OCR, to the storage of their metadata. The second and third parts illustrate how textometrical tools and visualizations (TXM, TreeCloud) serve as a point d’appui to many working hypotheses. In conclusion, the article emphasizes the role played by NLP in computerized tools for literary analysis.
Keywords:
- Computer Analysis,
- Textual Data,
- Literary Work,
- Biological Knowledge,
- Corpora,
- Metadata,
- Textometry,
- Visualization,
- NLP
Parties annexes
Bibliographie
- Amstutz, Delphine et Philippe Gambette, « Utilisation de la visualisation en nuage arboré pour l’analyse littéraire », dans Sergio Bolasco, Isabella Chiari, Luca Giuliano (dir.), Statistical Analysis of Textual Data, Proceedings of the 10th International Conference on Statistical Analysis of Textual Data (JADT 2010), Edizioni Universitarie di Lettere Economia Diritto, 2010, p. 227-238.
- Azoulai, Juliette, « De la rage métaphysique au calme scientifique : religion et sciences naturelles chez Flaubert », Flaubert, no 13, 2015.
- Azoulai, Juliette, L’âme et le corps chez Flaubert. Une ontologie simple, Paris, Classiques Garnier, 2014.
- Bernard, Claude, « Définition de la vie. Les théories anciennes et la science moderne », Revue des deux mondes, t. 9, 1875, p. 326-349.
- Bernard, Claude, Principes de médecine expérimentale, Paris, Émile Martinet, 1867.
- Dufour, Philippe, « La feuille bulozienne », Flaubert, no 9, 2013, http://flaubert.revues.org/2024, article consulté le 17 mai 2016.
- Gambette, Philippe, User Manual for TreeCloud, 2010, http://www.treecloud.org/DOWNLOADS/ManualTreecloud.pdf, site consulté le 25 mars 2016.
- Gambette, Philippe et Jean Véronis, « Visualising a Text with a Tree Cloud », dans Hermann Locarek-Junge et Claus Weihs (dir.), Studies in Classification, Data Analysis, and Knowledge Organization, Proceedings of the International Federation of Classification Societies 2009 Conference (IFCS’09), no 40, 2010, p. 561-570.
- Gambette, Philippe, Nuria Gala et Alexis Nasr, « Longueur de branches et arbres de mots », Corpus, no 11, 2012, p. 129-146.
- Gross, Maurice, « Les bases empiriques de la notion de prédicat sémantique », Langages, no 63, 1981, p. 7–52.
- Gross, Maurice, « Une grammaire locale de l’expression des sentiments », Langue française, no 105, 1995, p. 70–87.
- Heiden, Serge, Jean-Philippe Magué et Bénédicte Pincemin, « TXM : Une plateforme logicielle open-source pour la textométrie – conception et développement », dans Sergio Bolasco, Isabella Chiari, Luca Giuliano (dir.), Statistical Analysis of Textual Data, Proceedings of the 10th International Conference on Statistical Analysis of Textual Data (JADT 2010), Edizioni Universitarie di Lettere Economia Diritto, 2010, p. 1021-1032.
- Istria, Dora d’, « Le surnaturel dans le monde végétal », Revue des deux mondes, t. 32, 1874, p. 481-508.
- Janet, Paul, « L’idée de force et la philosophie dynamiste », Revue des deux mondes, t. 3, 1874, p. 77-107.
- Janet, Paul, « La méthode expérimentale et la physiologie à propos des travaux récens de M. Claude Bernard », Revue des deux mondes, 1866, p. 908-936.
- Lafon, Pierre, « Sur la variabilité de la fréquence des formes dans un corpus », Mots, vol. 1, n° 1, p. 127-165, 1980.
- Lechevrel, Nadège, « Fouille de données textuelles et recherche documentaire automatiques pour l’histoire des théories linguistiques », dans Pascal Charbonnat, Mahé Ben Hamed, Guillaume Lecointre (dir.), Apparenter la pensée ? Vers une phylogénie des concepts savants, Matériologiques, 2014, p. 219-243.
- Lechevrel, Nadège, Réception et vulgarisation des savoirs biologiques dans le corpus Biolographes, 2015, billet de blog sur le carnet hypotheses.org du projet Biolographes, http://biolog.hypotheses.org/1276, site consulté le 25 mars 2016.
- Marchal, Hugues, « L’ambassadeur révoqué : poésie scientifique et popularisation des savoirs au XIXe siècle », Romantisme, vol. 144, no 2, 2009, p. 25-37.
- Marchal, Hugues, « Le conflit des modèles dans la vulgarisation entomologique : l’exemple de Michelet, Flammarion et Fabre », Romantisme, vol. 138, no 4, 2007, p. 61-74.
- Riehmann, Patrick, Manfred Hanfler et Bernd Froehlich, « Interactive Sankey Diagrams », Proceedings of the IEEE Symposium on Information Visualization (INFOVIS 2005), 2005, p. 233-240.
- Sand, George, « Lettres d’un voyageur à propos de botanique », Revue des deux mondes, t. 76, 1868, p. 470-496.
- Schmid, Helmut, « Probabilistic Part-of-Speech Tagging Using Decision Trees », Proceedings of International Conference on New Methods in Language Processing, 1994, p. 44-49.
- Séginger, Gisèle (dir), Biolographes, projet ANR-13-FRAL-0013, 2014-2016, http://biolog.hypotheses.org/.
- Séginger, Gisèle, « Éléments pour une biocritique », Flaubert, no 13, 2015, https://flaubert.revues.org/2439, article consulté le 17 mai 2016.
- Séginger, Gisèle, « Louis Bouilhet et Flaubert. L’invention d’une nouvelle poésie scientifique », dans Muriel Louâpre, Hugues Marchal et Michel Pierssens (dir.), La poésie scientifique, de la gloire au déclin, 2014, p. 361-377.
- Séginger, Gisèle, « La réécriture de Cuvier : la création du monde entre savoir et féerie », dans Stéphanie Dord-Crouslé (dir.), « Les dossiers documentaires de Bouvard et Pécuchet » : l’édition numérique du creuset flaubertien. Actes du colloque de Lyon, 7-9 mars 2012, Flaubert, no 13, 2013, http://flaubert.univ-rouen.fr/revue/revue13/documents/Gustave_Flaubert_revue_13_article_Gisele_Seginger.pdf, site consulté le 17 mai 2016.
- Séginger, Gisèle (dir), Le vivant, Romantisme - La revue du XIXe siècle, vol. 154, n° 4, 2011