Résumés
Résumé
À partir d’une analyse des 829 résumés et titres publiés de la revue Management international de 2009 à 2023, cette note de recherche souligne le défi que représente l’interprétation de données textuelles non structurées et propose un outil d’analyse automatisé. L’étude utilise la modélisation des thèmes pour dévoiler les structures thématiques cachées à l’aide de la méthode LDA (Latent Dirichlet Allocation), contribuant à l’affinement du cadre thématique de la revue. Il en ressort les étapes de pré-traitement, la validation et la visualisation des données comme des aspects cruciaux de la conduite d’une analyse avec cette méthode. Cette étude propose un ensemble de bonnes pratiques en matière de modélisation thématique permettant d’identifier les tendances afin d’informer et éventuellement actualiser les stratégies éditoriales.
Mots-clés :
- analyse de données textuelles,
- modélisation des thèmes,
- LDA,
- analyse de contenu,
- traitement du langage naturel (NLP),
- nuages de mots
Abstract
Analysing 829 abstracts and articles published in Management international over the 2009-2023 period, this research highlights the difficulties of interpreting unstructured textual data and suggests in response a tool capable of providing automated analysis. It also uses Latent Dirichlet Allocation (LDA) theme modelling to uncover hidden structures and achieve a more granular understanding of the thematic framework within which the journal has operated. The spotlight here is on data pre-processing, validation and visualisation, all crucial aspects of the types of analyses that become feasible when this method is used. The paper ends by suggesting a thematic modelling best practice that should make it possible to identify major and minor trends in order that future editorial strategies may be better informed and potentially more cutting-edge in nature.
Keywords:
- textual data analytics,
- thematic modelling,
- LDA,
- contents analysis,
- natural language processing,
- word clouds
Resumen
Sobre la base de un análisis de 829 resúmenes y títulos publicados en la revista Management international entre 2009 y 2023, este informe de investigación pone de relieve el desafío de interpretar datos textuales no estructurados y propone una herramienta de análisis automatizada. El estudio utiliza la modelización de temas para descubrir estructuras temáticas ocultas sirviéndose del método de la Asignación Latente de Dirichlet (ALD), lo que contribuye al ajuste del marco temático de la revista. Se destacan las etapas de preprocesamiento, validación y visualización de datos como aspectos cruciales para realizar un análisis con este método. Este estudio propone un conjunto de mejores prácticas en materia de modelización temática para identificar tendencias con el fin de informar y, eventualmente, actualizar las estrategias editoriales.
Palabras clave:
- análisis de datos textuales,
- modelización de temas,
- modelización temática,
- LDA,
- análisis de contenido,
- procesamiento del lenguaje natural (NLP),
- nubes de palabras
Corps de l’article
À l’ère numérique, l’internet est devenu un vaste dépôt de contenus divers, ce qui rend l’organisation et la gestion de données à grande échelle de plus en plus difficiles. Cela est particulièrement vrai pour le volume croissant de la littérature scientifique, le nombre de publications augmentant de manière exponentielle (Lui, B., 2011). Ces publications sont facilement accessibles via des bases de données bibliographiques telles que ResearchGate, arxiv (Cornell University) ou encore Google Scholar, ce qui présente un ensemble unique de défis pour une gestion efficace des données. Cette abondance d’informations souligne la nécessité de disposer de technologies et d’outils automatisés pour transformer habilement cette vaste quantité de données brutes en informations exploitables (Han, J.W., Kamber, M. and Pei, J., 2006).
Le principal défi consiste à extraire des informations significatives de données textuelles non structurées. Contrairement à la cognition humaine, qui interprète le monde à travers des mots et des récits, les systèmes informatiques fonctionnent principalement avec des chiffres et des algorithmes. Des technologies innovantes et des outils automatisés sont nécessaires pour transformer intelligemment les données en informations utilisables (Kantardzic, M., 2011).
Pour faire face à ces complexités, la revue Management international se tourne vers la modélisation des thèmes, un outil introduit par Blei, Ng et Jordan (2003). Latent dirichlet allocation (LDA) est un modèle probabiliste génératif qui peut découvrir des structures thématiques cachées dans de vastes corpus de textes. Elle facilite l’organisation et la récupération efficaces des informations, ce qui permet à des revues comme Mi de rester à l’avant-garde de l’analyse thématique. La méthode a gagné en popularité dans divers domaines, en particulier dans les sciences sociales, comme Ramage et al. (2009) l’ont souligné, en raison de son accessibilité et de sa praticité dans ces domaines. Cette approche est d’ailleurs présentée dans une étude récente (Parlina et Kusumarani, 2023) qui explore la structure intellectuelle et l’évolution thématique de la recherche en MIS (Management Information system), à travers une analyse des publications majeures de 1980 à 2021. L’étude de Parlina et Kusumarani (2023) met en évidence les thèmes dominants et trace les orientations futures de la recherche, démontrant ainsi la valeur de la méthode LDA dans l’identification des tendances émergentes et les thèmes dominants.
En intégrant la modélisation des thèmes dans ses processus analytiques, Mi est en mesure de disséquer les vastes quantités d’informations numériques et d’identifier les tendances et les thèmes émergents. La modélisation thématique s’avère une voie prometteuse vers la modernisation de l’accès et de la gestion des connaissances, en permettant aux chercheurs de suivre l’évolution rapide des données à l’ère numérique et aux rédacteurs en chef de prendre de la hauteur sur les éventuelles évolutions souhaitables de la ligne éditoriale en fonction des manuscrits reçus au fil des ans.
Méthodologie
À partir d’une analyse des résumés et des titres de 829 documents publiés par la revue Management international de 2009 à 2023, cette étude adopte une approche systématique pour identifier et analyser les thèmes dominants à l’aide de la méthode LDA. L’approche méthodologique pour transformer un texte en données quantifiables met en évidence la nécessité d’adapter la méthode au problème spécifique, d’expérimenter diverses stratégies et de confirmer la fiabilité des résultats obtenus (Grimmer et Stuart, 2013). La plupart des méthodes commencent par une série d’étapes de prétraitement des données qui permettent de réduire la diversité de la langue à des caractéristiques gérables. La procédure de traitement des données réalisé respecte les recommandations de la littérature et utilise la programmation Python notamment pour ces bibliothèques d’analyse de textes qui ont prouvé leur efficacité au fil du temps (Van Rossum et Drake, 2011).
En premier lieu et parce que l’analyse se faisait pour les résumés en français, la mise en oeuvre d’un modèle linguistique spécifique au français a été utilisée pour saisir les nuances textuelles. Ensuite, il a été utile d’opérer la suppression de la ponctuation, la mise en minuscules et la suppression des chiffres, comme l’ont souligné Denny et Spirling (2017), afin de maintenir la cohérence et de minimiser les doublons. La suppression des mots d’arrêt, ceux qui ajoutent peu de substance thématique, permet de rationaliser l’ensemble des données pour se concentrer sur les éléments significatifs. En effet, certains mots tels que « et », « le » et « de », bien qu’essentiels à la structure de la phrase, n’ont aucune valeur ajoutée. Il est aussi possible de supprimer certains mots qui sont spécifiques au problème, dans le cas de la revue Mi, plusieurs mots ont dû être retirés manuellement, car quoique spécifique à la recherche scientifique, n’apportait aucune valeur aux thèmes, tels qu’ »étude », « cas », « recherche », « article ». Puis, une lemmatisation a été réalisée permettant de réduire les mots à leur forme de base. Plus précisément, il retourne la forme infinitive des verbes et la forme masculine des autres mots. Ce processus a permis de s’assurer que les différentes formes d’un même mot étaient reconnues comme une seule et même forme, améliorant ainsi l’uniformité des données. La tokenisation, quant à elle, est une méthode utilisée pour l’analyse textuelle qui divise le texte en unités significatives telles que des phrases ou des mots, créant ainsi une séquence de jetons pour un traitement ultérieur (Krishnan et Kennedyraj, 2023). De plus, la littérature suggère que la réduction de la taille du vocabulaire peut accélérer l’apprentissage du modèle et améliorer l’interprétation des résultats (Blei and Lafferty, 2009). Pour ce faire, une analyse a été effectuée pour déterminer l’importance de chaque terme dans le corpus. Elle a consisté à fixer des seuils spécifiques pour décider des mots à inclure ou à exclure, en veillant à ce que l’ensemble de données reflète le contenu authentique des textes. Tous les mots apparaissant dans plus de 70 % des documents ont été supprimés en raison de leur faible valeur ajoutée. Simultanément, les mots qui se retrouvent dans moins de 4 documents ont également été exclus du corpus, ce qui a réduit la taille du vocabulaire de 6309 à 1715 mots.
Les étapes de prétraitement permettent de représenter chaque document i (i = 1,…,N) sous la forme d’un vecteur qui compte le nombre d’occurrences de chacun des M mots uniques Wi (Wi1,Wi2,...,WiM). Chaque Wim compte le nombre de fois ou le m-th mots apparaît dans le i-ième document. La matrice terme-document, un regroupement de vecteurs, contient généralement entre 3 000 et 5 000 termes dans un volume modéré de documents sans vocabulaire spécialisé (Grimmer et Stuart, 2013). Malgré la réduction des informations, les chercheurs ont constamment montré que cette représentation simple du texte est suffisante pour déduire des propriétés intéressantes substantielles des textes (Hopkins and King, 2010).
LDA
LDA (Latent Dirichlet Allocation), telle qu’introduite par Blei et al. (2003), est un modèle probabiliste génératif qui révolutionne la compréhension et la catégorisation de grandes collections de documents. Ce modèle suppose que les documents sont composés de thèmes latents, où chaque thème est une distribution de mots. LDA est un modèle bayésien hiérarchique à trois niveaux, qui permet à chaque document de présenter plusieurs thèmes dans des proportions variables. Cette approche répond aux limites des techniques antérieures de modélisation de texte en permettant une représentation plus nuancée du contenu des documents (Blei, et al., 2003). La structure de LDA permet également de modéliser de nouveaux documents, ce qui n’est pas le cas des modèles comme pLSI. Les auteurs, Blei et al. (2003), proposent des techniques d’inférence efficaces basées sur des méthodes variationnelles et un algorithme de maximisation des attentes pour l’estimation empirique des paramètres de Bayes. La polyvalence de LDA est mise en évidence par ses applications dans la classification des textes, la détection des nouveautés et le résumé des documents, ce qui en fait une pierre angulaire de la modélisation probabiliste des textes.
Figure 1
Représentation graphique du modèle LDA
Les lignes sont des plaques représentant les répétitions. La plaque extérieure représente les documents, tandis que la plaque intérieure représente le choix répété des thèmes et des mots au sein d’un document.
Sept thèmes étaient suffisants pour couvrir la diversité du contenu de Mi sans être trop larges ou trop précis. Ils ont permis d’identifier des thèmes clairs et distincts qui reflètent l’orientation éditoriale de la revue. L’étude suggère que les scores de cohérence, tels que c_v et u_mass, sont les mesures les plus appropriées pour évaluer les modèles thématiques lorsqu’ils sont utilisés par des utilisateurs. Ces mesures calculent la somme des scores de similarité distributionnelle par paire entre les mots de l’ensemble thématique, comme le montre l’équation suivante (Krishnan et Kennedyraj, 2023) :
Ou TS représente l’ensemble des mots décrivant le thème (wi, wj ), et ε représente un facteur de lissage qui garantit que le score de cohérence renvoie des nombres réels.
Un score de cohérence de 0.2403 pour 7 thèmes a été considéré comme étant optimal et est resté stable à travers diverses itérations avec différents nombres de thèmes, un indicateur de la qualité des thèmes, comme l’ont démontré Sievert et Shirley (2014). Cette stabilité peut s’expliquer par la diversité limitée des thèmes de l’ensemble de données qui peut conduire à un point de saturation, où les thèmes supplémentaires ne saisissent que des variations des mêmes thèmes plutôt que des nouveaux thèmes (Ramage et al., 2009). L’objectif était de s’assurer que les thèmes identifiés étaient significatifs et conformes aux attentes du lectorat de Mi.
Figure 2
Scores de cohérence en fonction du nombre de thèmes avec LDA
Visualisation des thèmes
Pour faciliter la compréhension, l’utilisation des nuages de mots a permis d’offrir une représentation visuelle des thèmes, mettant en évidence les mots plus pertinents grâce à l’utilisation de la couleur vive et la grandeur du texte. La création d’un nuage de mots offre une représentation visuelle améliorée de l’importance et de la fréquence des différents mots qui définissent la structure thématique de la revue Management international, comme l’illustre la figure 3.
Figure 3
Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné
En outre, PyLDAvis, un outil de visualisation interactif, capture les relations thématiques et les distributions modélisées par LDA, en présentant une carte bidimensionnelle où les cercles correspondent à des thèmes distincts, leur taille reflétant la prévalence du thème dans le corpus. La représentation équilibrée de la carte dans le modèle à sept thèmes suggère un paysage documentaire cohésif, avec chaque thème encapsulant une zone de discours unique, faisant écho aux conclusions de Sievert & Shirley (2014) concernant l’interopérabilité des thèmes. L’interopérabilité désigne la capacité des thèmes modélisés à être comparables et interconnectés, ce qui permet de mieux comprendre les relations entre les segments de texte.
Figure 4
Visualisation PyLDAvis des 7 thèmes et leur corpus de mots basé sur leur poids en ordre d’importance
Pour le thème 1, les termes modèle et culturel apparaissent avec le plus de poids, ancrant le thème dans un discours de stratégie d’entreprise tout en se concentrant sur la gestion de la diversité au sein des industries et organisations. Le rapprochement d’entreprise et la stratégie-concurrence, font partie intégrante de ce thème. Ainsi, le thème qui émerge est celui de la Management stratégique.
Pour le thème 2, les termes performance, résultat et pays, faisant référence aux grandes entreprises ainsi qu’aux PME ont visuellement le poids le plus important. Ceci permet d’illustrer l’ampleur du terrain de jeu mondial dans lequel ces entreprises sont confrontées, que ce soit au niveau des risques ou encore des stratégies associées. Dans ce contexte, la communication-négociation est donc intrinsèquement liée aux stratégies marketing qui permettent de naviguer et tirer parti de l’internationalisation. Marketing et consommation pourrait donc être un thème approprié.
Pour le thème 3, Développement durable apparaît comme étant un thème probable, étant dominé par le mot gestion privé/public et éthique faisant référence aux aspects plutôt consultatifs, réglementaires et environnementaux inhérents au thème. Le poids important de ces termes confirme leur centralité dans les discussions axées sur les relations avec les parties prenantes au sein des organisations.
Le thème 4, Finance et gouvernance est caractérisé par les termes résultats, valeur et financier, soulignant l’accent thématique sur l’analyse financière et l’évaluation complexe de ces derniers. Ce thème met de l’avant le rôle des données dans l’élaboration des stratégies d’investissement. Il englobe les politiques économiques, les tendances du marché et les informations financières, qui constituent la pierre angulaire des processus de prise de décision.
Le thème 5, axé sur l’Entrepreneuriat et PME, met en évidence le rôle central des termes compétences intra- entrepreneuriales et international, tandis que ressource et capital social suggèrent une convergence vers l’importance des réseaux de soutien et des relations interpersonnelles dans le succès et entrepreneurial.
Le thème 6 est celui de l’Innovation, communauté et digitalisation. Les mots, processus, dynamique, communautés et innovation au premier plan, indiquant une attention particulière à la gestion des connaissances et à l’apprentissage organisationnel en tant que moteurs clés du développement économique. Les technologies de l’information jouent un rôle crucial, servant de catalyseur au processus de l’innovation.
Enfin, le thème 7, ponctué par les termes management, changement et diversité soulignent le besoin pour les organisations de s’adapter et d’évoluer en intégrant de nouvelles perspectives et des pratiques diverses. Ce thème met l’accent sur le besoin de résilience pour favoriser la croissance des organisations et s’adapter au changement. Ainsi le thème qui émerge est celui de Management et GRH.
Après la visualisation des mots, à l’aide de nuages de mots et de PyLDAvis, qui donne une première pondération thématique des termes dans le corpus, il est important d’analyser la distribution de ces termes à l’aide d’un histogramme. Cet histogramme offre une perspective complémentaire, consolidant les concepts thématiques avec des preuves empiriques. Il sert d’instrument de vérification pour confirmer que la représentation proportionnelle des thèmes, comme indiqué par les visualisations, reflète la structure thématique réelle dans le corpus.
Figure 5
Pourcentage du nombre de documents au cours de la période d’analyse des 829 documents sur les 14 années de 2009 à 2023
Les pourcentages indiqués suggèrent une distribution équilibrée des articles publiés entre les différents thèmes, aucun thème ne dominant excessivement le corpus. Par exemple, le thème 6 (Innovation, communauté et digitalisation) semble être le plus répandu, ce qui suggère que le thème est représenté de manière significative dans l’ensemble des données, tandis que le pourcentage plus faible du thème 2 (Marketing et consommation) pourrait indiquer un thème plus spécialisé ou moins couramment abordé dans le corpus.
Pour saisir la progression thématique dans le temps au sein du corpus, les données ont été structurées en période de trois ans, de 2009 à 2023. Cette segmentation facilite une analyse nuancée en tirant parti de la richesse des données accumulées au cours de ces intervalles. L’objectif de cette segmentation est d’identifier les fluctuations des thèmes, d’identifier ceux qui ont pu se développer ou décroître de manière significative au cours de la période.
Figure 6
Distribution des thèmes au travers des périodes du corpus de la revue Mi
En analysant le graphique, on observe que le thème 4 (Finance et gouvernance) a maintenu une présence constante de 2012 à 2020, avant de connaître une hausse remarquable de 100 % en 2021. Comment expliquer cette hausse si importante ? Un intérêt croissant pour l’analyse stratégique des marchés financiers, ou peut-être un changement dans le paysage de l’industrie ? En outre, les thèmes 3 (Développement durable), 6 (Innovation, communauté et digitalisation) et 7 (Management et GRH) affichent une augmentation notable du nombre d’articles publié à partir de 2012, chiffre qui se stabilise les années suivantes pour connaître une autre augmentation en 2021. Une telle analyse des tendances est essentielle pour tracer le parcours thématique de la revue.
Figure 7
Distribution des thèmes au travers des périodes dans le corpus de la revue Mi
Même si l’objectif premier de cette étude soit l’identification thématique, il est impératif de reconnaître que la portée de la recherche pourrait s’étendre bien au-delà, en corrélant ces changements à des tendances plus larges dans le domaine, à l’émergence de nouveaux domaines de recherche ou à une diminution de l’attention portée à des thèmes particuliers. Des facteurs externes tels que les innovations technologiques ou les événements mondiaux peuvent également jouer un rôle central dans ces fluctuations thématiques. Notamment le covid ou encore post-covid dans ce cas-ci ou l’on remarque une hausse assez importante de la quasi-totalité des thèmes couvrant la période 2021-2023. Les résultats suggèrent qu’une exploration plus approfondie des structures et de la dynamique des réseaux est primordiale. La seconde phase de l’étude s’attache à démêler les complexités des réseaux de collaboration, en donnant un aperçu des interconnexions complexes qui définissent les partenariats intellectuels entre les chercheurs proposant des manuscrits (Barès, F. & Alie, G., 2024). Pour finir, cette note de recherche vient alimenter davantage encore la réflexion actuelle sur la ligne éditoriale au sein de l’équipe des éditeurs associés de la revue Mi.
À partir des 17 thèmes définis par l’équipe éditoriale et présentés sur le site web de la revue Management International, il existe une correspondance qui peut être établie avec les 7 thèmes identifiés à l’aide du modèle LDA. Cette réduction vise à préserver le contenu essentiel de la revue Mi tout en s’orientant vers un cadre thématique plus structuré et raffiné.
Figure 8
Correspondance entre les 17 thèmes présents sur le site web de Mi et les 7 thèmes découverts à travers le modèle LDA
Parties annexes
Notes biographiques
Franck Barès est professeur d’entrepreneuriat à HEC Montréal (Québec, Canada). Ses activités de recherche s’inscrivent dans le champ de la création d’entreprise et de l’accompagnement entrepreneurial.
Gabrielle Alie est étudiante dans le programme MSc en gestion, spécialisé en science des données et analytique d’affaires à HEC Montréal. Son étude se concentre sur l’application de techniques d’analyse de données avancées pour résoudre des problèmes complexes dans le domaine des affaires.
Bibliographie
- Barès, F. & Alie, G. (2024). Évolution de la revue Management international : Détection et analyse des communautés des articles publiés entre 2009 et 2023. Management international, 28(2), 134-141. https://doi.org/10.59876/a-h4mp-0kf2
- Blei, D. M., Ng, A.Y. & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
- Blei, D. M. & Lafferty, J. D. (2009). Visualizing Topics with Multi-Word Expressions. arXiv :0907.1013[stat.ML]. https://doi.org/10.48550/arXiv.0907.1013
- Denny, M. & Spirling, A. (2017). Text Preprocessing For Unsupervised Learning: Why it Matters, When it Misleads, And What To Do About It. Political Analysis Dataverse: Harvard Dataverse, V1. http://dx.doi.org/10.2139/ssrn.2849145
- Grimmer, J. & Stewart, B. M. (2013). Text as Data : The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(03), 267-297. https://doi.org/10.1093/pan/mps028
- Han, J., Kamber, M. & Pei, J. (2012). Data Mining: Concepts and Techniques (Third edition). Morgan Kaufmann.
- Hopkins, D. J. & King, G. (2010). A Method of Automated Nonparametric Content Analysis for Social Science. American Journal of Political Science, 54(1), 229-247. https://doi. org/10.1111/j.1540-5907.2009.00428.x
- Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods, and Algorithms (2nd Edition). John Wiley & Sons Ltd., New Jersey. http://dx.doi.org/10.1002/9781118029145
- Krishnan, A. (2023). Exploring the Power of Topic Modeling Techniques in Analyzing Customer Reviews: A Comparative Analysis. arXiv:2308.11520[cs.CL]. https://doi.org/10.48550/arXiv.2308.11520
- Liu, B. (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Second edition). Springer Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-19460-3
- Parlina, A. & Kusumarani, R. (2023). A Latent Dirichlet Allocation – Based bibliometric exploration of tp-3 journals in management information system. Article in Jurnal Studi Komunikas dan Media, 27(1). https://doi.org/10.17933/jskm.2023.5082
- Piepenbrink, A. & Gaur, A. (2017). Topic models as a novel approach to identify themes in content analysis. Conference Paper in Academy of Management Proceedings, vol. 2017(1). https://doi.org/10.5465/AMBPP.2017.141
- Ramage, D., Hall, D., Nallapati, R. & Manning, C. D. (2009). Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora. Proc. of the Conf. on Empirical Methods in Natural Language Processing, 248-256. https://aclanthology.org/D09-1026
- Ramage, D., Rosen, E., Chuang, J., Manning, C. D. & McFarland, D. A. (2009). Topic Modeling for the Social Sciences. Computer Science Department School of Education, Stanford university.
- Sievert, C. & Shirley, K. (2014). LDAvis: A method for visualizing and interpreting topics. In Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, p. 63-70. Association for Computational Linguistics. https://doi.org/10.3115/v1/W14-3110
- Van Rossum, G. & Drake, F. L. (2011). The python language reference manual. Network Theory Ltd.
Parties annexes
Biographical notes
Franck Barès is a Professor of Entrepreneurship at HEC Montreal (Quebec, Canada). His research activities focus on start-ups and new forms of support for business creation.
Gabrielle Alie is a MSc student on HEC Montréal’s specialist data science and business analysis programme. Her course focuses on how advanced data analysis techniques can be used to address the complex problems people face in the world of business.
Parties annexes
Notas biograficas
Franck Barès es profesor titular en el departamento de Emprendimiento e Innovación en HEC Montreal (Quebec, Canadá). Entre sus áreas de interés se encuentran: la creación de empresas y la asesoría de los emprendedores/directivos de empresas.
Gabrielle Alie es estudiante en el programa de Maestría en Gestión (MSc) con especialización en Ciencia de Datos y Analítica Empresarial en la HEC Montreal. Su estudio se enfoca en la aplicación de técnicas de análisis avanzado de datos para resolver problemas complejos en el campo de los negocios.
Liste des figures
Figure 1
Représentation graphique du modèle LDA
Figure 2
Scores de cohérence en fonction du nombre de thèmes avec LDA
Figure 3
Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné
Figure 4
Visualisation PyLDAvis des 7 thèmes et leur corpus de mots basé sur leur poids en ordre d’importance
Figure 5
Pourcentage du nombre de documents au cours de la période d’analyse des 829 documents sur les 14 années de 2009 à 2023
Figure 6
Distribution des thèmes au travers des périodes du corpus de la revue Mi
Figure 7
Distribution des thèmes au travers des périodes dans le corpus de la revue Mi
Figure 8
Correspondance entre les 17 thèmes présents sur le site web de Mi et les 7 thèmes découverts à travers le modèle LDA