Corps de l’article

À l’ère numérique, l’internet est devenu un vaste dépôt de contenus divers, ce qui rend l’organisation et la gestion de données à grande échelle de plus en plus difficiles. Cela est particulièrement vrai pour le volume croissant de la littérature scientifique, le nombre de publications augmentant de manière exponentielle (Lui, B., 2011). Ces publications sont facilement accessibles via des bases de données bibliographiques telles que ResearchGate, arxiv (Cornell University) ou encore Google Scholar, ce qui présente un ensemble unique de défis pour une gestion efficace des données. Cette abondance d’informations souligne la nécessité de disposer de technologies et d’outils automatisés pour transformer habilement cette vaste quantité de données brutes en informations exploitables (Han, J.W., Kamber, M. and Pei, J., 2006).

Le principal défi consiste à extraire des informations significatives de données textuelles non structurées. Contrairement à la cognition humaine, qui interprète le monde à travers des mots et des récits, les systèmes informatiques fonctionnent principalement avec des chiffres et des algorithmes. Des technologies innovantes et des outils automatisés sont nécessaires pour transformer intelligemment les données en informations utilisables (Kantardzic, M., 2011).

Pour faire face à ces complexités, la revue Management international se tourne vers la modélisation des thèmes, un outil introduit par Blei, Ng et Jordan (2003). Latent dirichlet allocation (LDA) est un modèle probabiliste génératif qui peut découvrir des structures thématiques cachées dans de vastes corpus de textes. Elle facilite l’organisation et la récupération efficaces des informations, ce qui permet à des revues comme Mi de rester à l’avant-garde de l’analyse thématique. La méthode a gagné en popularité dans divers domaines, en particulier dans les sciences sociales, comme Ramage et al. (2009) l’ont souligné, en raison de son accessibilité et de sa praticité dans ces domaines. Cette approche est d’ailleurs présentée dans une étude récente (Parlina et Kusumarani, 2023) qui explore la structure intellectuelle et l’évolution thématique de la recherche en MIS (Management Information system), à travers une analyse des publications majeures de 1980 à 2021. L’étude de Parlina et Kusumarani (2023) met en évidence les thèmes dominants et trace les orientations futures de la recherche, démontrant ainsi la valeur de la méthode LDA dans l’identification des tendances émergentes et les thèmes dominants.

En intégrant la modélisation des thèmes dans ses processus analytiques, Mi est en mesure de disséquer les vastes quantités d’informations numériques et d’identifier les tendances et les thèmes émergents. La modélisation thématique s’avère une voie prometteuse vers la modernisation de l’accès et de la gestion des connaissances, en permettant aux chercheurs de suivre l’évolution rapide des données à l’ère numérique et aux rédacteurs en chef de prendre de la hauteur sur les éventuelles évolutions souhaitables de la ligne éditoriale en fonction des manuscrits reçus au fil des ans.

Méthodologie

À partir d’une analyse des résumés et des titres de 829 documents publiés par la revue Management international de 2009 à 2023, cette étude adopte une approche systématique pour identifier et analyser les thèmes dominants à l’aide de la méthode LDA. L’approche méthodologique pour transformer un texte en données quantifiables met en évidence la nécessité d’adapter la méthode au problème spécifique, d’expérimenter diverses stratégies et de confirmer la fiabilité des résultats obtenus (Grimmer et Stuart, 2013). La plupart des méthodes commencent par une série d’étapes de prétraitement des données qui permettent de réduire la diversité de la langue à des caractéristiques gérables. La procédure de traitement des données réalisé respecte les recommandations de la littérature et utilise la programmation Python notamment pour ces bibliothèques d’analyse de textes qui ont prouvé leur efficacité au fil du temps (Van Rossum et Drake, 2011).

En premier lieu et parce que l’analyse se faisait pour les résumés en français, la mise en oeuvre d’un modèle linguistique spécifique au français a été utilisée pour saisir les nuances textuelles. Ensuite, il a été utile d’opérer la suppression de la ponctuation, la mise en minuscules et la suppression des chiffres, comme l’ont souligné Denny et Spirling (2017), afin de maintenir la cohérence et de minimiser les doublons. La suppression des mots d’arrêt, ceux qui ajoutent peu de substance thématique, permet de rationaliser l’ensemble des données pour se concentrer sur les éléments significatifs. En effet, certains mots tels que « et », « le » et « de », bien qu’essentiels à la structure de la phrase, n’ont aucune valeur ajoutée. Il est aussi possible de supprimer certains mots qui sont spécifiques au problème, dans le cas de la revue Mi, plusieurs mots ont dû être retirés manuellement, car quoique spécifique à la recherche scientifique, n’apportait aucune valeur aux thèmes, tels qu’ »étude », « cas », « recherche », « article ». Puis, une lemmatisation a été réalisée permettant de réduire les mots à leur forme de base. Plus précisément, il retourne la forme infinitive des verbes et la forme masculine des autres mots. Ce processus a permis de s’assurer que les différentes formes d’un même mot étaient reconnues comme une seule et même forme, améliorant ainsi l’uniformité des données. La tokenisation, quant à elle, est une méthode utilisée pour l’analyse textuelle qui divise le texte en unités significatives telles que des phrases ou des mots, créant ainsi une séquence de jetons pour un traitement ultérieur (Krishnan et Kennedyraj, 2023). De plus, la littérature suggère que la réduction de la taille du vocabulaire peut accélérer l’apprentissage du modèle et améliorer l’interprétation des résultats (Blei and Lafferty, 2009). Pour ce faire, une analyse a été effectuée pour déterminer l’importance de chaque terme dans le corpus. Elle a consisté à fixer des seuils spécifiques pour décider des mots à inclure ou à exclure, en veillant à ce que l’ensemble de données reflète le contenu authentique des textes. Tous les mots apparaissant dans plus de 70 % des documents ont été supprimés en raison de leur faible valeur ajoutée. Simultanément, les mots qui se retrouvent dans moins de 4 documents ont également été exclus du corpus, ce qui a réduit la taille du vocabulaire de 6309 à 1715 mots.

Les étapes de prétraitement permettent de représenter chaque document (= 1,…,N) sous la forme d’un vecteur qui compte le nombre d’occurrences de chacun des M mots uniques Wi (Wi1,Wi2,...,WiM). Chaque Wim compte le nombre de fois ou le m-th mots apparaît dans le i-ième document. La matrice terme-document, un regroupement de vecteurs, contient généralement entre 3 000 et 5 000 termes dans un volume modéré de documents sans vocabulaire spécialisé (Grimmer et Stuart, 2013). Malgré la réduction des informations, les chercheurs ont constamment montré que cette représentation simple du texte est suffisante pour déduire des propriétés intéressantes substantielles des textes (Hopkins and King, 2010).

LDA

LDA (Latent Dirichlet Allocation), telle qu’introduite par Blei et al. (2003), est un modèle probabiliste génératif qui révolutionne la compréhension et la catégorisation de grandes collections de documents. Ce modèle suppose que les documents sont composés de thèmes latents, où chaque thème est une distribution de mots. LDA est un modèle bayésien hiérarchique à trois niveaux, qui permet à chaque document de présenter plusieurs thèmes dans des proportions variables. Cette approche répond aux limites des techniques antérieures de modélisation de texte en permettant une représentation plus nuancée du contenu des documents (Blei, et al., 2003). La structure de LDA permet également de modéliser de nouveaux documents, ce qui n’est pas le cas des modèles comme pLSI. Les auteurs, Blei et al. (2003), proposent des techniques d’inférence efficaces basées sur des méthodes variationnelles et un algorithme de maximisation des attentes pour l’estimation empirique des paramètres de Bayes. La polyvalence de LDA est mise en évidence par ses applications dans la classification des textes, la détection des nouveautés et le résumé des documents, ce qui en fait une pierre angulaire de la modélisation probabiliste des textes.

Figure 1

Représentation graphique du modèle LDA

Représentation graphique du modèle LDA

Les lignes sont des plaques représentant les répétitions. La plaque extérieure représente les documents, tandis que la plaque intérieure représente le choix répété des thèmes et des mots au sein d’un document.

-> Voir la liste des figures

Sept thèmes étaient suffisants pour couvrir la diversité du contenu de Mi sans être trop larges ou trop précis. Ils ont permis d’identifier des thèmes clairs et distincts qui reflètent l’orientation éditoriale de la revue. L’étude suggère que les scores de cohérence, tels que c_v et u_mass, sont les mesures les plus appropriées pour évaluer les modèles thématiques lorsqu’ils sont utilisés par des utilisateurs. Ces mesures calculent la somme des scores de similarité distributionnelle par paire entre les mots de l’ensemble thématique, comme le montre l’équation suivante (Krishnan et Kennedyraj, 2023) :

Ou TS représente l’ensemble des mots décrivant le thème (wi, wj ), et ε représente un facteur de lissage qui garantit que le score de cohérence renvoie des nombres réels.

Un score de cohérence de 0.2403 pour 7 thèmes a été considéré comme étant optimal et est resté stable à travers diverses itérations avec différents nombres de thèmes, un indicateur de la qualité des thèmes, comme l’ont démontré Sievert et Shirley (2014). Cette stabilité peut s’expliquer par la diversité limitée des thèmes de l’ensemble de données qui peut conduire à un point de saturation, où les thèmes supplémentaires ne saisissent que des variations des mêmes thèmes plutôt que des nouveaux thèmes (Ramage et al., 2009). L’objectif était de s’assurer que les thèmes identifiés étaient significatifs et conformes aux attentes du lectorat de Mi.

Figure 2

Scores de cohérence en fonction du nombre de thèmes avec LDA

Scores de cohérence en fonction du nombre de thèmes avec LDA

-> Voir la liste des figures

Visualisation des thèmes

Pour faciliter la compréhension, l’utilisation des nuages de mots a permis d’offrir une représentation visuelle des thèmes, mettant en évidence les mots plus pertinents grâce à l’utilisation de la couleur vive et la grandeur du texte. La création d’un nuage de mots offre une représentation visuelle améliorée de l’importance et de la fréquence des différents mots qui définissent la structure thématique de la revue Management international, comme l’illustre la figure 3.

Figure 3

Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné

Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné

Figure 3 (suite)

Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné

Figure 3 (suite)

Nuages de mots de 3 des 7 thèmes du modèle LDA sélectionné

-> Voir la liste des figures

En outre, PyLDAvis, un outil de visualisation interactif, capture les relations thématiques et les distributions modélisées par LDA, en présentant une carte bidimensionnelle où les cercles correspondent à des thèmes distincts, leur taille reflétant la prévalence du thème dans le corpus. La représentation équilibrée de la carte dans le modèle à sept thèmes suggère un paysage documentaire cohésif, avec chaque thème encapsulant une zone de discours unique, faisant écho aux conclusions de Sievert & Shirley (2014) concernant l’interopérabilité des thèmes. L’interopérabilité désigne la capacité des thèmes modélisés à être comparables et interconnectés, ce qui permet de mieux comprendre les relations entre les segments de texte.

Figure 4

Visualisation PyLDAvis des 7 thèmes et leur corpus de mots basé sur leur poids en ordre d’importance

Visualisation PyLDAvis des 7 thèmes et leur corpus de mots basé sur leur poids en ordre d’importance

-> Voir la liste des figures

Pour le thème 1, les termes modèle et culturel apparaissent avec le plus de poids, ancrant le thème dans un discours de stratégie d’entreprise tout en se concentrant sur la gestion de la diversité au sein des industries et organisations. Le rapprochement d’entreprise et la stratégie-concurrence, font partie intégrante de ce thème. Ainsi, le thème qui émerge est celui de la Management stratégique.

Pour le thème 2, les termes performance, résultat et pays, faisant référence aux grandes entreprises ainsi qu’aux PME ont visuellement le poids le plus important. Ceci permet d’illustrer l’ampleur du terrain de jeu mondial dans lequel ces entreprises sont confrontées, que ce soit au niveau des risques ou encore des stratégies associées. Dans ce contexte, la communication-négociation est donc intrinsèquement liée aux stratégies marketing qui permettent de naviguer et tirer parti de l’internationalisation. Marketing et consommation pourrait donc être un thème approprié.

Pour le thème 3, Développement durable apparaît comme étant un thème probable, étant dominé par le mot gestion privé/public et éthique faisant référence aux aspects plutôt consultatifs, réglementaires et environnementaux inhérents au thème. Le poids important de ces termes confirme leur centralité dans les discussions axées sur les relations avec les parties prenantes au sein des organisations.

Le thème 4, Finance et gouvernance est caractérisé par les termes résultats, valeur et financier, soulignant l’accent thématique sur l’analyse financière et l’évaluation complexe de ces derniers. Ce thème met de l’avant le rôle des données dans l’élaboration des stratégies d’investissement. Il englobe les politiques économiques, les tendances du marché et les informations financières, qui constituent la pierre angulaire des processus de prise de décision.

Le thème 5, axé sur l’Entrepreneuriat et PME, met en évidence le rôle central des termes compétences intra- entrepreneuriales et international, tandis que ressource et capital social suggèrent une convergence vers l’importance des réseaux de soutien et des relations interpersonnelles dans le succès et entrepreneurial.

Le thème 6 est celui de l’Innovation, communauté et digitalisation. Les mots, processus, dynamique, communautés et innovation au premier plan, indiquant une attention particulière à la gestion des connaissances et à l’apprentissage organisationnel en tant que moteurs clés du développement économique. Les technologies de l’information jouent un rôle crucial, servant de catalyseur au processus de l’innovation.

Enfin, le thème 7, ponctué par les termes management, changement et diversité soulignent le besoin pour les organisations de s’adapter et d’évoluer en intégrant de nouvelles perspectives et des pratiques diverses. Ce thème met l’accent sur le besoin de résilience pour favoriser la croissance des organisations et s’adapter au changement. Ainsi le thème qui émerge est celui de Management et GRH.

Après la visualisation des mots, à l’aide de nuages de mots et de PyLDAvis, qui donne une première pondération thématique des termes dans le corpus, il est important d’analyser la distribution de ces termes à l’aide d’un histogramme. Cet histogramme offre une perspective complémentaire, consolidant les concepts thématiques avec des preuves empiriques. Il sert d’instrument de vérification pour confirmer que la représentation proportionnelle des thèmes, comme indiqué par les visualisations, reflète la structure thématique réelle dans le corpus.

Figure 5

Pourcentage du nombre de documents au cours de la période d’analyse des 829 documents sur les 14 années de 2009 à 2023

Pourcentage du nombre de documents au cours de la période d’analyse des 829 documents sur les 14 années de 2009 à 2023

-> Voir la liste des figures

Les pourcentages indiqués suggèrent une distribution équilibrée des articles publiés entre les différents thèmes, aucun thème ne dominant excessivement le corpus. Par exemple, le thème 6 (Innovation, communauté et digitalisation) semble être le plus répandu, ce qui suggère que le thème est représenté de manière significative dans l’ensemble des données, tandis que le pourcentage plus faible du thème 2 (Marketing et consommation) pourrait indiquer un thème plus spécialisé ou moins couramment abordé dans le corpus.

Pour saisir la progression thématique dans le temps au sein du corpus, les données ont été structurées en période de trois ans, de 2009 à 2023. Cette segmentation facilite une analyse nuancée en tirant parti de la richesse des données accumulées au cours de ces intervalles. L’objectif de cette segmentation est d’identifier les fluctuations des thèmes, d’identifier ceux qui ont pu se développer ou décroître de manière significative au cours de la période.

Figure 6

Distribution des thèmes au travers des périodes du corpus de la revue Mi

Distribution des thèmes au travers des périodes du corpus de la revue Mi

-> Voir la liste des figures

En analysant le graphique, on observe que le thème 4 (Finance et gouvernance) a maintenu une présence constante de 2012 à 2020, avant de connaître une hausse remarquable de 100 % en 2021. Comment expliquer cette hausse si importante ? Un intérêt croissant pour l’analyse stratégique des marchés financiers, ou peut-être un changement dans le paysage de l’industrie ? En outre, les thèmes 3 (Développement durable), 6 (Innovation, communauté et digitalisation) et 7 (Management et GRH) affichent une augmentation notable du nombre d’articles publié à partir de 2012, chiffre qui se stabilise les années suivantes pour connaître une autre augmentation en 2021. Une telle analyse des tendances est essentielle pour tracer le parcours thématique de la revue.

Figure 7

Distribution des thèmes au travers des périodes dans le corpus de la revue Mi

Distribution des thèmes au travers des périodes dans le corpus de la revue Mi

-> Voir la liste des figures

Même si l’objectif premier de cette étude soit l’identification thématique, il est impératif de reconnaître que la portée de la recherche pourrait s’étendre bien au-delà, en corrélant ces changements à des tendances plus larges dans le domaine, à l’émergence de nouveaux domaines de recherche ou à une diminution de l’attention portée à des thèmes particuliers. Des facteurs externes tels que les innovations technologiques ou les événements mondiaux peuvent également jouer un rôle central dans ces fluctuations thématiques. Notamment le covid ou encore post-covid dans ce cas-ci ou l’on remarque une hausse assez importante de la quasi-totalité des thèmes couvrant la période 2021-2023. Les résultats suggèrent qu’une exploration plus approfondie des structures et de la dynamique des réseaux est primordiale. La seconde phase de l’étude s’attache à démêler les complexités des réseaux de collaboration, en donnant un aperçu des interconnexions complexes qui définissent les partenariats intellectuels entre les chercheurs proposant des manuscrits (Barès, F. & Alie, G., 2024). Pour finir, cette note de recherche vient alimenter davantage encore la réflexion actuelle sur la ligne éditoriale au sein de l’équipe des éditeurs associés de la revue Mi.

À partir des 17 thèmes définis par l’équipe éditoriale et présentés sur le site web de la revue Management International, il existe une correspondance qui peut être établie avec les 7 thèmes identifiés à l’aide du modèle LDA. Cette réduction vise à préserver le contenu essentiel de la revue Mi tout en s’orientant vers un cadre thématique plus structuré et raffiné.

Figure 8

Correspondance entre les 17 thèmes présents sur le site web de Mi et les 7 thèmes découverts à travers le modèle LDA

Correspondance entre les 17 thèmes présents sur le site web de Mi et les 7 thèmes découverts à travers le modèle LDA

-> Voir la liste des figures