Article body

Les sociologues préconisent depuis longtemps une approche sociologique de l’explication qu’ils opposent au sens commun. Ici, cependant, nous avancerons qu’ils s’appuient davantage sur celui-ci qu’ils ne le pensent. Qui plus est, ce lien tacite pose de sérieux problèmes lorsqu’il s’agit d’expliquer l’action sociale, c’est-à-dire les raisons pour lesquelles les gens font ce qu’ils font. Nombre de ces explications amalgament intelligibilité et causalité, de telle sorte qu’elles ne satisfont pas aux normes de l’explication scientifique. Il s’ensuit que, pour que leurs explications soient scientifiquement valides, les sociologues doivent les évaluer en fonction de ces critères et, en particulier, en les contraignant à faire des prédictions. À mesure qu’elles deviennent plus scientifiques, il est à prévoir que les explications proposées par les sociologues deviendront moins satisfaisantes du point de vue intuitif et sur le plan de la production de sens. L’existence de nouvelles sources de données et l’amélioration des méthodologies ouvrent indéniablement des perspectives inédites et intéressantes pour la recherche en sociologie. Mais les sociologues se trouveront de plus en plus souvent devant des choix cornéliens entre explications scientifiques insatisfaisantes et récits non scientifiques, mais satisfaisants.

Introduction

Parmi les sociologues, le sens commun a longtemps été le Rodney Dangerfield des épistémologies — personne ne le respecte[3]. Bien que les définitions proposées varient (Taylor, 1947 ; Geertz, 1975 ; Rosenfeld, 2011), le sens commun est généralement associé aux connaissances pratiques des gens ordinaires, déployées dans des situations quotidiennes. Il se distingue du type de connaissances théoriques auquel les sociologues aspirent. De même, bien qu’une poignée de sociologues aient été admiratifs du sens commun (Taylor, 1947 ; Mathisen, 1989), la majorité d’entre eux a plutôt été critique à son endroit (Stouffer, 1947 ; Lazarsfeld, 1949 ; Merton, 1968 ; Manis, 1972 ; Black, 1979 ; Boudon, 1988 ; Rosenfeld, 2011). Les sociologues se plaisent par exemple à souligner qu’une bonne part de ce qui est perçu comme relevant du sens commun est incohérente, voire contradictoire[4]. Plus généralement, les sociologues ont également souligné que ce que le sens commun traite comme des « faits » — de simples descriptions d’une réalité objective — masque souvent des jugements de valeur qui dépendent de l’expérience subjective de l’auteur de l’évaluation ainsi que de la nature prétendument objective de la chose évaluée (Geertz, 1975 ; Black, 1979). Pourtant, précisément parce que ces jugements de valeur subjectifs sont traités comme objectifs — et, de fait, comme allant intrinsèquement de soi —, ils ne sont jamais eux-mêmes soumis à un examen critique. La capacité de la pensée sociologique à mettre en lumière et à examiner de façon critique les hypothèses tacites qui sous-tendent les propositions de sens commun, censées avoir valeur de vérité, lui vaut d’être souvent présentée comme l’antidote au raisonnement de sens commun (Becker, 2002).

Cet article propose de montrer que les sociologues se fient bien plus au sens commun qu’ils ne le pensent. Nous n’entendons pas seulement par là que, comme Black (1979) et d’autres (Merton, 1968 ; Manis, 1972) l’ont soutenu, les sociologues sont enclins à traiter les opinions subjectives des personnes qu’ils interrogent et d’autres sujets de recherche comme des énoncés objectifs ayant valeur de vérité, faisant par conséquent la même erreur dans la distinction entre fait et valeur que les non-sociologues. Ce que nous souhaitons plutôt avancer, c’est qu’en ce qui concerne les théories sociologiques de l’action, le raisonnement de sens commun imprègne la théorie sociologique de manière fondamentale. En particulier, nous soutiendrons que plusieurs de ces théories — tout particulièrement la théorie du choix rationnel, mais aussi les nombreuses variantes de l’individualisme qui ont imprégné la sociologie au cours du siècle dernier, ainsi que des ajouts plus récents tels que la théorie du champ de Bourdieu (2000) et la théorie pragmatiste de Gross (2009) — prennent toutes leur source de la même « théorie matricielle », que nous appellerons pour les besoins de l’analyse la théorie de l’« action rationalisable » : l’idée que les actions individuelles ou collectives peuvent être expliquées en termes d’intentions, de croyances, de circonstances et d’opportunités relevant des acteurs impliqués.

Précisons que cette « théorie matricielle » n’est pas en soi une théorie sociologique, mais plutôt une théorie de sens commun, voire une théorie populaire, déployée en pratique par les gens ordinaires dans les circonstances de la vie quotidienne, à la fois pour anticiper le comportement des autres et pour donner un sens aux comportements qu’ils observent. Néanmoins, nous soutiendrons que de nombreuses théories sociologiques de l’action, une fois dépouillées de leurs formulations érudites et autres jargons, sont effectivement des variantes de l’action rationalisable. Même lorsque les sociologues préconisent des théories de l’action qui n’invoquent pas explicitement l’action rationalisable, ils s’y réfèrent néanmoins pour rendre leurs résultats de recherche compréhensibles. De plus, nous soutiendrons que l’omniprésence de l’action rationalisable parmi les explications sociologiques subsiste non pas tant en dépit de ses origines, inscrites dans le sens commun, mais précisément grâce à elles. Les sociologues utilisent nécessairement dans leur vie quotidienne des concepts de sens commun et, comme ils semblent en effet valables à l’aune de leur expérience personnelle quotidienne, ils semblent donc aller de soi. Par conséquent, les hypothèses implicites de la théorie populaire sont incorporées dans les théories sociologiques sans qu’elles ne soient explicitées. Ainsi, même lorsqu’il arrive que les théories soient contestées, les hypothèses de sens commun sur lesquelles elles reposent ne sont pas remises en question (James, 2011 ; Boudon, 1988).

Cela ne poserait aucun problème si ces hypothèses étaient valides. Mais, comme nous le soutiendrons, bien que la rationalisabilité soit utile à la fois pour donner un sens aux comportements humains et pour les anticiper dans les conditions du quotidien — à savoir, dans des circonstances où les réactions sont immédiates —, elle s’avère non pertinente dans les conditions d’utilisation par les sociologues et pour les fins auxquelles ils la déploient. Plus précisément, il me semble que les explications qui sont formulées, pour donner un sens aux comportements observés des acteurs, en termes d’intentions, d’habitudes, de croyances, d’opportunités, et de circonstances ne répondent pas dans l’ensemble aux normes de l’explication causale. Par conséquent, elles ne s’appliqueront que difficilement à des situations nouvelles. Ainsi, si les sociologues entendent fournir des explications causales, ils doivent donner moins de place à l’intelligibilité (c’est-à-dire à la production de sens), et valoriser leur capacité à prédire. Bien que la relation entre la prédiction et la causalité fasse débat parmi eux, une grande part de ce désaccord provient d’interprétations trop étroites de ce que recouvre la prédiction. Interprétée correctement, la prédiction est compatible avec une conception de la causalité presque universellement acceptée par les sociologues. Elle est donc une condition nécessaire, mais non suffisante, pour qu’une explication soit qualifiée de scientifique. En conclusion, j’avancerai cependant qu’à mesure que les sociologues évalueront leurs explications en termes de validité scientifique plutôt que d’intelligibilité, ces explications deviendront inévitablement moins satisfaisantes. Il apparaîtra clairement, par ailleurs, que plusieurs questions d’importance pour les sociologues resteront sans réponse.

La causalité par rapport à l’intelligibilité dans l’explication

Au cours du siècle dernier, les sociologues ont proposé de nombreuses théories de l’action sociale — de si nombreuses théories, en fait, que la tâche de les décrire toutes, ou même d’en dresser une liste exhaustive, est en soi intimidante. Ainsi, sans parler au nom de toutes les théories de l’action sociale, nous tenterons néanmoins de défendre l’hypothèse restreinte selon laquelle plusieurs de ces théories — y compris la théorie du choix rationnel (Hedström et Stern, 2008) ainsi que les nombreux courants apparentés de l’individualisme (Lukes, 1968 ; Mayhew, 1980 ; Boudon, 1987), le structuro-fonctionnalisme (Parsons and Shils, 1951), la théorie des champs (Bourdieu, 2000), et les théories pragmatistes de l’action (Whitford, 2002 ; Gross, 2009) — sont toutes des variantes de ce que j’appelle l’action rationalisable. Plus généralement, nous affirmerons que même lorsque les théories sociologiques n’invoquent pas explicitement une variante de l’action rationalisable — comme c’est le cas pour certaines théories nomologiques —, elles en dépendent dans la pratique, dès lors que leurs résultats sont généralement interprétés en référence à des états psychologiques individuels.

Rappelons que, par action rationalisable, nous entendons l’affirmation selon laquelle l’action individuelle ou collective peut s’expliquer au regard des intentions et des croyances des acteurs, des circonstances et des opportunités qu’ils ou elles rencontrent. Par sa conception, cette définition est très vaste. Par exemple, elle n’est pas limitée à des intentions particulières, telles que des objectifs instrumentaux rationnels, ou à des croyances prises pour des causes rationnelles, ou même à des croyances maintenues consciemment. De même, en incluant circonstances et opportunités, elle intègre tout, depuis des ressources tangibles comme le temps, l’argent et le capital humain à des ressources moins tangibles comme le capital social et culturel, et même les habitudes acquises de l’esprit ou les normes culturelles locales. Pour finir, la notion d’« acteurs » associée à cette définition de l’action rationalisable renvoie non seulement aux individus dans la stricte tradition de l’individualisme méthodologique, mais aussi aux « acteurs sociaux », tels que les familles, les entreprises, les partis politiques, et même les États-nations. En d’autres termes, tout comportement qui peut être rationalisé relève de l’action rationalisable.

Cependant, comme nous l’avons dit précédemment, l’action rationalisable est ambiguë en ce qui concerne le sens de sa prétention essentielle à « expliquer » l’action. Comment cette affirmation doit-elle être interprétée ? Une majorité écrasante de sociologues — et de chercheurs en sciences sociales en général — pensent que les explications sont, par nature, intrinsèquement causales (Marini et Singer, 1988 ; Hedström, 2005 ; Woodward, 2005 ; Cartwright, 2006 ; Manski, 2007 ; Morgan et Winship, 2007 ; Sloman, 2009 ; Gerber et Green, 2012). La relation entre l’explication et la causalité est si étroite en sciences sociales que les termes d’« explication » et d’« explication causale » sont souvent utilisés de manière interchangeable, sans qu’il soit besoin d’élaborer[5].

En outre, de nombreux sociologues et philosophes sont d’avis que les explications causales doivent aussi être prédictives (Lakatos, 1980 ; Marini et Singer, 1988 ; Freedman, 1991 ; Babyak, 2004 ; Manski, 2007 ; Gerber et Green, 2012 ; Schrodt, 2013) en ce sens que, si les mécanismes causaux que l’explication a servi à mettre au jour avaient été connus a priori, cette connaissance aurait pu être utilisée pour prédire le résultat connu, du moins dans une certaine mesure. Le point de vue selon lequel la prédiction est essentielle à l’explication causale a été illustré par Hempel et Oppenheim (1948 : 138). Ils soutiennent qu’« une explication n’est pleinement adéquate que si ses explanans, dans la mesure où ils ont été pris en compte à temps, ont pu servir de base pour prédire le phénomène étudié ». En effet, Hempel et Oppenheim soulignent que « c’est cette force prédictive potentielle qui confère son importance à l’explication scientifique : ce n’est que dans la mesure où nous sommes capables d’expliquer des faits empiriques que nous pouvons atteindre l’objectif majeur de la recherche scientifique, à savoir non pas seulement enregistrer les phénomènes dont nous faisons l’expérience, mais aussi en tirer des enseignements, en nous appuyant sur eux pour faire des généralisations théoriques qui nous permettent d’anticiper de nouvelles occurrences et de contrôler, du moins jusqu’à un certain point, les changements de notre environnement »[6].

Des sociologues et des philosophes ont par la suite contesté de nombreux aspects du cadre théorique de Hempel et Oppenheim (Lakatos, 1980 ; Ferguson, 2000 ; Woodward, 2005 ; Morgan et Winship, 2007 ; Hedström et Ylikoski, 2010), en particulier l’importance qu’ils accordent aux lois générales, mais aussi, dans une certaine mesure, leur insistance sur la prédiction, arguant, par exemple, que les explications peuvent fonder une compréhension causale, même lorsque celles-ci ne sont pas prédictives (Lieberson et Lynn, 2002), ou encore qu’accorder une trop grande importance à la prédiction peut mener au rejet d’explications causales parfaitement valides (Hedström et Ylikoski, 2010). Nous soutiendrons dans la suite de cet article qu’une grande part de ce désaccord découle d’interprétations divergentes du terme « prédiction » et que, selon son acception la plus générale, la plupart des sociologues seraient d’accord pour dire que les explications causales peuvent et devraient être évaluées en fonction des prédictions qu’elles permettent de faire — tout comme l’avançaient Hempel et Oppenheim. Pour l’instant, il suffit cependant simplement d’affirmer que lorsque les sociologues prétendent avoir expliqué quelque chose, ce qui est sous-entendu de manière évidente — si ce n’est de manière explicite — est qu’il s’agit d’un critère de causalité « manipulationiste » un peu plus faible, c’est-à-dire qu’il répond à ce que Woodward (2003 : 11) désigne comme « Et si les choses avaient été différentes ? : l’explication doit nous permettre de voir quelle différence elle aurait apportée à l’explicandum, si les facteurs cités dans les explicans avaient été différents de diverses manières possibles[7] ». Woodward va même jusqu’à affirmer que si une explication donnée ne réussit pas cette épreuve manipulationiste, alors il ne s’agit pas du tout d’une explication, mais d’une simple description ou d’un simple récit (2003 : 5) — ce qui rejoint la manière dont Hempel et Oppenheim décrivent l’explication prédictive.

Cependant, ce que nous avancerons est que, bien qu’en théorie les sociologues associent presque tous l’explication à la causalité au sens « manipulationiste » de Woodward, dans la pratique ils invoquent souvent une notion qui diffère de manière subtile mais critique de l’« explication » qu’Hempel et Oppenheim qualifient d’« explication empathique », c’est-à-dire de la « réduction de quelque chose qui ne nous est pas familier à des idées ou des expériences qui le sont » (1948 : 145). Bien que les explications empathiques soient souvent présentées sous la forme d’explications causales — par exemple, elles peuvent prétendre identifier les mécanismes causaux et même supputer une contrafactualité —, elles sont différentes en ce sens qu’elles sont évaluées principalement, sinon exclusivement, en fonction de leur capacité à donner un sens à certains comportements ou résultats observés — c’est-à-dire à les rendre compréhensibles — en les réduisant à des affirmations intuitives et qui sont matière à interprétation sur les motifs, raisons et opportunités humaines.

Hempel et Oppenheim ont soutenu que la compréhension d’ordre empathique n’était ni nécessaire ni suffisante pour garantir la scientificité. Néanmoins, l’intelligibilité a longtemps été associée à la causalité en sociologie, depuis au moins la notion weberienne de verstehen dans laquelle une explication se réfère au résultat d’un processus de réflexion interne de la part de l’analyste dont le travail est d’interpréter le comportement observé, d’en « tirer un sens ». Weber, notons-le, n’a pas précisé la relation exacte entre causalité et intelligibilité, se contentant de déclarer que la sociologie « est une science qui se préoccupe de la compréhension interprétative de l’action sociale et donc d’une explication causale de sa trajectoire et de ses conséquences » (Weber, 2003). Ce disant, Weber ne précise pas clairement s’il croit que la compréhension interprétative est l’explication causale, ou si elle est simplement une condition nécessaire mais non suffisante ; mais, dans ce dernier cas, il n’a pas spécifié la nature des autres éléments requis[8].

Pour sa part, le philosophe Donald Davidson (1963 : 685) n’y allait pas par quatre chemins, lorsqu’il soutenait que « la rationalisation est un genre d’explication causale ordinaire », en d’autres termes, que les raisons que les agents donnent pour leurs actions sont les causes de ces actions[9]. Il est intéressant de noter que Davidson n’a pas tant tiré cette conclusion d’un raisonnement logique fondamental ou de preuves empiriques, qu’il l’a simplement présentée comme évidente — du sens commun, en fait —, soutenant que, puisque nous comprenons l’explication causale, il s’ensuit que si un agent choisit certains motifs pour donner un sens à ses propres actions, alors ces motifs sont évidemment causaux[10]. Davidson, soulignons-le, faisait référence à des rationalisations du comportement quotidien, comme le fait d’actionner un interrupteur. Mais comme nous l’avancerons plus loin, ce genre d’amalgame d’explications empathiques et scientifiques est commun dans les théories sociologiques de l’action : une explication est défendue en vertu de son intelligibilité — autrement dit, de son caractère interprétable ou logique en apparence[11] — mais le lecteur est encouragé, explicitement ou implicitement, à conclure que le mécanisme décrit est aussi la cause de l’effet.

Le cas de la théorie du choix rationnel

La théorie du choix rationnel illustre de manière particulièrement éclatante cet amalgame épistémologique qui s’ignore (bien qu’elle ne soit pas la seule à le faire, comme nous le montrerons par la suite). Lorsqu’elle a été importée du champ économique et introduite en sociologie et en science politique à la fin des années 1960, cette théorie aspirait véritablement à la scientificité. Dans un de ses premiers articles, par exemple, le futur prix Nobel John Harsanyi (1969 : 514) soutenait que « les théories du comportement rationnel ont une tendance naturelle à prendre une forme hypothético-déductive et à expliquer une grande variété de faits empiriques par un petit nombre d’hypothèses théoriques, telles que des hypothèses sur les objectifs concrets du comportement des gens, sur les ressources et les informations dont ils disposent, etc. ». De même, beaucoup d’autres exemples des premiers usages de la théorie du choix rationnel ont également adhéré strictement aux critères de la scientificité, en formulant des propositions causales fortes sous la forme de modèles analytiquement précis qui ont souvent produit des prédictions précises et vérifiables (Becker, 2012 ; Coleman et Fararo, 1992).

Comme cela a par ailleurs été documenté de manière exhaustive[12], ces premiers modèles ont été fortement critiqués par les sociologues (Quadagno et Knapp, 1992 ; Elster, 1993 ; Boudon, 1998 ; Somers, 1998 ; Whitford, 2002 ; Elster, 2009), les psychologues (Tversky et Kahneman, 1974 ; Dawes, 2002 ; Gilovich, Griffin et Kahneman, 2002 ; Ariely, Loewenstein et Prelec, 2003 ; Sunstein, 2003), les politologues (Green et Shapiro, 1994 ; Walt, 1999 ; Green et Shapiro, 2005), et même par certains économistes (Arrow, 1987 ; Conlisk, 1996 ; McFadden, 1999) au motif qu’ils s’appuient sur des hypothèses peu plausibles ou empiriquement invalides en ce qui concerne les préférences, les connaissances et les capacités de calcul des acteurs en question ou, à défaut, qu’ils produisent des prédictions qui contredisent manifestement les éléments de preuve empiriques. Parmi les sociologues, l’interprétation dominante du choix rationnel s’est adaptée au fil du temps, en partie en réponse à ces critiques et en partie comme conséquence de son expansion au-delà de ses premières applications au domaine économique. Elle a tenu compte des objectifs non économiques et même prosociaux, des connaissances restreintes sur les états futurs et des pouvoirs de raisonnement limités (Wippler et Lindenberg, 1987 ; Goldthorpe, 1998). Plus radicalement, le concept même de maximisation de l’utilité, que les premiers théoriciens du choix rationnel comme Becker (2012) et Coleman et Fararo (1992) considéraient comme l’élément distinctif du choix rationnel, a également été progressivement mis de côté (Kiser et Hechter, 1998), tout comme l’a été l’hypothèse, plus faible, centrée sur le rôle des préférences exogènes, stables et cohérentes (Foley, 2004 ; Hedström et Stern, 2008) — également considérée autrefois comme une caractéristique fondamentale de la rationalité (Gintis, 2009). Même la nécessité que l’action soit intentionnelle et tournée vers l’avenir, par opposition à une simple habitude ou un autre réflexe spontané, une condition que beaucoup conçoivent comme le « noyau dur » de la rationalité (Kiser et Hechter, 1998 ; Cox, 1999), a été remise en question par certains théoriciens du choix rationnel, pour qui il est possible qu’un comportement soit tourné vers le passé (Macy, 1993 ; Macy et Flache, 2002). Enfin, et c’est sans doute le développement le plus frappant de tous, la volonté, apparue dès les débuts de la théorie du choix rationnel chez ses théoriciens, de formuler une théorie « hypothético-déductive » sous quelque forme que ce soit a tout bonnement été abandonnée au profit de quelque chose de moins précis, comme une « approche » ou un « paradigme » (Farmer, 1992 ; Kiser et Hechter, 1998 ; Cox, 1999), dans le but d’orienter davantage l’analyste que de spécifier une règle ou un ensemble de règles auxquelles obéiraient les acteurs.

Il ne s’agira pas ici de déterminer si ces changements ont amélioré la pertinence empirique de la théorie du choix rationnel, comme l’avançaient ses défenseurs (Kiser et Hechter, 1998), ou s’ils ont plutôt créé « une tente toujours plus grande dans laquelle loger chaque proposition plausible avancée par l’anthropologie, la sociologie ou la psychologie sociale », comme cela leur a été reproché (Green et Shapiro, 2005 : 76) : ce sujet a été débattu sous toutes ses coutures sans que la question ne soit jamais close et nous ne tenterons pas ici de la clore non plus. Nous aimerions plutôt souligner qu’en défendant la plausibilité théorique et la validité empirique de la théorie du choix rationnel, ses défenseurs sont concrètement passés d’une vision scientifique à une vision empathique de l’explication. Même si les théoriciens du choix rationnel ont continué à exprimer explicitement leurs aspirations à la scientificité — dressant parfois des analogies avec la mécanique newtonienne (Farmer, 1992 ; Diermeier, 1996 ; Cox, 1999) —, les critères de scientificité par lesquels ils évaluent leurs explications ont évolué au fil du temps. Alors qu’ils mettaient auparavant l’accent sur la prédiction et la déduction, ils le mettent maintenant sur l’intelligibilité et la production de sens.

Cet amalgame entre explication scientifique (causale) et empathique est bien illustré chez Farmer (1992), qui soutient que « nous devons considérer que les acteurs sont guidés par l’intention (un peu comme les physiciens considèrent que l’énergie est toujours conservée) afin d’appliquer des théories qui, en se fondant sur des affirmations plus précises quant aux buts, connaissances, contraintes internes et externes des acteurs, et ainsi de suite, permettent de décrire et d’expliquer les processus générant des résultats sociaux particuliers ». Au premier abord, cela ressemble à une motivation scientifique classique pour une action rationnelle : la rationalité est une quantité, comme l’énergie, qui existe indépendamment de l’observateur et peut être utilisée pour faire des prédictions sur les objets-acteurs observés. Mais alors que le principe de conservation de l’énergie est effectivement utilisé par les physiciens pour faire des prédictions sur le mouvement des pendules et autres, le principe de rationalité, selon Farmer, n’a aucune épreuve de validité prédictive à passer. Citant plutôt Buchanan (1985 : 417), elle conclut que « l’ensemble du dispositif de maximisation de l’utilité ne prend son sens que dans un cadre reconstructif et explicatif ». En d’autres termes, bien que les explications du choix rationnel soient explicitement destinées à reposer sur des mécanismes causaux généraux à la manière des lois physiques, elles ne doivent être évaluées qu’en fonction de leur intelligibilité[13].

Autres exemples

La théorie du choix rationnel n’est cependant pas le seul exemple de raisonnement empathique qui se glisse dans des explications en apparence scientifiques (c’est-à-dire causales) sur les causes de l’action sociale. Bien avant que la théorie du choix rationnel ne prenne de l’importance en sociologie, Lukes (1968), par exemple, critiquait les explications individualistes de l’action sociale, communes à beaucoup de penseurs depuis les Lumières, au motif qu’elles présupposent que « les lois des phénomènes de la société ne sont, et ne peuvent être, que les actions et les passions des êtres humains, à savoir les lois de la nature humaine individuelle », une perspective qu’il tire directement de Mill (1995 [1875] : 469) mais qu’il attribue à des penseurs aussi variés que Weber, Hayek, Popper, Parsons et Homans. Comme pour la théorie du choix rationnel, l’individualisme méthodologique visait explicitement à générer des explications d’ordre causal et scientifique. Lukes avançait cependant que le principe essentiel de l’individualisme méthodologique — « que toutes les tentatives d’expliquer les phénomènes sociaux et individuels doivent être rejetées… à moins qu’elles ne se réfèrent exclusivement à des faits concernant les individus » (Lukes, 1968 : 123) — est soit absurde, s’il implique, par exemple, une réduction de tout comportement aux états primitifs du cerveau, soit inutile, parce qu’il inclut nécessairement dans sa définition des « faits concernant les individus » tous les traits caractéristiques du monde social. Bien que formulée autrement, la critique de l’individualisme méthodologique de Lukes soulève foncièrement le même problème que la théorie du choix rationnel, à savoir que les explications qui étaient censées être causales sont en fait évaluées en fonction de leur capacité à rendre compréhensibles les comportements observés.

Intervenant plus d’une décennie après Lukes, Mayhew (1980) dénonçait également ce qu’il appelait « la perspective individualiste et psychologiste », qu’il considérait comme dominante dans la sociologie américaine. La critique de Mayhew, comme celle de Lukes d’ailleurs, a mis dans le même sac des comportementalistes explicitement individualistes, tel Homans, avec des structuralistes représentatifs comme Parsons, qui, de l’avis de Mayhew, ne sont arrivés tous les deux à guère plus qu’à l’idée selon laquelle « ce que vous faites dépend de ce que vous voulez » (1980 : 353). Une fois de plus, des théories de l’action, apparemment scientifiques en surface, se sont avérées dépendre dans la pratique de rationalisations du comportement a posteriori, sapant leur potentiel pouvoir explicatif causal. Selon Mayhew par exemple, la notion de valeurs chez Parsons signifie que « les gens ont des valeurs qui leur disent ce qu’ils veulent. Une valeur, c’est cela. Donc les gens font des choses parce qu’ils le veulent. C’est l’explication de leur comportement. Si une personne s’abstient de faire quelque chose, cela signifie qu’elle ne voulait pas le faire » (Mayhew, 1980 : 353). De même, chez Homans, la notion de valeur est formulée en ces termes : « ‘’Plus une personne accorde de valeur au résultat de son action, plus elle est susceptible d’accomplir ladite action”… C’est-à-dire que les valeurs mènent à l’action, autrement dit, les gens font les choses parce qu’ils le veulent bien » (Mayhew, 1980 : 354).

Fait révélateur, ni Lukes ni Mayhew n’ont proposé d’alternative convaincante à l’action rationalisable, ce qui souligne encore davantage la difficulté d’expliquer l’action sociale sans avoir recours à un moment ou un autre au raisonnement empathique — ce qui a été souligné même par les sympathisants de Mayhew (Gannon et Freidheim, 1982). Les théories de l’action plus récentes se sont toutes aussi heurtées à cette même difficulté. Bourdieu (2005), par exemple, propose sa propre version de l’action rationalisable, qui en est simplement une variante plus riche et plus dépendante de son contexte d’application, après avoir livré une critique dévastatrice de la dépendance de la théorie du choix rationnel à ce qu’il appelle le « sens commun économique » — c’est-à-dire l’incorporation non assumée d’hypothèses historiques et culturelles sur les objectifs économiques et le calcul rationnel dans des théories du choix prétendument universelles. Plus récemment, Gross (2009), cherchant à distinguer sa « théorie pragmatiste des mécanismes sociaux » à la fois de Bourdieu d’une part, et de la théorie du choix rationnel d’autre part, propose une autre variation sur le thème de l’action rationalisable. Les pragmatistes « voient les mécanismes sociaux comme des chaînes ou des agrégats d’acteurs confrontés à des situations problématiques et mobilisant des réponses plus ou moins habituelles » (2009 : 368). Cet exercice analytique exige à son tour que « nous saisissions comment les individus concernés comprennent les situations qui se présentent à eux et agissent sur la base de cette compréhension, participant par là même à la mise en oeuvre du mécanisme » (2009 : 369)[14]. Une fois de plus, des mécanismes vraisemblablement causaux doivent être évalués en fonction de leur intelligibilité.

Enfin, l’omniprésence des explications empathiques ne se limite pas à celles qui invoquent explicitement les états psychologiques individuels. Boudon (1987), par exemple, disait non seulement que le paradigme individualiste est le paradigme dominant parmi les sociologues, mais également que même ceux qui adhèrent ouvertement à d’autres paradigmes ont en fait souvent fait appel aux rationalisations individualistes dans la pratique, tout en s’abstenant généralement de le reconnaître. Les théoriciens nomologiques, par exemple, tentent d’expliquer les phénomènes macrosociologiques en termes d’autres phénomènes macrosociologiques par le biais d’affirmations générales, qui prennent la forme de lois. Néanmoins, lorsqu’ils interprètent ces déclarations, ils sont souvent forcés de se réclamer de l’action rationalisable, notamment pour être compris. La contribution de Blau (1987) dans le même volume — une analyse du mariage interracial en termes d’hétérogénéité et d’inégalité, menée en croisant plusieurs dimensions sociales transversales — illustre (involontairement) cette tendance. L’analyse de Blau offre, en surface, ce que Boudon appellerait une explication macrostructurelle, en ce sens que les variables indépendantes et dépendantes sont macrostructurelles. Cependant, en essayant d’expliquer la validité des théorèmes qui en découlent, même Blau convoque les états psychologiques des individus comme variables explicatives (Blau, 1987 : 80-84)[15].

En conclusion, les théories sociologiques de l’action — qu’il s’agisse des explications individualistes critiquées par Lukes et Mayhew, des différentes variantes de la théorie du choix rationnel, de la théorie des champs de Bourdieu ou du pragmatisme de Gross — ressemblent à la théorie du sens commun de l’action rationalisable en ce qu’elles promettent des explications scientifiques basées sur des mécanismes causaux généralisables, mais produisent en pratique des explications empathiques qui rendent l’action compréhensible. De plus, il me semble que cette ressemblance n’a rien d’accidentel et que, dépouillées de leur jargon et de leurs prétentions théoriques, de nombreuses théories sociologiques de l’action sont en fait des variantes de la théorie du sens commun. Bien que ces différentes théories accordent une importance variable aux intentions, aux croyances, aux circonstances et aux occasions favorables, et bien que des batailles idéologiques aient parfois été livrées à propos de ces variations, elles cherchent toutes en fin de compte à expliquer l’action individuelle ou collective en termes d’alliage de ces facteurs. Il est d’ailleurs essentiel de noter que la tendance générale a été d’évaluer ces explications de la même manière que l’on évalue les rationalisations au moyen du sens commun, c’est-à-dire en fonction de leur capacité à donner un sens au résultat observé. Et il n’est pas facile non plus, comme j’aimerais le montrer, d’éviter l’écueil de cette dépendance de la théorie sur l’action rationalisable au sens commun lorsque l’on construit une théorie de l’action sociale ou, encore, lorsqu’il s’agit d’expliquer le comportement humain.

La théorisation par simulation mentale

Si nous nous appuyons sur des rationalisations de l’action au moyen du sens commun, c’est parce que nous faisons l’expérience de ce que veut dire être humain, et que nous pouvons et devons « expliquer » le comportement humain comme nous ne savons pas le faire pour celui des électrons, des protéines ou des planètes. En essayant de comprendre le comportement des électrons, par exemple, le physicien ne commence pas par imaginer ce que ce serait que d’être l’un des électrons en question. Il peut avoir des intuitions en ce qui concerne les théories du comportement des électrons, et l’habitude de manier ces théories l’aide probablement à comprendre leur comportement, dans le sens restreint où il s’agit de relier les causes et les effets de manière systématique et empiriquement vérifiable. Mais à aucun moment, il ne s’attend à voir le monde du point de vue d’un électron — en fait, l’idée même d’une telle intuition prête à rire. De même, si une chercheure en neurosciences proposait une théorie de la conscience humaine issue de processus neurologiques primitifs, elle ne s’attendrait pas à avoir l’intuition des « règles » du comportement neuronal. Elle pourrait proposer des heuristiques plausibles, comme c’est courant dans la recherche sur les oscillateurs biologiques (Kopell, 1988 ; Winfree, 2000 ; Freeman, 2003 ; Strogatz, 2003), et chercher à dériver des hypothèses causales vérifiables concernant leur dynamique collective, comme l’existence d’ondes progressives, la synchronisation globale ou le chaos. En d’autres termes, elle chercherait à comprendre le lien entre les microrègles et les macrophénomènes, mais elle ne s’attendrait pas à ce que ces microrègles elles-mêmes soient « compréhensibles » au sens où elles seraient accessibles à sa propre expérience subjective.

Cependant, si les unités de base ne sont plus des électrons ou des neurones mais des personnes, non seulement nous pouvons théoriser à partir d’une simple introspection pour imaginer ce que serait d’être à leur place, mais il nous est pratiquement impossible de ne pas le faire. La théorie de la « simulation » en philosophie de l’esprit (Gordon, 1986 ; Goldman, 2006) l’affirme : en tentant de prédire le comportement des autres, voire le nôtre dans une situation future ou hypothétique (par exemple : « Que ferais-je si ma maison brûlait ? » ou « Comment réagirais-je si je gagnais au loto ? »), nous simulons la personne qui décide. Nous substituons alors notre propre perception de la situation par la sienne, en tenant compte de toutes les informations pertinentes dont nous disposons (intentions, croyances, circonstances, etc.). Le comportement de notre acteur artificiel — où notre « nous » modifié pour l’occasion remplace un hypothétique « eux » — est alors interprété comme une prédiction de ce que l’acteur réel fera. Inversement, devant une situation et un comportement observé — un étranger qui nous parle comme à un vieil ami, un conjoint qui réagit à notre retour inattendu avec surprise et anxiété, jusqu’aux manoeuvres des politiciens que nous suivons au quotidien dans les médias —, le même processus peut être déployé à l’inverse pour déduire des intentions, des croyances et autres, que nous pouvons alors réconcilier avec le résultat observé pour ainsi le rationaliser.

Aussi banale soit-elle, cette capacité à expliquer le comportement — à la fois dans le sens scientifique d’identification de ses causes et dans le sens empathique de le comprendre — par la simulation mentale est considérée comme unique aux humains (Gilbert, 2007), simulation qui nous permet non seulement de tirer des enseignements de nos expériences passées, comme le font les autres animaux, mais aussi d’extrapoler à partir d’elles pour anticiper des situations entièrement nouvelles ou même hypothétiques. D’autres animaux peuvent anticiper le comportement des autres, mais seuls les humains peuvent réfléchir à leur comportement en formant des représentations de leurs états mentaux, une compétence dont on estime qu’elle se développe vers l’âge de quatre ans (Wimmer et Perner, 1983). Il n’est probablement pas exagéré d’affirmer que sans celle-ci, l’organisation sociale serait impossible, même sous ses formes les plus simples. En fait, toute forme de planification ou de prévision — qu’elle soit effectuée par des amis, des membres de la famille, des collègues de travail ou des gestionnaires, des marketeurs et des décideurs politiques — est au moins en partie un exercice d’anticipation du comportement des autres devant certaines incitations, informations et contraintes.

Étant donné l’utilité de la simulation mentale pour « théoriser » le comportement humain dans la vie quotidienne, il n’est pas surprenant que les chercheurs en sciences sociales aient recours à ce même outil pour théoriser le comportement humain de manière plus formelle. Et c’est bien ce qu’ils font, de façon routinière. En s’arrêtant sur un comportement qui lui apparaît d’abord déroutant — par exemple, celui des enseignants des écoles secondaires publiques, qui modifient les réponses de leurs élèves aux examens afin d’améliorer leurs résultats (Jacob et Levitt, 2003), un délit qui pourrait facilement leur faire perdre leur emploi — le chercheur en sciences sociales tente de l’expliquer en se mettant, en fait, à la place des enseignants. Quelles sont leurs motivations pour tricher ? Quels sont, selon eux, leurs risques d’être pris ? Quelles autres variables contextuelles (une faible rémunération, des ressources pédagogiques inadéquates et d’autres frustrations liées à l’emploi) pourraient miner à ce point les normes sociales habituelles d’honnêteté et d’intégrité ? En d’autres mots, les données peuvent nous dire qu’il y a tricherie, mais ce n’est qu’en reconstruisant les détails pertinents de la situation des enseignants dans notre esprit, et en faisant l’expérience effective de ce que ce serait d’être à leur place, que nous pouvons comprendre le comportement observé. Tout comme nous le faisons au quotidien, les chercheurs en sciences sociales peuvent expliquer et expliquent l’action sociale simplement en imaginant ce qu’être tel ou tel acteur serait dans telle situation, et en prévoyant comment cet acteur hypothétique réagirait dans cette situation[16].

Aussi naturelle et utile que soit cette méthode d’explication, elle repose essentiellement sur une intuition de sens commun dont les conséquences passent inaperçues. En particulier, puisque notre utilisation quotidienne de la simulation mentale sert à la fois à prédire le comportement de certains acteurs et à deviner les détails de certaines situations ou de certains acteurs pour nous permettre de rationaliser certains comportements que nous avons observés, et comme, dans la vie quotidienne, nous oscillons instinctivement et inconsciemment entre ces deux modes de prédiction et de production de sens, ceux-ci nous semblent être deux facettes du même phénomène et ne se distinguer qu’au point de vue temporel — l’un se produisant a priori et l’autre a posteriori. Puisque c’est ainsi que nous faisons l’expérience de nos propres processus de pensée, il semble aller de soi que les explications prédictives sont accessibles à nos facultés d’interprétation, et donc que les explications qui nous aident à donner un sens au comportement humain a posteriori correspondent à des mécanismes causaux — tout comme l’a soutenu Davidson (1963).

Le saut des théories de l’action de sens commun aux théories sociologiques est alors simple. Comme James (2011) et plus tard Boudon (1988) l’ont affirmé, les notions de sens commun, même lorsqu’elles ne sont pas universellement valides, le sont généralement dans les situations du quotidien. Elles héritent de cette validité générale une plausibilité qui leur confère une aura de validité universelle. Il en résulte qu’« une théorie peut facilement être perçue comme vraie lorsqu’elle est fausse, ou plus valide qu’elle ne le mérite, si elle inclut, en plus de ses déclarations explicites, des déclarations communes implicites et inaperçues qui, bien que valides dans la vie quotidienne, n’ont pas de validité universelle » (Boudon, 1988 : 1). Il en va de même, à mon sens, pour l’action rationalisable. Dans leur vie quotidienne, les chercheurs en sciences sociales incluent nécessairement l’action rationalisable dans leur boîte à outils de simulation mentale. Parce que les explications qu’ils élaborent quotidiennement sont utiles pour donner un sens au comportement et pour le prédire, voire le modifier, le même amalgame d’explication empathique et causale est incorporé dans la théorisation sociologique sans jamais être explicitement reconnu. Par conséquent, l’amalgame de l’intelligibilité et de la causalité dans les théories sociologiques n’a pas été remis en question, même si des théories particulières ont pu être contestées.

Bien sûr, si l’intelligibilité et la causalité étaient effectivement interchangeables, cet amalgame épistémique ne soulèverait aucun problème. Cependant, j’avancerai maintenant que la validité de cette hypothèse est une illusion : le simple fait qu’une explication donne un sens à certains résultats observés ne garantit aucunement qu’elle renvoie à des mécanismes de causalité généralisables ou même qu’elle soit une cause déterminante de ce résultat en particulier. Par conséquent, les raisons qui semblent importantes ex ante ne permettront pas de faire des prédictions exactes, alors que les raisons dont il semble ex post qu’elles auraient pu permettre de prédire le résultat avec exactitude, si elles avaient été connues à temps, n’auraient pas nécessairement pu l’être, même en principe. Dans la vie de tous les jours, j’y reviendrai, ces erreurs sont si petites ou peuvent être corrigées si rapidement, grâce à un échange d’information en temps réel, que nous ne les remarquons pas. Les théories de l’action des sociologues ont pourtant des ambitions interprétatives bien plus vastes que le comportement quotidien, et, dans ces conditions, la tentation de théoriser par la simulation mentale peut miner la validité scientifique des explications qui en résultent.

Trois problèmes de l’action rationalisable comme explication causale

Nous nous pencherons sur trois problèmes en particulier : le « problème du cadre », le « problème de l’indétermination » et le « problème du résultat ». Chacun est distinct des autres, mais tous ont pour conséquence de rompre l’équivalence entre l’intelligibilité et la causalité dans les explications sociologiques de l’action.

Le problème du cadre

Lorsque nous déployons notre dispositif de simulation mentale pour nous projeter dans une situation particulière, notre cerveau ne répond pas immédiatement en dressant une longue liste de questions concernant les détails confus auxquels nos esprits conscients devraient réagir avant de pouvoir simuler l’expérience. Au lieu de cela, ces détails sont simplement « substitués » par nos esprits inconscients, qui puisent dans une bibliothèque d’images, d’émotions, de stéréotypes, de modèles et autres souvenirs stylisés (Schacter, 2001 ; Gilbert, 2007 ; Marcus, 2008). Comme ce processus de « substitution » se déroule instantanément et sans effort, nous ignorons généralement qu’il se déploie. Nous traitons donc les détails imaginés exactement de la même manière que les détails connus — c’est-à-dire les caractéristiques réelles de la situation — et nous calibrons notre réaction imaginée en conséquence. Nous considérons en effet ces détails comme des desiderata sans importance, que nos simulations mentales peuvent laisser de côté sans que cela ne produise aucun effet. Mais comme une grande partie du travail des 30 dernières années en psychologie (Gilovich, Griffin et Kahneman, 2002) et un corpus plus récent en économie comportementale (Camerer, Loewenstein et Rabin, 2003) l’ont démontré, la façon dont les gens établissent leurs préférences, les règles qu’ils invoquent lorsqu’ils prennent des décisions et la façon dont ils évaluent les résultats qu’ils observent, peut entièrement dépendre très précisément de ces détails, souvent avec des effets surprenants. Dans une étude au cours de laquelle il leur était demandé de noter leur boisson énergétique préférée, les participants auxquels un stylo de couleur verte avait été fourni montraient une tendance disproportionnée à citer le Gatorade [ndlt : une boisson américaine dont l’étiquette est habituellement verte] (Berger et Fitzsimons, 2008). Les clients d’une cave à vin achètent du vin allemand en quantité disproportionnée lorsque de la musique allemande passe en fond sonore (North, Hargreaves et McKendrick, 1997). Les protagonistes d’une vente aux enchères dépenseront davantage lorsqu’on leur a demandé préalablement de penser à un nombre élevé (Chapman et Johnson, 1994 ; Ariely et al. 2003). Mais que vont-ils acheter, et combien dépenseront-ils, s’ils écoutent de la musique dans une pièce verte et pensent aussi à un nombre ? Il n’est malheureusement pas possible de le savoir avec certitude. Par leur conception, les environnements expérimentaux mettent l’accent sur un seul facteur potentiellement pertinent à la fois. Dans la vie réelle, bon nombre de ces facteurs sont pourtant susceptibles d’être présents à divers degrés et la question de leurs interactions dans le cadre de différents types de décisions est loin d’être résolue (Gilbert et Mallone, 1995).

Ce qui est encore plus troublant, c’est que la liste des facteurs qui entrent potentiellement en jeu est elle-même inconnue et, en fait, probablement impossible à connaître. Les philosophes et les chercheurs en sciences cognitives se préoccupent depuis longtemps de ce qu’ils appellent le « problème du cadre », qui consiste, pour simplifier, à comprendre comment une personne qui doit prendre une décision peut déterminer ce qui importe dans sa situation au moment de trancher (Dennett, 1984 ; Fodor, 2006). À première vue, la réponse semble aller de soi mais, comme l’ont découvert les chercheurs en intelligence artificielle, il est notoirement difficile de coder de manière non circulaire : c’est-à-dire que, pour déterminer quels éléments sont pertinents dans la situation actuelle, il faut l’associer à un ensemble de situations comparables ; mais notre capacité à déterminer quelles situations sont comparables dépend de notre capacité à identifier quelles caractéristiques comparer. Cette circularité est si profonde, selon le philosophe Jerry Fodor, que les tentatives pour « résoudre » le problème du cadre aboutissent invariablement à une simple reformulation du même problème (Fodor, 2006).

Selon Fodor, le noeud du problème découle en fin de compte de la nature « locale » du calcul, qui — du moins dans sa conception actuelle — prend un ensemble de paramètres et de conditions comme donnés. Une sorte d’opération est ensuite réalisée sur ces entrées afin de générer une sortie. Dans le cas de la théorie du choix rationnel, par exemple, les « paramètres et conditions » pourraient être capturés par la fonction utilité et l’« opération » serait une sorte de procédure d’optimisation. Mais on pourrait tout à fait imaginer d’autres conditions et opérations de résolution de problèmes, y compris des approches heuristiques, incluant les habitudes et d’autres approches non rationnelles (Gigerenzer, Todd et ABC Research Group, 1999). Le fait est que, peu importe le type de calcul que l’on tente d’élaborer, il faut partir d’un ensemble d’hypothèses sur ce qui est pertinent, et cette décision ne peut pas être prise de la même manière (c’est-à-dire, sur la base d’un calcul local). Si l’on essayait de résoudre ce problème, par exemple en commençant par identifier un ensemble indépendant d’hypothèses sur ce qui est pertinent pour le calcul lui-même, on se retrouverait simplement avec une version du même problème (qu’est-ce qui est pertinent pour ce calcul ?), mais à une étape ultérieure. Bien sûr, on pourrait continuer à répéter ce processus et espérer qu’il se termine à un moment précis. Il est en fait toujours envisageable de le faire de façon triviale, en incluant de manière exhaustive chaque élément et chaque concept de l’univers connu dans le panier des facteurs potentiellement pertinents, rendant ainsi local par définition ce qui semble être un problème global. Le succès de cette approche a malheureusement un coût : elle rend le protocole de calcul inapplicable.

On peut en fait envisager l’évolution de la théorie du choix rationnel au cours des 40 dernières années comme une série de confrontations avec le problème du cadre, dont chacune a conduit à une redéfinition de plus en plus large de la « rationalité », associée à un glissement de la notion de calcul vers des définitions toujours moins précises. Les premières propositions, comme celles de Harsanyi et Becker, ont d’abord employé des notions de calcul bien définies et un ensemble très étroit de postulats sur ce qu’il est pertinent de retenir comme variables, donnant ainsi l’apparence d’une théorie élégante et précise. Très vite, il est toutefois devenu évident que ces postulats étaient inadéquats pour saisir autre chose qu’une gamme étroite de comportements humains empiriquement observables, ce qui a amené une nouvelle génération de théoriciens à réexaminer la question de la pertinence des facteurs, et à donner une réponse plus large à la question, en tenant compte d’un plus grand nombre d’éléments. Pourtant, en appliquant cet ensemble élargi d’hypothèses, les analystes ont découvert deux problèmes : d’une part, qu’en augmentant la portée du domaine local, le processus de calcul devient de plus en plus difficile à définir précisément ; d’autre part, qu’inclure des facteurs supplémentaires ne résout pas le problème initial et exige des conceptions plus inclusives de la rationalité. De ce point de vue, l’évolution constante des déclarations des théoriciens du choix rationnel quant à ce qu’ils tentaient d’accomplir — avec, au départ, des idées très claires sur ce qui devrait être considéré comme une théorie et, à la fin, la négation de l’idée que le choix rationnel était destiné à former une « théorie » du tout — était inévitable. Les chercheurs en sciences cognitives, en intelligence artificielle et en philosophie de l’esprit ne sont pas parvenus à résoudre le problème du cadre ; il n’est donc pas surprenant que les théoriciens du choix rationnel n’aient pas été capables de le résoudre eux non plus[17].

Pourquoi ne prêtons-nous pas attention à ce problème du cadre dans la vie de tous les jours ? Une explication possible est que la simulation mentale fonctionne mieux en pratique qu’en théorie. Elle intervient alors dans des conditions particulièrement clémentes envers les erreurs de prédiction, à savoir des circonstances concrètes, immédiates et vécues de façon répétée. Par exemple, comme le soulignent Gilbert et Mallone (1995), bien que les simulations mentales souffrent généralement de biais de correspondance (elles attribuent le comportement observé à des caractéristiques intrinsèques aux individus alors que l’explication correcte est d’ordre situationnel), il arrive aussi fréquemment que les caractéristiques intrinsèques et situationnelles soient fortement corrélées dans la pratique, par exemple parce que les gens procèdent à des choix dans des situations adaptées à leurs prédispositions psychologiques (pensons à une personne mal à l’aise en société qui choisit un métier ne lui imposant pas d’interagir avec des collègues) ou parce qu’une personne prédit de façon répétée le comportement de quelqu’un dans la même situation (tel celui d’un collègue de travail au bureau). Ainsi, les prédictions peuvent être exactes même si la simulation elle-même est fausse. Une deuxième explication, soulignée par Gordon (1986), est que dans les situations quotidiennes, la pratique qui consiste à théoriser le comportement des autres en utilisant la simulation est d’autant plus facilitée qu’ils réagissent en temps réel à nos théories. Ainsi, même lorsque nos prédictions sont erronées, ces erreurs peuvent être corrigées rapidement[18].

Bien qu’elles diffèrent, ces deux explications conduisent à la même conclusion : si, en théorie, le problème du cadre menace, parfois sérieusement, la simulation mentale, il reste relativement bénin dans la pratique quotidienne. Le revers de cette conclusion reste que le problème du cadre est loin d’être bénin lorsque la simulation mentale est utilisée pour théoriser à propos de comportements qui ne sont pas ceux, quotidiens, de personnes connues évoluant dans des situations familières. Plus on s’éloigne d’un acteur familier dans une situation connue, plus le risque d’erreur est grand. De même, moins nos prédictions suscitent de réactions, moins on a l’occasion de corriger les erreurs commises. Malheureusement, ce sont précisément dans ces conditions éloignées et peu familières que les sociologues convoquent généralement la simulation mentale, sous couvert de l’action rationalisable.

Le problème de l’indétermination

Un deuxième problème surgit du fait que si l’action rationalisable s’applique de manière évidente aux individus, les sociologues l’appliquent aussi, dans la pratique, au comportement collectif, en invoquant, souvent implicitement, un acteur représentatif ou un individu dont les intentions et les croyances sont convoquées pour expliquer les actions du collectif. L’une des réalisations exemplaires des mathématiques appliquées en sciences sociales a cependant consisté à montrer que lorsque des individus interagissent au sein d’un collectif — que ce soit parce qu’ils se comportent de manière stratégique (Olson, 1965 ; Schelling, 1978), répondent à des contraintes informationnelles (Bikhchandani, Hirshleifer et Welch, 1992 ; Salganik, Dodds et Watts, 2006) ou agissent par effet de coordination (Arthur 1989) —, leur comportement collectif peut montrer des effets d’émergence qui ne sont pas réductibles aux attributs des individus mêmes (Kirman, 1992). Pour l’illustrer, considérons le modèle extrêmement simple de choix binaire en fonction d’un « seuil », analysé par Granovetter (1978), qui décrit une foule hypothétique au bord de l’émeute. Dans ce modèle, chaque membre de la foule suit une règle simple : « Je me révolterai si le nombre de personnes qui se révoltent atteint un seuil critique, sinon je me tiendrai tranquille. » En supposant également une distribution des seuils individuels allant des émeutiers spontanés (dont le seuil est de zéro) aux retardataires, Granovetter montre qu’une altération aussi subtile que la modification du seuil d’un seul acteur peut potentiellement produire des résultats collectifs nettement différents : d’un côté, une foule largement ordonnée, de l’autre, une émeute générale. Devant des résultats aussi contrastés, toute explication fondée sur une action rationalisable par l’intermédiaire d’un acteur représentatif localiserait nécessairement la cause de l’émeute dans les prédispositions intrinsèques de « la foule », mais nous savons, d’après l’analyse, que les foules en question ne peuvent être distinguées d’aucune manière significative. Le fait que l’on puisse facilement montrer que l’inverse est vrai est tout aussi dérangeant pour la rationalisation des comportements collectifs : des distributions complètement différentes entre les seuils individuels peuvent donner des résultats collectifs indiscernables.

Aussi simple soit-il, le modèle de Granovetter présente une idée puissante : chaque fois que des interactions sociales sont impliquées dans un comportement collectif, la relation entre les attributs individuels et les résultats collectifs est fondamentalement indéterminée. Des attributs impossibles à distinguer de l’extérieur peuvent en effet mener à des résultats extrêmement divergents et, inversement, des attributs plutôt différents peuvent donner des résultats indiscernables. Notons que ce « problème de l’indétermination » se distingue du problème du cadre, de deux façons. Premièrement, alors que le problème du cadre est généralement associé au comportement individuel, le problème de l’indétermination s’applique au comportement collectif. Deuxièmement, alors que le problème du cadre concerne la sélection des éléments pertinents dans une situation donnée, le problème de l’indétermination renvoie à la non-unicité de la relation entre les caractéristiques micro (c’est-à-dire individuelles) et les résultats à l’échelle macro. Il n’est pas nécessaire de prendre en compte le problème de l’indétermination pour se préoccuper du problème du cadre et, même si on réussissait à résoudre ce dernier d’une manière ou d’une autre, on serait toujours aux prises avec le premier. Cependant, le problème de l’indétermination pose, comme le problème du cadre, un important défi à la prémisse de l’action rationnelle selon laquelle les explications causales des résultats observés peuvent être obtenues exclusivement en termes d’intentions et de croyances des acteurs impliqués. En effet, si un ensemble donné d’intentions peut mener à de nombreux résultats distincts, et si tout résultat donné peut être obtenu à partir d’un grand nombre d’ensembles d’intentions distincts, alors l’obtention d’un résultat ne peut pas permettre de dire grand-chose sur les intentions et autres facteurs qui y ont mené.

Le problème des résultats

Un troisième problème, tout aussi insidieux, que pose l’action rationalisable, c’est le traitement désinvolte de la notion de résultat qu’elle implique. Nous parlons au quotidien de « résultats » sans douter pour un instant du sens de ce mot et, lorsque nous regardons vers l’avenir ou nous tournons vers le passé, le rapport entre les intentions et les résultats nous semble clair. Lorsque je soumets un article à une revue, j’ai probablement en tête de le faire publier. Mon intention est donc de l’écrire de manière à maximiser la probabilité de ce résultat. Mais il est aussi vrai que des événements ultérieurs modifient souvent la valeur que nous attribuons aux événements passés, et même le souvenir de ce que nous avons ressenti à leur propos à l’époque : le rejet de mon premier choix de revue m’amène à réécrire l’article d’une manière qui me semblera plus intéressante par la suite ; une promotion manquée sera interprétée plus tard comme le stimulus menant à une carrière plus satisfaisante ; et une relation amoureuse qui finit mal, qui a été douloureuse à tel moment de la vie, sera remplacée par une relation plus saine. Nos tendances révisionnistes ne se limitent pas à des réévaluations positives : comme de trop nombreux gagnants au loto peuvent en témoigner, ce qui semblait au départ être une bénédiction, peut s’avérer être une malédiction. Dans de nombreuses circonstances familières, notre regard rétrospectif sur des événements passés que nous avons évalués comme donnant lieu à de bons ou de mauvais « résultats », avant leur occurrence et peut-être même à l’époque où ils sont survenus, nous fait les considérer comme des étapes intermédiaires dans le processus menant au résultat « réel », c’est-à-dire au moment où nous procédons à l’évaluation, plutôt qu’à des résultats finaux.

Plus grave encore est le fait qu’avec ce raisonnement, il n’y a aucune garantie que notre évaluation actuelle soit plus correcte que celle que nous aurions pu faire dans le passé, et en fait aucun moyen de le savoir[19]. Danto (1965) a précisément défendu cette idée dans le domaine de l’historiographie : puisque l’importance de tout événement est forcément fonction des événements qui lui succèdent, et puisqu’on ne peut jamais être sûr de ce que ces événements seront ni du moment où ils se produiront — peut-être bien plus tard que le premier événement lui-même —, l’histoire ne peut être racontée au moment où elle se produit, même en principe. Caractériser l’invention du HTML comme l’invention du World Wide Web, par exemple, n’est possible que lorsque l’on sait à la fois que le Web est lui-même un objet d’importance historique et que la façon particulière dont il s’est développé — navigateurs Web, moteurs de recherche, commerce électronique, sites de réseaux sociaux — utilise le HTML plutôt qu’un autre langage. Puisque « le Web » est la somme de toutes ces contributions cumulatives intervenues sur une période de plus de vingt ans, l’importance historique du HTML n’aurait pu être évaluée au moment de son apparition — un point que Sewell (1996) a également défendu avec vigueur.

Le corollaire dérangeant de cette observation est que les explications des événements historiques qui prétendent décrire simplement « ce qui se passait » à telle époque sont fondamentalement contaminées par la connaissance qu’ont les historiens de ce qui s’est passé par la suite. Par exemple, décrire l’invention du HMTL comme l’« invention du Web » repose sur ce que Danto appelle une phrase narrative : une phrase qui semble être une description de quelque chose qui se passe à une certaine époque mais qui repose sur une sorte de présavoir, une capacité prophétique à décrire ce qui se passait tout en bénéficiant d’une connaissance acquise dans le futur. Danto a en outre fait valoir l’idée que les phrases narratives ne sont pas seulement un raccourci utile pour les historiens, mais qu’elles sont inextricablement liées aux descriptions historiques : d’une certaine manière, l’historiographie sans phrases narratives ne satisferait pas l’objectif premier des historiens, qui est de donner un sens au passé. Ainsi, conclut-il, la dépendance de « ce qui s’est passé » à ce qui s’est passé depuis ne se pose pas seulement parce que les événements ne peuvent tout simplement être décrits qu’une fois qu’ils se sont produits, mais aussi, plus profondément, parce que « ce qui s’est passé » en un sens historique incorpore inextricablement les événements ultérieurs.

Les propositions de Danto s’adressaient principalement aux historiens, mais ils peuvent également s’appliquer aux explications que les sociologues font des événements du passé. En effet, s’il n’est pas même possible de décrire un événement particulier sans référence à des événements ultérieurs, alors les explications de ce qui a causé cet événement sont également potentiellement contaminées par des informations sur les résultats, au-delà du « résultat » en question. Plus encore, puisqu’il n’y a jamais de point final, de moment où il est possible de déterminer l’importance des événements une fois pour toutes, les explications du passé sont potentiellement ouvertes à la révision à perpétuité. Contrairement au problème du cadre, qui s’applique aux théories individuelles de l’esprit, ou au problème de l’indétermination, qui concerne principalement le comportement collectif, ce « problème des résultats » s’applique à la fois aux résultats individuels et collectifs et se distingue des deux premiers problèmes. En effet, même si l’avenir et le passé étaient liés d’une manière unique, et même s’il n’y avait pas de problème pour déterminer quels facteurs ont été pertinents dans telle situation donnée, la question de déterminer à quel moment de l’avenir il convient d’évaluer les conséquences d’une action se poserait encore.

En somme, l’association du problème du cadre, de celui de l’indétermination et de celui du résultat invalide l’hypothèse implicite des théories de l’action rationalisable, selon laquelle les explications qui rendent l’action observée intelligible peuvent être considérées comme des explications causales sans autre forme de procès. Les intentions conduisent certes à faire des plans, les plans conduisent à des actions et les actions à des résultats. Et, après avoir observé le résultat, il est également possible pour un observateur de le rationaliser comme un alliage d’intentions, de croyances, de circonstances et d’occasions favorables pour les acteurs impliqués. Mais si ces mêmes acteurs ne savent pas ou ne sont pas en mesure de savoir ce que seront les futurs états qu’ils choisiront parmi ceux qui sont pertinents pour le choix en question, si les résultats obtenus sont le produit indéterminé des interactions de plusieurs de ces individus entre eux, et si l’évaluation des résultats eux-mêmes peut dépendre d’événements qui auront lieu par la suite, alors il ne va pas de soi que les intentions, les plans ou les actions qui semblent pertinents au moment de l’explication auraient pu être connus a priori. Les explications a posteriori de l’action individuelle ou collective qui sont évaluées sur la base de leur intelligibilité ne sont donc, au mieux, pas forcément causales et, au pire, peu susceptibles de l’être.

Recadrage de l’explication en tant que prédiction

Si la compréhension prise dans un sens empathique n’est pas un guide fiable pour les explications sociologiques, comment les sociologues devraient-ils procéder ? Il n’existe pas de solution applicable à toutes les situations, mais un certain nombre de solutions partielles ont été proposées au fil des ans, en sociologie et en économie, ainsi que dans des domaines connexes comme la statistique et l’informatique. Si ces solutions étaient prises au sérieux, elles pourraient aider les sociologues à se prémunir contre des pratiques méthodologiques défaillantes. Sur le plan conceptuel, elles les obligeraient en outre à faire la différence entre l’explication empathique et l’explication causale, et donc à produire des explications plus rigoureuses sur le plan scientifique, à défaut d’être plus satisfaisantes. Bien que ce qui découle de ces méthodes puisse à certains égards être controversé, les méthodes elles-mêmes partent toutes du même point, qui fait quasiment l’unanimité — à savoir le critère manipulationiste de Woodward, selon lequel les explications doivent répondre à la question « Et si les choses s’étaient passées différemment ? » — et ensuite procèdent à l’élaboration de règles de preuves différentes mais connexes afin que de telles affirmations soient prises au sérieux.

L’approche la plus simple, en théorie sinon en pratique, consiste pour les sociologues à s’appuyer davantage sur des méthodes expérimentales. En particulier, les expériences de terrain (Harrison et List, 2004 ; Gerber et Green, 2012), dans lesquelles il est possible d’identifier les effets causaux en vertu de l’assignation aléatoire, ont longtemps été considérées comme l’idéal en matière de normes de preuve en médecine (Madigan et al., 2014) et sont de plus en plus répandues en sciences sociales, y compris en sociologie (Pager, Western et Bonikowski, 2009 ; Van de Rijt et al., 2014). Les expériences et quasi-expériences naturelles (Gerber et Green, 2012) qui exploitent le caractère aléatoire naturel — comme le tirage au sort — ou d’autres caractéristiques saillantes de l’environnement, comme les limites géographiques, les seuils ou les erreurs (Sorensen, 2007), qui sont des substituts plausibles pour l’assignation aléatoire, sont moins irréprochables mais peuvent aussi être utiles. Enfin, il est également possible de recourir aux expériences en laboratoire pour identifier les effets causaux, comme cela a longtemps été le cas en psychologie sociale (Asch, 1953 ; Milgram, 1969) et, plus récemment, en économie comportementale (Camerer et al., 2003). À quelques exceptions notables (comme Cook et al., 1983), les expériences en laboratoire ont été moins fréquentes en sociologie. Les « laboratoires virtuels » sur le Web ont cependant récemment démontré la faisabilité d’expériences conduites avec des dizaines de milliers de participants, ce qui laisse supposer que la « macrosociologie expérimentale » (Hedstrom, 2006) peut être plus accessible qu’on ne le pensait jusqu’alors (Zelditch, 1969).

Les sociologues pourraient et devraient certes s’intéresser davantage aux méthodes expérimentales. Néanmoins, pour différents sujets d’intérêt en sociologie, elles restent limitatives en ce qu’elles sont soit difficiles, soit impossibles à réaliser. Dans les expériences de terrain, par exemple, l’unité d’analyse est l’individu, alors que les sociologues s’intéressent souvent à des entités collectives telles que les organisations, les marchés ou les cultures. Dans de tels cas, les « traitements » peuvent être irréalisables, la population disponible d’entités comparables trop petite (comme dans le cas des pays, par exemple), ou les deux à la fois. Même lorsque ce sont les individus qui sont l’unité d’analyse — comme dans les études de parcours de vie —, il peut être impossible ou contraire à l’éthique de recourir à l’assignation aléatoire. D’autres exigences liées à l’identification des individus, telles que la non-ingérence et l’exclusivité (Gerber et Green, 2012), pourraient risquer de ne pas être respectées. Une autre critique fréquente des expériences de terrain est que même lorsqu’elles sont possibles, il peut être difficile de généraliser d’un terrain à un autre. Enfin, les expériences conduites en laboratoire ont tendance à être sujettes à des problèmes de validité externe encore plus importants que les expériences de terrain, tandis que les expériences naturelles et quasi expérimentales, bien qu’elles puissent parfois être utiles dans des situations où les expériences prévues sont irréalisables, se restreignent à des cas où des situations proches d’une assignation aléatoire se produisent naturellement.

Ainsi, le modèle contrefactuel d’inférence causale (Rubin, 1974 ; Morgan et Winship, 2007) appliqué aux données non expérimentales — une approche qui s’applique habituellement aux études observant de grandes quantités de données — se présente comme l’alternative naturelle aux expériences. Conjointement, l’avalanche de données numériques qui est générée à la fois par les activités en ligne et, en parallèle, par les projets de numérisation des archives existantes, alliés aux méthodes de calcul considérablement accélérées et les progrès méthodologiques en statistiques (Gelman et Hill, 2007) et en économétrie (Manski, 2007), offre aux sociologues des perspectives réjouissantes pour traiter de questions qu’ils se posent depuis longtemps, avec de meilleurs outils et de meilleures données (Lazer et al., 2009). Toutefois, comme le montrent clairement les nombreux ouvrages publiés sur l’identification et les estimations, toute tentative de tirer des inférences causales valides qui seraient fondées sur des données non expérimentales posera des problèmes qui ne s’allégeront pas nécessairement avec l’augmentation de la taille des ensembles de données. Il est particulièrement préoccupant de constater que les conclusions de fond dépendent dans une trop large mesure des hypothèses de modélisation — par exemple, que les effets causaux peuvent être identifiés en conditionnant certaines des covariables observables ou que les erreurs dues aux caractéristiques du modèle peuvent être ignorées. Même des chercheurs expérimentés peuvent faire des erreurs élémentaires (Young, 2009). Comme l’ont souligné un nombre croissant de critiques (Sobel, 2000 ; Ioannidis, 2005 ; Madigan et al., 2014), de nombreuses affirmations causales qui s’appuient sur l’analyse quantitative des données d’observation — y compris celles qui sont publiées dans de grandes revues — manquent, c’est le moins qu’on puisse dire, de données probantes pour les étayer. Qui plus est, comme pour les méthodes expérimentales, de nombreuses questions de fond pour les sociologues, y compris celles qui débouchent sur des études de cas uniques (Abbott, 1992) et des études comparatives à petits échantillons (Mahoney, 2000), mais aussi le type de sociologie analytique préconisé par Hedström (2005) et d’autres, impliquent le recours à des données qui ne se prêtent tout simplement pas à la modélisation statistique.

Une solution de rechange à la mise en oeuvre de protocoles et à l’évaluation de modèles statistiques, plus simple à mettre en oeuvre dans la pratique et dans l’ensemble plus applicable, consiste à évaluer les explications selon la méthode suggérée par Hempel et Oppenheim, c’est-à-dire en fonction de leur capacité de prédiction[20]. Cependant, comme nous l’avons vu, si les sociologues sont presque tous d’accord pour dire que les explications valides doivent être causales, l’idée que les explications causales doivent être prédictives est en revanche moins consensuelle. Plus précisément, le désaccord ne porte pas sur la question de savoir si la seule exactitude prédictive suffit à établir la causalité : il suffit de connaître les rudiments de la statistique pour savoir que ce n’est pas le cas. Par exemple, le type de scolarité d’un enfant a beau permettre de prédire ses revenus d’adulte, la prédiction en elle-même ne dit pas grand-chose de l’effet causal sur le revenu des écoles privées par rapport aux effets confondants de la sélection. En effet, les méthodes d’inférence causale ont précisément été conçues pour traiter ce problème de « réflexion » (Manski, 2007). Il s’agit plutôt de savoir si la prédiction est même une condition nécessaire à la causalité, une conception qui, selon certains chercheurs (Freedman, 1991 ; Manski, 2007) va de soi, mais que d’autres (Lieberson et Lynn, 2002 ; Hedström et Ylikoski, 2010) refusent catégoriquement. Ce que j’aimerais maintenant montrer cependant, c’est qu’une grande partie de ce désaccord, si ce n’est sa totalité, découle de différences dans la définition admise du terme de « prédiction ». À l’appui d’une définition suffisamment large, tous les sociologues s’entendraient pour dire que, de fait, toute explication causale valide permet de faire des prédictions. Trois facteurs en particulier contribuent à créer de la confusion en la matière : premièrement, l’idée que la prédiction est forcément déterministe ; deuxièmement, qu’elle concerne nécessairement l’avenir ; et, troisièmement, que les prédications ne peuvent être faites qu’au sujet d’événements ou de résultats précis.

On trouve un exemple de la première objection à l’idée de prédiction chez Lieberson et Lynn (2002). Selon eux, la sociologie devrait abandonner son aspiration historique à l’exactitude prédictive de la physique pour se modeler sur la théorie de l’évolution, au motif que cette dernière met l’accent sur l’explication plutôt que sur la prédiction. Tout en convenant que les sciences biologiques fournissent, dans l’ensemble, un repère plus approprié pour la sociologie que la physique, il me semble que le rejet de la prédiction par Lieberson et Lynn repose sur l’idée que les prédictions sont nécessairement déterministes, au sens où elles permettraient de prédire, avec une quasi-certitude, des événements en particulier (comme le retour de la comète de Halley). Cependant, la très grande majorité des applications modernes de la prédiction, y compris en physique, mais aussi en statistique, en informatique et en économétrie, se conforment à une exigence de prédiction beaucoup plus souple et probabiliste, selon laquelle il suffit de démontrer que la probabilité d’un événement Y augmente en présence d’un autre facteur X par rapport à son absence. Suivant cette définition, les explications permettant à Lieberson et Lynn d’estimer que la théorie de l’évolution fonctionne sont en effet prédictives. Par exemple, bien que l’évolution ne prédise pas quelle apparence telle espèce aura à tel moment donné dans le futur ou quelle espèce dominera à tel moment donné, elle affirme des propositions de type « lorsque A est observé, nous pouvons prédire que X est plus susceptible de se produire que sans A, mais reste extrêmement improbable » (Scriven, 1959 : 480).

La deuxième objection à la prédiction comme critère principal d’évaluation des explications est que les prédictions sont intrinsèquement liées à l’avenir, alors qu’une grande partie de ce que les sociologues cherchent à expliquer concerne le passé. Là encore, cette objection repose sur une définition trop étroite de la prédiction, que l’on pourrait plus précisément appeler « prévision ». En fait, bien que les théories des sciences sociales pourraient, et peut-être devraient, être soumises à des épreuves d’exactitude dans les prévisions surtout lorsqu’elles touchent à l’action étatique et à la législation, ce qu’ont soutenu Tetlock (2005) et d’autres (par exemple, Schrodt, 2013), les prévisions ne sont qu’une catégorie bien particulière de prédictions. Une définition inclusive de la prédiction peut facilement intégrer les événements passés, en retenant simplement comme critère clé le fait que les données au sujet desquelles il y a « prédiction » doivent être différentes des données qu’il s’agit d’abord d’expliquer — une approche que l’on pourrait utilement appeler « validation croisée »[21]. Bien que de nombreuses méthodes aient été inventées dans les statistiques aussi bien que dans des domaines comme l’informatique (Kohavi, 1995 ; Bishop, 2006 ; Provost et Fawcett, 2013), où la prédiction est une préoccupation centrale, ce qui compte pour nous ici, c’est que dans toutes ces méthodes, le modèle est conçu ou « ajusté » à partir d’un ensemble de données, généralement appelées données d’« entraînement ». Il est ensuite évalué exclusivement en étant appliqué à un ensemble distinct servant de « test » (Provost et Fawcett, 2013). Évidemment, les événements à venir peuvent être utilisés comme données de test, mais les événements passés peuvent aussi être utilisés à condition de ne pas l’avoir été dans le processus de production de l’explication elle-même.

La validation croisée est semblable aux pratiques courantes de vérification des hypothèses, avec deux grandes différences. Premièrement, bien qu’en théorie la vérification des hypothèses exige que celles-ci soient précisées avant le test, en sciences sociales, cette règle est rarement appliquée et, en pratique, il est quasiment certain qu’il lui est fait entorse tous les jours (Leamer, 1983 ; Young, 2009)[22]. Par conséquent, de nombreux « résultats » sont probablement des artefacts du surapprentissage (Sarle, 1995 ; Babyak, 2004) dans lequel le modèle, en plus d’expliquer la fonction qui est en jeu dans l’hypothèse, « explique » en fait le « bruit » des données sur l’échantillon. En ne mettant ses modèles à l’épreuve qu’en validation croisée, de nombreux problèmes courants de vérification d’hypothèses peuvent être évités. Deuxièmement, la validation croisée éloigne aussi l’attention des chercheurs du signe et de l’importance des coefficients — qui sont les critères principaux employés pour la vérification des hypothèses en sciences sociales — pour la ramener vers la performance globale du modèle : dans quelle mesure le modèle explique-t-il la variance observée ? Même si les signes du coefficient répondent aux attentes, même s’ils sont hautement significatifs et suffisamment grands pour être intéressants, et même si le modèle en question n’explique que 10 % de la variance, il reste que la majeure partie de ce qui a été observé n’est pas expliquée par l’hypothèse proposée[23].

La dernière objection à la prédiction comme condition nécessaire à la causalité consiste à dire que les mécanismes de causalité peuvent servir à expliquer aussi bien ce que Hedström et Ylikoski appellent des « faits empiriques » que ce qu’ils appellent des « faits stylisés », qui peuvent ne pas être suffisamment quantifiables pour être soumis à des mesures de performance normales. Tout en étant d’accord sur l’intérêt qu’il y a à expliquer des faits stylisés, nous objecterions que toute explication qui s’appuie sur un mécanisme qui passe l’épreuve de validité empirique de Hedström et Ylikoski permet en fait de faire des prédictions — sauf qu’il s’agit alors de prédictions d’un tout autre genre[24]. Par exemple, Hedström et Ylikoski citent le modèle de réseau en « petit monde » de Watts et Strogatz (1998) comme exemple d’explication, s’appuyant sur un mécanisme, du fait stylisé que la longueur des chemins qui relient les acteurs d’un réseau social est étonnamment courte, même quand ce réseau est très vaste. Le modèle Watts-Strogatz n’a pas donné lieu à des prédictions sur des situations particulières (que Hedström et Ylikoski appellent des « faits empiriques »). Il a néanmoins fait une prédiction claire et vérifiable, à savoir que tout mécanisme qui génère une certaine quantité de regroupement local et toute quantité non nulle de liens aléatoires à longue portée conduirait à une topologie de réseau en « petit monde[25] ». Dans le même ordre d’idées, les explications fondées sur des mécanismes peuvent permettre de faire des prédictions vérifiables au sujet de modèles ou de distributions de faits empiriques, même lorsque ces prédictions ne portent pas directement sur les faits eux-mêmes[26]. Salganik et al. (2006), par exemple, avancent que sur le marché des biens culturels, l’influence sociale entraîne à la fois une inégalité accrue dans la distribution du succès commercial et une plus grande imprévisibilité du succès individuel de chaque bien. Salganik et al. ont également prédit que l’imprévisibilité et l’inégalité augmentent avec la force du signal social. Ainsi, sans faire de prédictions quant au succès de telle ou telle chanson en particulier — leur argument consistant en effet à dire, précisément, que le succès individuel est foncièrement imprévisible —, Salganik et al. proposent des prédictions claires sur la répartition du succès commercial[27].

Pour résumer, l’idée que la prédiction est une caractéristique nécessaire (mais pas suffisante) de l’explication causale s’accorde avec une vision de la causalité presque universellement acceptée chez les sociologues, y compris chez ceux qui nient explicitement la nécessité de la prédiction. Le semblant de conflit est résolu dès lors que le terme de prédiction correspond à la définition la plus large de la validation croisée, c’est-à-dire de mécanisme permettant à la fois de faire des prédictions probabilistes et des prédictions sur des faits stylisés ou des modèles de résultats. La prédiction ainsi définie peut alors être utilisée pour évaluer non seulement des modèles statistiques traitant des données sur de grands échantillons, mais aussi des modèles mathématiques ou orientés-agents (Hedström, 2005), des études comparatives à petit échantillon (Mahoney, 2000), des explications de choix rationnel d’événements historiques (Kiser et Hector, 1998), voire des modèles mentaux fondés sur l’intuition et l’expérience. Bien que les détails diffèrent selon le type d’explication en question, dans tous les cas la procédure consisterait dans les grandes lignes à : (1) construire un « modèle » fondé sur l’analyse des cas (A, B, C…) ; (2) déployer le modèle pour faire une prédiction sur le cas X, qui est dans la même classe que (A, B, C…) mais qui n’a pas été utilisé dans la conception du modèle lui-même ; (3) vérifier la prédiction[28].

Pour clarifier davantage ce point, demandons-nous ce que signifierait le fait qu’une explication causale ne satisfasse pas à cette exigence. En d’autres termes, que voudrait dire affirmer qu’il est possible de fournir une explication causale de certains phénomènes tout en soutenant que cette explication ne permet pas de faire d’autres prédictions que ce résultat précis, et donc que les épreuves hors échantillon sont inapplicables ? Comme le souligne Mitchell (2004), les affirmations de ce genre sur la causalité sont assez courantes. S’appuyant sur l’exemple de la faillite d’Enron, Mitchell soutient que de nombreuses explications ultérieures ont été utilisées pour en tirer des enseignements sur la gouvernance d’entreprise, lesquelles ne pourraient être significatives que si les explications étaient effectivement causales au sens « manipulationiste » d’un « si X avait été différent ». Toutefois, quand il leur a été demandé de démontrer le caractère généralisable de leurs explications, les auteurs ont répondu qu’elles n’étaient pertinentes que pour le cas en question et que, par conséquent, aucun critère d’application générale ne devrait être exigé. Ces affirmations sont-elles simplement fallacieuses ? Mitchell ne le croit pas. Il suppute plutôt que les auteurs croient sincèrement que leurs explications sont causales au sens contrefactuel habituel d’un « si X avait été différent », mais considèrent que X est la cause présumée de l’effondrement, et que sa modification aurait donc évité ou amorti la chute du groupe. Leur erreur, cependant, tient au fait que le contrefactuel en question est purement hypothétique : c’est une simulation mentale, menée dans l’esprit de l’analyste, de ce à quoi le monde aurait ressemblé si X avait été différent. Étant donné qu’il est impossible de vérifier empiriquement un tel contrefactuel, et puisqu’il est inévitablement sujet à toutes les limites de la simulation mentale que nous avons vues précédemment, l’« explication » qui en découle n’en est en fait pas une : il s’agit plutôt de ce que Mitchell (2004) appelle un « récit causal », c’est-à-dire une description d’événements qui mobilise le champ lexical de la causalité sans pour autant en faire la preuve.

Un autre problème soulevé par les récits causaux tient au fait qu’ils répondent à ce que Gelman et Imbens (2013) appellent des « questions causales inversées » : des questions en « Pourquoi ? », comme « Pourquoi Enron s’est-il effondré ? » ou « Pourquoi les candidats à la réélection sont-ils davantage soutenus que les nouveaux candidats ? » Gelman et Imbens distinguent ces questions de celles qui procèdent par « inférence causale directe », c’est-à-dire des questions qui adoptent le « Et si… » du raisonnement causal contrefactuel, comme « Quel est l’effet de l’enseignement privé sur le revenu ? » ou « Quel est l’effet des publicités politiques sur le taux de participation ? ». Si les deux types de questions semblent aller de soi, Gelman et Imbens soulignent que les méthodes d’inférence causale acceptées ne peuvent répondre directement qu’aux questions en « Et si… ». En revanche, « en général, une question causale inversée ne trouvera pas de réponse bien définie, même dans un contexte où toutes les données possibles sont disponibles » (2013 : 6). En résumé, le problème des questions causales inversées tient au fait qu’elles admettent généralement de nombreuses réponses potentielles — comme en témoignent les nombreuses « explications » que Mitchell recense à propos de la faillite d’Enron — dont n’importe laquelle pourrait être vérifiée individuellement comme hypothèse prospective. Il n’existe cependant pas de méthode pour vérifier toutes les explications possibles simultanément, d’autant plus qu’on ne peut jamais être sûr de disposer réellement de toutes les explications possibles. En invoquant des contrefactuels imaginaires, les récits causaux dissimulent ces problèmes de causalité sous le couvert de l’intelligibilité, mais cela ne fait guère plus qu’illusion. Amener les histoires causales à faire des prédictions hors de leur échantillon d’origine est à même de dissiper l’illusion et de montrer les problèmes de causalité pour ce qu’ils sont.

Au-delà du sens commun

L’objectif de ce texte était d’expliquer un schéma curieux : les sociologues qui, en théorie, se soucient profondément de l’aspect causal de leurs explications n’évaluent celles-ci, en pratique, que sur la base de leur intelligibilité — en supposant concrètement qu’intelligibilité et causalité soient interchangeables. J’ai avancé que cet amalgame ne se fonde ni sur la théorie ni sur l’empirie, mais plutôt sur le sens commun. En effet, tout comme dans la vie de tous les jours, lorsque les sociologues cherchent à expliquer pourquoi les gens font ce qu’ils font (explication), à prévoir ce qu’ils pourraient faire à l’avenir (prédiction) et peut-être à faire quelque chose différemment de ce qu’ils auraient fait (intervention), leur appareil de simulation mentale — si utile pour naviguer dans les interactions sociales quotidiennes — produira spontanément des réponses qui invoquent les intentions, les croyances, les circonstances et les opportunités des acteurs impliqués. Ces réponses prendront de surcroît la forme d’explications causales, en ce sens qu’elles précisent les mécanismes qui relient les causes potentielles aux résultats connus. Cependant, ces explications sont en réalité d’ordre empathique et non causal, distinction qui, bien qu’elle puisse être négligée dans les situations du quotidien, peut difficilement l’être lorsqu’il s’agit d’expliquer les phénomènes à grande échelle, répartis dans l’espace ou distants dans le temps, qui sont les objets premiers de la sociologie. Néanmoins, comme les sociologues — que ce soit au travail ou dans la vie quotidienne — sont généralement appelés à n’expliquer les choses qu’ex post, leur capacité à livrer des récits causaux plausibles est si puissante qu’il semble superflu de les soumettre à des épreuves de validité scientifique.

Autrement dit, que ce soit dans la vie de tous les jours ou dans la production de théorie formelle, les explications invoquant l’action rationalisable tirent ce qui semble être leur force d’une sorte de prophétie autoréalisatrice : le fait que les rationalisations sont compréhensibles sans autre forme de justification nous incite à rechercher des explications de ce type et comme notre appareil de simulation mentale est capable de rationaliser à peu près tous les comportements imaginables, nous sommes toujours capables de trouver des explications qui rendent les résultats observés compréhensibles[29]. Ainsi satisfaits, nous sommes rarement amenés à remettre en question l’hypothèse implicite selon laquelle les détails des explications que nous construisons auraient pu en principe être perçus comme étant pertinents a priori, et sont donc prédictifs. Cela ne veut pas dire que les rationalisations sont inutiles en sociologie — comme l’ont soutenu Gelman et Imbens en 2013, elles peuvent être considérées comme une source d’hypothèses plausibles[30] — mais plutôt, qu’en l’absence de vérifications supplémentaires, elles ne sont pas plus susceptibles d’être causales que de nombreux autres mécanismes potentiels (tout aussi plausibles qu’invraisemblables) pouvant avoir des implications très différentes en termes de prédiction et d’intervention.

Il y a donc une bonne et une mauvaise nouvelle. La bonne, c’est qu’en accordant plus d’attention aux manières dont la causalité est déduite, aux méthodes expérimentales et à la validation croisée, il devrait être possible d’améliorer la validité scientifique des explications sociologiques. La mauvaise nouvelle, en revanche, c’est que l’attention portée sur ces questions fait davantage que mettre en exergue la différence entre validité scientifique et intelligibilité : elle révèle aussi que ces deux concepts sont en tension l’un avec l’autre. Du fait qu’elles n’ont à satisfaire aucune exigence d’inférence ou de prédiction causale, les explications qui sont évaluées uniquement à partir de l’intelligibilité sont susceptibles d’être satisfaisantes à un degré que les explications scientifiquement valides ne peuvent pas atteindre. Les récits causaux, par exemple, peuvent être extrêmement riches et détaillés précisément parce que les contrefactuels en question sont hypothétiques et ne sont donc limités que par l’imagination de l’analyste. Les modèles qui ne sont pas limités par le surapprentissage peuvent potentiellement inclure autant de caractéristiques qu’ils ont d’observations sur lesquelles s’appuyer et peuvent donc aisément prendre l’apparence d’une prévision parfaite au sein de l’échantillon (Provost et Fawcett, 2013). Les explications conçues exclusivement dans le but de donner un sens à quelque chose peuvent être optimisées à des fins de plausibilité. La conclusion suivante semble donc inévitable : plus une hypothèse sera vérifiée rigoureusement, plus grand sera le nombre de données auxquelles elle sera confrontée, et plus elle devra être faible pour résister à ces épreuves (Manski, 2007).

À titre d’illustration, prenons une étude récente de Brand et Xie (2010) proposant une analyse longitudinale de l’effet des études supérieures sur les revenus subséquents des diplômés dans deux groupes distincts, l’un national et l’autre limité au Wisconsin. Les auteurs montrent que les personnes qui bénéficient le plus d’une éducation supérieure sont celles qui sont le moins susceptibles d’en avoir une. Leur approche consistant à vérifier leur hypothèse sur plusieurs ensembles d’échantillons est remarquable et renforce sans doute la crédibilité de leur principal résultat. Mais elle a aussi pour effet de l’affaiblir. Par exemple, bien que leur résultat soit fortement illustré dans certains cas pour les hommes dans le groupe national et les femmes dans le groupe du Wisconsin, d’autres effets sont quasiment nuls pour les femmes du groupe national et pour les hommes du groupe du Wisconsin. De plus, en fonction du groupe sur lequel on se penche, on pourrait conclure que l’effet est plus fort, soit pour les hommes (national), soit pour les femmes (Wisconsin). Par conséquent, la seule conclusion solide à tirer de l’ensemble est qu’il existe peu d’éléments permettant d’affirmer que les personnes bénéficiant le plus d’une éducation supérieure seraient les moins susceptibles d’en avoir une — un résultat qui aurait été plus fort si un seul ensemble de données avait été pris en compte[31].

Nous prédisons que cette tendance se généralisera. À mesure que des ensembles de données plus nombreux et plus vastes deviennent disponibles, et que l’usage de méthodes comme la validation croisée intègre les pratiques courantes des sociologues, le degré de variances observées dont nos explications sont réellement capables de rendre compte deviendra de plus en plus perceptible. Nous prédisons qu’il sera inférieur à nos attentes — et certainement inférieur à ce que la lecture des sections de discussion de nombreux articles aujourd’hui publiés pourrait laisser croire. Encore plus frustrante sera la prise de conscience des limites de l’inférence causale. Dans certains cas, comme par exemple lorsqu’il s’agira d’expliquer la cause d’un événement historique vraiment unique — le succès stupéfiant d’Apple, la faillite d’Enron ou encore l’effondrement du système financier mondial en 2008 —, les sociologues devront s’avouer que la seule conclusion honnête est peut-être qu’aucune réponse n’est possible. Au fur et à mesure que ces changements prendront place, les sociologues devront de plus en plus souvent choisir entre des explications scientifiquement rigoureuses, mais insatisfaisantes d’un point de vue empathique, et des récits acceptables mais dénués de rigueur scientifique. Avec plus d’optimisme, cependant, on peut dire que ces mêmes changements offriront aux sociologues, et en particulier à ceux qui sont disposés à travailler avec des informaticiens et des chercheurs dans des disciplines connexes, une occasion sans précédent de réaliser enfin l’appel de Stouffer (1947 : 12) à utiliser « un uncommon sens… pour formuler notre pensée de sorte qu’elle puisse être infirmée si elle est fausse… pour concevoir des expériences scientifiquement contrôlées dont les gens pressés ne verront pas l’envergure… [pour] travailler en faisant preuve d’une patience intemporelle à forger des théories sociologiques que les acteurs sociaux pourront à terme appliquer pour améliorer le genre humain ».