La mesure des inégalités de long terme avec des panels courts : 1990-2000

Bonhomme, Stéphane; Robin, Jean-Marc

doi:https://doi.org/10.7202/039323ar

Introduction

L’objectif de cette recherche est de produire une méthodologie permettant d’étudier l’évolution des inégalités de salaires de long terme. Par inégalité de salaires de long terme, nous entendons une mesure de la dispersion de moyennes individuelles de salaires sur une période suffisamment longue pour lisser les chocs conjoncturels transitoires[1]. La principale difficulté est la suivante : comment conjuguer une étude de l’évolution de ces inégalités avec une définition de la variable d’intérêt qui requiert elle-même des données individuelles temporelles? La dynamique des trajectoires individuelles se superposant à celle du changement macroéconomique, il convient de développer une méthodologie réduisant au maximum le nombre de période requises pour construire les salaires permanents.

Pour cela il nous faut abandonner l’idée initiale du calcul de moyennes individuelles. Ce n’est pas une procédure suffisamment performante pour éliminer les chocs transitoires[2]. Nous modélisons la dynamique des salaires individuels comme une somme de deux composantes : une composante permanente (un effet fixe individuel) et une composante stochastique stationnaire. Ces deux composantes sont affectées de pondérations qui changent au cours du temps. Une fois le modèle estimé pour une date donnée, on simule des trajectoires individuelles sur une longue période et on calcule des salaires permanents simulés. De cette façon, une série de panels courts comme les différentes vagues de l’enquête Emploi de l’Institut national de la statistique et des études économiques (INSEE) suffit pour étudier, année après année, le changement des inégalités de salaires de long terme. Cette approche a déjà été employée par Flinn (2002) pour comparer les États-Unis et l’Italie, et par Haider (2001) et Bowlus et Robin (2004) pour étudier l’évolution des inégalités de long terme aux États-Unis. Ce qui fait l’originalité de la présente étude est le traitement de l’hétérogénéité inobservée, ici la composante permanente des salaires, qui est modélisée comme un effet fixe individuel, dans un modèle dynamique non linéaire.

Il est étonnant de constater que l’immense majorité des modèles de salaires sont linéaires. Ainsi, la structure la plus couramment utilisée représente les salaires comme la somme d’une composante déterministe (effet de l’éducation, de l’âge, etc.), un effet fixe individuel, une composante permanente stochastique modélisée comme une marche aléatoire (y^P_it = y^P_it-1 + ε_it), une composante stochastique transitoire modélisée comme un processus moyenne mobile (un MA(1) : y^T_it = η_it + ϕη_it-1, par exemple), et enfin, parfois, une erreur de mesure[3]. A l’inverse, la plupart des études statistiques de la mobilité individuelle se fondent sur l’examen de matrices de probabilités de transition entre quartiles, quintiles ou déciles de salaires. La première approche cherche à filtrer différentes composantes additives, dont la dynamique est linéaire. La seconde met l’accent sur le caractère réducteur de cette simplicité, un petit nombre de paramètres d’autocorrélations ne pouvant décrire toute la complexité de la mobilité. En contrepartie, cette dernière filtre mal les erreurs de mesure et peine à reproduire correctement la dynamique de long terme.

Nous combinons ces deux approches. Concrètement, nous retenons l’idée que le processus observé agrège des chocs de nature différente. Cependant, il est pertinent de chercher à décrire différemment la mobilité selon l’endroit de la distribution des salaires auquel on se trouve à un moment donné. Une matrice de probabilités de transitions entre quantiles est une approximation de la dynamique des rangs des salaires dans les distributions de coupe. La littérature statistique donne un nom à la loi jointe de deux rangs consécutifs : une copule. Nous verrons que l’on peut décrire assez précisément les transitions entre quantiles de salaires à l’aide de copules paramétriques simples. Par ailleurs, en modélisant les processus individuels comme agrégation de deux composantes, une constante individuelle spécifique et une composante markovienne, nous espérons améliorer la capacité des modèles de mobilité à décrire la dynamique de long terme.

Nous utilisons l’enquête Emploi de 1990 à 2002. Avant 1990 les salaires étaient mesurés en tranches. Après 2002 le protocole de l’enquête a changé. Malgré ces limitations, la période 1990-2002 présente l’avantage de décrire un cycle d’activité de l’économie française complet, 1990 et 2000 étant deux points hauts du cycle. Pour chaque vague différente de l’enquête Emploi (de 1990 à 2000), nous utilisons le modèle pour simuler des trajectoires individuelles de salaires au-delà de la période d’enquête et calculer des revenus permanents.

Nous mesurons le rapport entre l’inégalité de revenus permanents (inégalité de long terme) et l’inégalité salariale de coupe. Ce rapport est inférieur à un, preuve que la mobilité des revenus est égalisatrice. Cependant, nous constatons le rôle essentiel joué par le risque de chômage dans cette mesure. La mobilité réduit les inégalités sur le long terme dans un échantillon représentatif de travailleurs employés ou au chômage, en grande partie parce que le chômage ne dure pas éternellement. À l’inverse, le risque de chômage est fortement générateur d’inégalité dans l’échantillon des employés. Nous mesurons qu’il annule ainsi la moitié du bénéfice égalisateur de la mobilité salariale.

Le plan de cet article est le suivant. Dans un premier temps, nous développons un modèle de dynamique des revenus de l’emploi et du chômage. Puis nous exposons les données et décrivons la méthode d’estimation. Enfin, nous appliquons le modèle à l’étude de l’évolution des inégalités de salaires de long terme au cours des années 1990.

1. Le modèle

Les données sont constituées d’une collection de J panels courts :

où S_j est un ensemble d’indices individuels, t_j est la date de la première observation du j^e panel, y_it est le log du salaire de l’individu i à la date t, x_it est un vecteur de variables telles que l’éducation et l’âge et T est la longueur de chaque panel. Dans l’enquête Emploi de l’INSEE d’avant 2003, un tiers environ des ménages étaient renouvelés chaque année. Si bien que chaque individu restait au plus T = 3 ans dans le panel. Le vecteur x_it comprend les variables suivantes : l’expérience (âge moins âge de fin d’études), son carré ainsi que cinq indicatrices de niveau de diplôme : primaire (I), collège (II), bac (III), bac + 2 (IV) et bac + 5 (V).

L’avantage de ces panels rotatifs, par rapport à des panels longs comme le Panel Survey of Income Dynamics (PSID) américain, est que chaque échantillon contient un grand nombre d’observations, ce qui permet une excellente représentativité. L’avantage sur des panels administratifs, comme les DADS (Déclarations annuelles des salaires), est qu’on sait beaucoup de choses sur les individus et que ceux-ci sont suivis y compris lorsqu’ils passent par le chômage ou prennent un emploi public. Toutefois, à la différence du PSID ou du SIPP (Survey of Income and Program Participation) américains, l’enquête ne permet pas de suivre les individus lorsqu’ils changent de logement. C’est une source d’attrition qu’on supposera exogène[4].

Nous postulons la décomposition additive suivante entre composantes déterministes, permanentes et transitoires :

Notez que les paramètres β_j, σ_j et α_j sont indexés par l’indice du panel. On voudrait qu’ils soient fonction du temps calendaire t. Mais cela compliquerait considérablement l’estimation. En les faisant dépendre de l’indice du panel, on voit qu’on peut en principe estimer des modèles séparés pour chaque vague. Une indexation stricte sur t obligerait à estimer tous les paramètres en même temps et à empiler tous les panels, soit plusieurs centaines de milliers d’observations. D’autre part, une indexation sur le numéro de panel permet de lisser les variations calendaires des paramètres.

1.1 Composante permanente

La variable d’hétérogénéité inobservée η_i est modélisé comme un effet aléatoire indépendant de x_it et du processus ε_it. La distribution de η_i dans la population est supposée stationnaire (ne changeant pas au cours du temps), de moyenne 0 et de variance unitaire. Notez néanmoins que la composante permanente σ_jη_i voit sa variance σ²_j changer avec la vague d’enquête j.

De façon à conserver le maximum d’information, nous ne postulons pas une spécification paramétrique pour la loi de η_i. Nous privilégions plutôt une approche non paramétrique. Concrètement, nous supposerons simplement que la loi de η_i est une loi discrète de support {η₁,…, η_K}. Soit p_k la probabilité de chaque point de masse η_k. La standardisation impose les contraintes :

est donc la fonction de répartition de η_i.

Les points de support sont arbitrairement choisis selon une grille gaussienne sur ℝ : η_k= 2Φ^-1(k / (K + 1)), k = 1,…,K. Plus K sera grand, plus la grille sera dense et plus précise sera l’approximation discrète. Nous pourrions lisser cette approximation, mais le caractère discret trouve une utilité dans la construction de l’algorithme de maximisation de la vraisemblance (Cf. infra).

1.2 Composante transitoire

Nous modélisons le choc transitoire ε_it comme un processus stationaire markovien d’ordre un; c’est-à-dire que la dernière observation ε_it–1 suffit à résumer tout le passé de ε_it. La moyenne et la variance marginales de ε_it sont aussi normalisées à 0 et 1 dans la mesure où le terme exp (α _j x_it) devant ε_it nous permet de modéliser une dépendance très générale de la volatilité des salaires à x_it et au temps calendaire (via l’indexation du paramètre α_j sur le numéro du panel).

Comme pour η_i nous voulons être aussi non paramétrique que possible dans la dimension de coupe. La taille de l’échantillon nous y autorise. Cette fois, il n’y a aucune utilité à employer une approximation discrète. Nous préférons donc utiliser une approximation continue. Nous choisissons comme modèle un mélange de normales. Pratiquement, nous approximons la fonction de répartition de ε_it, i ∈ S_j de la façon suivante :

où les pondérations π_mj, les moyennes μ_mj et écarts-types ω_mj de chaque composante du mélange (Φ dénote la fonction de répartition de la loi normale centrée réduite) sont fonction du temps par le biais de l’indice du panel j.

La normalisation de la moyenne et de la variance de ε_it impose :

1.3 Dynamique transitoire

Il reste à modéliser la dynamique de ε_it. Comme nous avons déjà défini la loi marginale de ε_it, il suffit de décrire la façon dont les individus se déplacent dans cette distribution[5]. Pratiquement, il s’agit de décrire la dynamique de F_j(ε_it). Nous supposerons que le processus F_j(ε_it) est markovien du premier ordre. La fonction de répartition de la loi de F_j(ε_it) sachant F_j(ε_it_–1) est une copule[6]. On peut penser à la copule comme la version continue des matrices de probabilités de transition entre quintiles ou déciles. Différente copules paramétriques ont été proposées dans la littérature statistique. La plus connue est sans doute la copule gaussienne qui revient à supposer que Φ^–1 (F_j(ε_it)) est un processus AR(1).

Appelons C_j(u, v) la copule de (ε_it_–1, ε_it) en un point (u, v), c’est-à-dire la fonction de répartition de (F_j(ε_it_–1), F_j(ε_it)) en (u, v)[7]. La factorisation habituelle de la densité de la loi jointe de (ε_it_–1, ε_it) en le produit de la loi conditionnelle de ε_it sachant ε_it_–1 et de la marginale de ε_it_–1 peut être avantageusement remplacée par le produit des deux marginales et de la densité des rangs :

en notant ℓ[X] la fonction de densité d’une variable X. De plus, pour tout (u, v) ∈ [0, 1]², la densité de (F_j(ε_it_–1), F_j(ε_it)) en (u, v) est

C’est une factorisation très utile car elle permet de séparer complètement la paramétrisation des lois marginales et celle de la dynamique du processus, à la différence de la factorisation habituelle où la marginale de ε_it se déduit par intégration de la loi jointe. Une fois qu’on a spécifié ℓ[ε_it∣ε_it–1] et ℓ[ε_it–1], il ne reste plus de marge de liberté pour spécifier ℓ[ε_it].

Enfin, du point de vue de l’interprétation économique, la factorisation copule permet de donner une représentation statistique à deux dynamiques distinctes : celle des inégalités de revenus d’une part (c’est-à-dire la façon dont ℓ[ε_it] change avec t) et celle des trajectoires individuelles relatives, d’autre part (décrite par C_j). Les inégalités de revenu peuvent s’accroître sans que changent les positions relatives des individus dans la distribution des revenus. Les inégalités de revenu peuvent rester inchangées alors même que les individus sont mobiles et échangent leurs positions.

La littérature statistique offre un grand choix de copules paramétriques. Nous en avons testé un certain nombre. Pour cela, nous avons pris les observations de 1990 et 1991 (voir la prochaine section pour une description des données). Nous avons régressé les logs des salaires sur les variables habituelles d’éducation et d’expérience. Puis nous avons estimé par la méthode du maximum de vraisemblance les paramètres de quelques copules monoparamétriques sur les rangs, en 1990 et 1991, des résidus des régressions[8]. Enfin, nous avons calculé les probabilités des transitions interquintiles induites par chaque modèle. Le tableau 1 donne une illustration des résultats obtenus pour la copule gaussienne et celle qui a donné les meilleurs résultats, la copule de Plackett :

Tableau 1

**Ajustement des transitions interquintiles pour les copules de Gauss et de Plackett (1990-1991)**

Le paramètre τ caractérise de façon non ambigüe la mobilité. Plus τ est grand et moins les individus sont mobiles (lorsque τ → ∞, la matrice de mobilité tend vers l’identité : C (u, v) = min (u, v)). Plus τ est faible et plus les individus sont mobiles en échangeant leurs positions (lorsque τ = –1, la matrice de mobilité tend vers une matrice miroir de la matrice identité, avec des uns sur la diagonale opposée : C (u, v) = max (u + v – 1,0)). Lorsque τ → 0 (C (u, v) = uv), on a l’indépendance complète (la matrice de mobilité est telle que chaque transition est équiprobable).

L’ajustement des probabilités de transitions interquintiles obtenu avec la copule de Plackett dépasse largement celui des autres copules et celui de la copule gaussienne en particulier. Nous retiendrons donc la copule de Plackett en spécifiant le paramètre τ comme une fonction de l’indice du panel j et de x_it :

1.4 Transitions emploi/non-emploi

Nous décrivons aussi les transitions emploi/non-emploi. Soit ε_it une variable indicatrice qui vaut 1 si l’individu i ∈ S_j est employé en t et 0 sinon. On supposera que

où ξ_i1 et ξ_it, t = 2,…,T, suivent des lois normales centrées-réduites. Tous les pararamètres sont indexés par l’indice du panel j.

2. Les données

Nous utilisons les données de l’enquête Emploi de l’INSEE collectées sur la période 1990-2002. Il s’agit d’un échantillon de logements dont on mesure la relation à l’emploi des habitants de plus de 14 ans. Chaque année, environ un tiers des logements est reconstitué. Nous sommes ainsi en mesure de construire une série de 11 panels de trois ans : 1990-1992 à 2000-2002. Chaque panel rassemble environ 150 000 individus âgés de 15 ans ou plus, dans 75 000 ménages. Chaque ménage reçoit un enquêteur trois fois, au mois de mars de trois années consécutives.

La variable de salaire est le salaire mensuel déflaté par l’indice des prix. On élimine de l’échantillon les étudiants, les retraités et les indépendants. On ne conserve de plus que le sous-échantillon des hommes pour réduire l’incidence du temps partiel. Enfin, pour éliminer les valeurs abérantes, on coupe l’échantillon en-dessous du premier pourcentile et au-dessus du dernier.

L’attrition est importante : sur les 47 % de trajectoires incomplètes, 25 % des individus sortent de l’échantillon après la deuxième année et 22 % après la première année.

Le tableau 2 fournit quelques statistiques descriptives. L’échantillon est redressé pour être représentatif. On voit que l’échantillon vieillit sensiblement au cours de la période. Le niveau d’éducation augmente aussi un peu. L’effet de la conjoncture se traduit par une augmentation de la variance des salaires en période de creux, soit 8,8 % d’augmentation en 1996 relativement à 1990 et 2000. Le taux de non-emploi s’accroît parallèlement. La mobilité salariale évolue de façon synchronisée, se réduisant lorsque l’activité se réduit[9]. Au total, en période d’embellie (deuxième moitié des années quatre-vingt-dix), l’inégalité salariale et le risque de chômage diminuent et la mobilité s’accroît; lorsque l’activité se détériore, c’est l’inverse.

3. Méthode d’estimation

Un principe général de l’identification en statistique est qu’il faut une observation par aléa. Ici, nous avons η_i, l’hétérogénéité inobservée, et les chocs transitoires qu’il faut ainsi « mesurer ». Trois observations de salaires sont donc nécessaires pour espérer identifier solidement le modèle. La loi de y_it sachant y_it–1 identifiera la dynamique transitoire sachant la distribution de η_i. La loi de y_it sachant y_it–2 sélectionnera une distribution pour η_i parmi toutes les distributions possibles. L’enquête Emploi nous offre ces trois observations. On peut donc espérer que nos résultats d’estimation seront robustes aux choix de spécification paramétrique.

Le modèle étant paramétrique (bien que flexible), la méthode du maximum de vraisemblance s’impose pour des raisons d’efficacité. La variable manquante η_i étant discrète, le modèle est un mélange discret de lois continues. Nous choisissons l’algorithme EM (Espérance-Maximisation), pour sa simplicité. Nous en décrivons brièvement le principe.

3.1 L’algorithme EM

Soit {y_i, x_i, i = 1,…, N} un échantillon i.i.d. Soit f(y_i∣x_i; θ) la vraisemblance de y_i sachant x_i, fonction d’un paramètre θ. Supposons que x_i n’est pas observé (en général, une partie seulement de x_i n’est pas observée). C’est une variable discrète qui prend les valeurs k =1,…, K, avec probabilité p_k (p₁ + … + p_K = 1). La vraisemblance marginale de y_i est

L’estimateur du maximum de vraisemblance de (θ, p₁,…, p_K) s’obtient par maximisation de la log-vraisemblance de l’échantillon :

Tableau 2

**Description des données, par date et année d’entrée dans le panel**

Dans notre cas, y_i est un vecteur d’observations décrivant une trajectoire individuelle de revenus. La vraisemblance conditionnelle f(y_i∣x_i; θ) s’écrit donc comme un produit de probabilités conditionnelles que la transformation logarithmique de la vraisemblance ne change pas en une somme parce que la nécessité de moyenner, par rapport à la variable latente x_i, les vraisemblances individuelles place une somme entre deux produits.

On constate la présence de l’opérateur ∑^K_{k = 1} qui empêche au logarithme de décomposer les termes multiplicatifs de f(y_i∣x_i = k; θ).

L’idée de l’algorithme EM découle d’un principe important de la statistique (selfconsistency) inventé par Efron. Pour inventer un estimateur, imaginons que l’on connaisse les lois, et posons-nous la question : comment estimerait-on les paramètres?

Connaissant les paramètres, on peut produire une classification automatique des individus selon leur type le plus probable grâce au calcul des probabilités a posteriori :

C’est l’étape E de l’algorithme EM.

Ensuite, connaissant Pr{x_i = k∣y_i} pour tout k, il est naturel de vouloir estimer θ en maximisant la log vraisemblance conditionnelle en pondérant chaque version possible (correspondant à un type différent) par la probabilité a posteriori :

sous la contrainte : p₁ + … + p_K = 1. Soit :

C’est l’étape M de l’algorithme EM. Il est très facile de démontrer que si on connaît exactement p_k(y_i) alors maximiser cette pseudo-vraisemblance produit un estimateur asymptotiquement équivalent à l’estimateur de la vraisemblance (5).

Dans ce cas, c’est très simple. On estimera les paramètres en estimant K modèles Probit, un pour chaque type, en pondérant les observations par les probabilités a posteriori[10].

Considérons maintenant une version simplifiée de notre modèle :

y_it = η_i + ε_it

où η_i = ση(x_i), avec η(k) = η_k. Oublions la possibilité de se retrouver sans emploi. Alors,

où α rassemble les pararmètres de la densité marginale de ε_it (c’est-à-dire f(y – η; α)) et β ceux de la copule[11]. On voit que α apparaît à la fois dans la densité marginale de ε_it et dans la copule à travers les rangs. Un argument développé par Arcidiacono et Jones (2003) permet de simplifier l’étape M en procédant séquentiellement de la façon suivante.

D’abord, on maximise par rapport à α et σ la pseudo-vraisemblance marginale :

Pratiquement, nous utilisons le principe du traitement des variables discrètes latentes de l’algorithme EM aussi pour simplifier l’estimation des paramètres de la densité marginale de ε_it. Nous l’avons spécifiée comme un mélange de lois normales. La loi marginale peut donc se voir comme un premier tirage du numéro de la composante dans le mélange, puis un tirage dans la loi de cette composante. L’étape (7) se réduit alors à une régression pondérée très simple, la pondération étant égale au produit de la probabilité a posteriori du type déterminant η_i et de la probabilité du numéro de la composante du mélange.

Enfin, dans un second temps, on maximise par rapport à β la pseudo-vraisemblance des rangs en utilisant les valeurs précédemment obtenues pour α et σ (α^{^} et β^{^}) :

L’algorithme EM consiste à itérer les étapes E et M qu’on vient de décrire dans les grandes lignes. Un exposé précis de l’algorithme d’estimation figure à l’annexe.

4. Résultats d’estimation

4.1 Hétérogénéité inobservée

Le graphique 1 montre la distribution η_i estimée pour différentes valeurs de K, le nombre supposé de points de support. Lorsqu’on augmente K, on voit une convergence vers une distribution normale. Ce résultat rejoint celui précédemment obtenu par Horowitz and Markatou (1996) sur données américaines. C’est bien ce à quoi il faut s’attendre si l’effet fixe individuel est en fait la somme d’un grand nombre de traits individuels indépendants (théorème limite-centrale).

Distribution de ηi pour différentes valeurs de K, le nombre de points de support — Graphique 1

**Distribution de η_i pour différentes valeurs de K, le nombre de points de support**

4.2 Effet des variables exogènes

Nous reportons dans le tableau 3 les résultats d’estimation des paramètres des variables exogènes (x_it) de l’équation de salaire et des probabilités de non-emploi.

Tableau 3

**Paramètres estimés pour le panel 1990-1992**

La moyenne des salaire est concave dans l’expérience (l’âge), le maximum étant atteint après 31 ans d’activité. Le paramètre de la copule croît avec l’expérience. Partant, la mobilité salariale décroît donc avec l’âge. Le risque de non-emploi diminue avec l’expérience jusqu’à 25 ans puis augmente à nouveau. L’inactivité augmente en effet significativement passé 50 ans. Enfin, la volatilité des salaires diminue d’abord, puis augmente avec l’ancienneté après huit années d’activité. L’éducation et l’effet fixe η_i augmentent la moyenne et la variance des salaires.

Le graphique 2 représente la densité de la loi marginale de ε_it. Cette distribution est fortement non gaussienne, avec des queues épaisses (kurtosis de 7,5). Cette non-gaussianité du choc transitoire contraste avec la gaussianité de l’effet individuel.

Densité marginale de εit it pour le panel 1990-1992 — Graphique 2

**Densité marginale de ε*_it* it pour le panel 1990-1992**

4.3 Décomposition de la variance des salaires

Le graphique 3 décrit l’évolution des trois composantes de la variance en coupe des logs des salaires : la variance de la composante déterministe, var(β _jx_it la variance permanente, σ²_j, et la variance transitoire, exp(2α _jx_it) (le carré de exp(α _jx_it)).

Graphique 3

**Décomposition de la variance des logs de salaires**

Ces trois contributions à la variance sont sensiblement égales. La contribution de l’éducation et de l’expérience augmente en 1995-1997. C’est dû pour moitié à un changement de composition de l’échantillon et pour une autre moitié à un accroissement du rendement de l’expérience; le rendement de l’éducation diminuant faiblement au cours des années 1990 (voir tableau 4 et graphique 4). L’effet le plus intéressant est sans doute l’opposition des évolutions des variances permanentes et transitoires. La variance permanente augmente quand la conjoncture se détériore et diminue quand elle s’améliore, alors que c’est l’inverse pour la variance transitoire.

Tableau 4

**Décomposition de Oaxaca de la composante déterministe de la variance des salaires (réference = 1990-1992)**

Graphique 4

**Rendements de l’éducation et de l’expérience**

5. Ajustement

Nous évaluons maintenant la capacité du modèle à reproduire quelques caractéristiques essentielles des données.

Les graphiques 5 et 6 montrent les distributions marginales pour 1990-1992, observées et prédites par le modèle, de certaines variables d’intérêt construites à partir des logs de salaires y_it et des résidus u_it = y_it – β_jx_it (premières et secondes différences et valeurs moyennes sur trois ans). L’ajustement est bon en général, bien qu’un peu moins bon lorsqu’il s’agit de reproduire la dynamique à deux ans. Puis nous considérons les probabilités de transition entre quintiles de salaires entre t et t + 1 et entre t et t + 2 (tableau 5). Ici encore, l’ajustement est bon, bien que le modèle montre une certaine tendance à surestimer la mobilité dans la partie supérieure de la distribution. Enfin, nous vérifions que l’ajustement ne se détériore pas à certaines dates plus qu’à d’autres. Le graphique 7 montre ainsi l’évolution de quelques moments importants tels qu’on les observe et tels qu’on les prédit. Il apparaît que le qualité du modèle ne change pas significativement d’une date à l’autre.

Graphique 5

**Ajustement des distributions marginales des niveaux de salaires (1990-1992)**

Graphique 6

**Ajustement des distributions marginales des résidus (1990-1992)**

Tableau 5

**Ajustement des matrices de transition (1990-1992)**

Graphique 7

Ajustement, évolution sur 1990-2000

-> Voir la liste des figures

En résumé, le modèle décrit correctement les données à la fois dans la dimension de coupe et dans la dimension temporelle. On note cependant une légère détérioration de l’ajustement lorsqu’on cherche à prédire la dynamique à deux ans. En particulier, le modèle surestime un peu la mobilité malgré la présence d’hétérogénéité inobservée (effet mobile-stable contrôlé).

6. Inégalité de long terme

À l’aide du modèle nous pouvons poursuivre les trajectoires individuelles et calculer des revenus permanents sur les données simulées. L’algorithme EM donne comme sous-produit une estimation des probabilités a posteriori du type latent, p_k(y_i). Pour chaque individu i de chaque panel j nous prédisons η_i = η_k pour la valeur de k telle que p_k(y_i) = max{p_k(y_i),…, p_k(y_i)}. Sachant η_i, le modèle n’est guère différent d’un modèle autorégressif et il est aisé de prédire y_it au delà de l’horizon des données (t_j + T). En pratique, nous simulerons des trajectoires sur divers horizons de un an à l’âge de la retraite (arbitrairement fixé à 65 ans). Lorsque le modèle prédit un passage par le chômage, un revenu de remplacement de 60 % du salaire précédent est affecté à l’individu[12].

Pour un horizon de simulation H donné, nous calculons un revenu permanent égal à l’annuité équivalente au flux des revenus des H périodes futures pour un taux d’actualisation β :

où Y_iτ est une notation pour le niveau de revenu perçu à la période τ (salaire ou revenu de remplacement), H_it = min{H, 65 – Age_it} et β = 0,95. Le calcul d’annuités permet de comparer des portefeuilles de maturités différentes.

Le tableau 6 reproduit différents indices d’inégalités de long terme, la variance de y^P_itH = lnY^P_itH, le Gini, le rapport interdécile D9/D1, pour les maturités H = 1, 5, 10, ∞. L’objectif des paragraphes qui suivent est de commenter ces résultats, si possible à l’aide de graphiques.

Tableau 6

**Inégalité de long terme pour différentes maturités, 1990-2000 (taux de remplacement au chômage = 60 %, taux d’escompte = 5 %)**

6.1 L’effet du chômage sur les inégalités

Nous commençons par étudier l’impact du chômage sur les inégalités. Le graphique 8 vise à comparer les inégalités de revenus calculées dans la population des employés à l’inégalité de revenu dans la population totale en t_j et ceci pour chaque panel j. Plus précisément, le graphique 8 décrit l’évolution du rapport de la variance de y^P_itH dans la population des employés à la variance dans la population totale, pour H = 1, 5, 10, ∞.

Comme on pouvait s’y attendre, la différence entre les deux échantillons s’amoindrit avec l’éloignement de l’horizon, la condition de chômeur étant une condition transitoire. L’écart ne se réduit jamais complètement, d’un part à cause du taux d’escompte et d’autre part parce que l’hétérogénéité inobservée détermine le risque de chômage, si bien que la population des employés en t n’est pas représentative.

6.2 Structure de l’inégalité de long terme

Nous décomposons la variance du log des annuités en la somme de quatre termes. Une première composante, dite déterministe, représente l’effet des variables exogènes (éducation et expérience). On la calcule comme la variance des moyennes de y^P_itH pour un niveau d’éducation et d’expérience donné (variance interéducation et expérience). Le deuxième effet, dit permanent, capture les différences dues à l’hétérogénéité inobservée. On le calcule comme la moyenne des variances pour un niveau d’éducation et d’expérience donné (variance intra-éducation et expérience) de y^P_itH simulé en annulant les chocs transitoires. Les deux dernières composantes mesurent la contribution des chocs transitoires. Un premier terme, dit simplement composante transitoire, est la variance intra aux groupes définis par le croisement de l’éducation, l’expérience et le type d’hétérogénéité inobservée (k), de y^P_itH simulé avec chocs transitoires i.i.d. (il suffit de forcer la densité-copule à être égale à 1 et de tirer indépendemment à chaque date dans la loi marginale). Enfin, une dernière composante, dite persistante, est la variance résiduelle :

variance totale =

variance interéducation, expérience

+ variance intra-éducation et expérience, aucun choc transitoire

+ variance intra-éducation, expérience et k, choc i.i.d.

+ variance résiduelle

Le graphique 9 montre les résultats de cette décomposition pour l’année de base 1990 et pour différentes maturités. Les composantes déterministe et permanente expliquent approximativement, l’une et l’autre, 40 % de la variance totale. Il y a peu d’effet de la maturité. Il en va différemment des composantes transitoire et résiduelle. Initialement, la composante transitoire prend tous les 20 % restant. Puis, la dynamique des rangs prend peu à peu de l’ampleur jusqu’à expliquer 10 % de la variance totale.

Graphique 9

**Variance de long terme selon la maturité en 1990**

La raison pour laquelle la variance transitoire ne disparaît jamais tout à fait tient au choix d’un taux d’escompte de 5 % plutôt que 0 %. Si nous avions calculé des moyennes plutôt que des annuités, la mémoire de la condition initiale tendrait vers 0 avec H (poids de 1/H) alors qu’avec β < 1, lorsque H tend vers l’infini, le poids de Y_it dans Y^P_it tend vers 1 – β.

Nous voyons donc qu’il reste une source d’inertie des revenus dans la dynamique des rangs qui n’est pas entièrement capturée par l’hétérogénéité inobservée, comptant pour un quart de la contribution de l’hétérogénéité inobservée à l’inégalité de long terme.

D’autre part, il apparaît que la structure de l’hétérogénéité inobservée reste à peu près stable après cinq ans (Cf. note 2). On notera cependant que le niveau de l’inégalité de long terme continue de décroître avec la maturité au delà de 5 ans : 82 % à 5 ans (en rapport de l’inégalité de coupe), 76 % à 10 ans et 72 % pour tout le cycle de vie (Cf. tableau 6).

6.3 Évolution, 1990-2000

Le graphique 10 illustre les résultats relatifs à l’évolution des inégalités de long terme au cours des années 1990, pour l’échantillon des employés seulement à une date donnée et pour l’échantillon total des employés et des chômeurs. La partie gauche décrit l’évolution de la variance de y^P_itH pour différents horizons; la partie droite l’évolution du ratio var y^P_itH /var y^P_it1. Ce ratio peut s’interpréter comme un indice d’immobilité au sens de Shorrocks. Si les individus échangent beaucoup leurs positions dans les distributions marginales, alors l’inégalité de long terme sera faible. Plus l’inégalité de long terme est faible relativement à l’inégalité de coupe et plus la mobilité est dite égalisatrice (Shorrocks, 1978; Fields, 2005).

Graphique 10

**Évolution des inégalités de long terme (taux de remplacement = 60 %)**

Nous voyons qu’en effet la mobilité est égalisatrice. Lorsqu’on simule des trajectoires individuelles jusqu’à 65 ans (H = ∞), on obtient un ratio var y^P_itH /var y^P_it1 de 70 %. Le graphique 11 expérimente une variation du taux de remplacement servant à calculer le revenu des chômeurs. Même avec un taux de 80 %, la réduction d’inégalité sur le long terme est encore très significative (ratio d’à peu près 75 %). Pour un ratio de remplacement de 40 % l’indice d’immobilité tombe à 60 %. La perspective de sortir du chômage est donc d’autant plus égalisatrice que l’écart de revenu entre les employés et les chômeurs est important.

Graphique 11

**Évolution des inégalités de long terme pour différents ratios de remplacement (échantillon total)**

Considérons maintenant un échantillon d’employés. La réduction de l’indice d’inégalité de long terme vis-à-vis de l’indice de coupe est beaucoup plus forte pour l’échantillon total que pour l’échantillon des employés. Le ratio y^P_itH /var y^P_it1(H = ∞) fluctue ainsi autour de 90 % pour l’échantillon des employés. Pourtant, l’expérience qui est faite ici consiste à laisser vieillir une cohorte de travailleurs employés à une date donnée. Parmi ceux-ci, certains sont déjà agés et leur salaire ne progressera plus que très peu. Les plus jeunes peuvent quant à eux espérer des augmentations de salaires. On peut donc trouver la réduction de long terme des inégalités un peu faible.

Toutefois, ce que mesure l’indice d’immobilité y^P_itH /var y^P_it1 est l’effet total de la mobilité sur les inégalités. Or, les travailleurs font face à deux types de mobilité : une mobilité salariale qui les fait échanger des positions dans l’échelle des salaires, égalisatrice, et une mobilité emploi/chômage, fortement génératrice d’inégalités. Pour se faire une idée de la contribution respective des deux mobilités dans l’effet résultant, il suffit de comparer l’indice d’immobilité calculé pour les employés dans le graphique 10 et l’indice calculé dans l’expérience contrefactuelle où l’on élimine complètement le risque de chômage (graphique 12). Au lieu de 90 % on obtient un indice de 80 %. On peut donc dire que la mobilité salariale tend à réduire les inégalités de 20 % mais le risque de chômage limite cette réduction à 10 %.

Graphique 12

**Évolution des inégalités de long terme sans risque de chômage**

On notera enfin que l’indice d’immobilité des employés répond un peu au cycle. Il est maximal en 1993-1994, au moment où le risque de chômage est le plus élevé. C’est à ce moment là que la mobilité est la moins égalisatrice.

Conclusion

Dans cette étude, nous proposons un modèle de la dynamique salariale adapté à une estimation à partir de panels courts comme l’enquête Emploi. nous utilisons le modèle pour simuler des trajectoires individuelles de salaires au-delà de la période d’enquête et calculer des revenus permanents. Nous mesurons le rapport entre l’inégalité de revenus permanents (inégalité de long terme) et l’inégalité salariale de coupe. Ce rapport est inférieur à un, preuve que la mobilité des revenus est égalisatrice. Cependant, nous constatons le rôle essentiel joué par le risque de chômage dans cette mesure. La mobilité réduit les inégalités sur le long terme dans un échantillon représentatif de travailleurs employés ou au chômage, en grande partie parce que le chômage ne dure pas éternellement. À l’inverse, le risque de chômage est fortement générateur d’inégalité dans l’échantillon des employés. Nous mesurons qu’il annule ainsi la moitié du bénéfice égalisateur de la mobilité salariale.

Ces résultats nous enseignent que des politiques en faveur de la réduction des inégalités doivent en priorité s’attacher à réduire la durée du chômage, ou à tout le moins limiter au maximum les pertes de revenu associées au chômage, et à réduire le risque de chômage pour les employés.

La méthodologie que nous développons ici dépasse le cadre de l’application que nous en faisons. C’est un outil de mesure des inégalités de salaires de long terme et de la mobilité des revenus salariaux facilitant la comparaison d’échantillons de trajectoires de revenus différents, par exemple les hommes par rapport aux femmes, différents pays, différents groupes sociaux.

L’outil n’est cependant pas parfait. Notre modèle ne décrit pas de façon complètement satisfaisante la dynamique transitoire des salaires. Différentes pistes méritent d’être explorées. Ainsi, il serait utile de tester des spécifications de copules plus sophistiquées comme la copule de Student, ou autorisant une dynamique markovienne du second ordre. Enfin, il serait aussi judicieux d’autoriser la présence d’erreurs de mesures.

La mesure des inégalités de long terme avec des panels courts : 1990-2000[*]

Résumé

Abstract

Introduction