Lors de la première semaine de cours, on a vu la répartition des 3317 inscrits au Mooc selon le genre, le niveau de diplôme et l’âge (Statistiques sur les inscriptions à la deuxième édition du Mooc eFAN-EMI). Depuis, on compte plus de 1300 inscriptions supplémentaires qui n’ont pas modifié la structure des données. Nous allons voir dans ce billet comment se présentent les 4598 inscrits le 4 janvier 2016 et présenter les données de façon un peu différente que lors du début du Mooc en référence à l’activité de visualisation de la semaine dernière.

On dispose donc de l’âge, du genre et du niveau de diplôme demandés lors de la création du compte sur FUN. Comment représenter les relations entre ces trois critères ? Dans un premier temps, nous allons chercher par des représentations graphiques à caractériser et à décrire des liens entre les trois variables. Nous utiliserons une méthode issue d’une bibliothèque1 du logiciel R2 qui va autant nous guider que nous contraindre dans les représentations. Ensuite nous essayerons d’analyser et représenter les données avec un arbre de classification.

Âge des inscrits et diplômes

Représentons par un point chacun des inscrits avec en abscisse les niveaux de diplômes et en ordonnée les âges des participants, comme sur le graphique ci-dessous.


On obtient une représentation illisible avec peu de différence entre chacune des colonnes, c’est dû à une superposition des points. Pour remédier à ce problème nous allons ajouter en abscisse une valeure aléatoire qui va étaler les points de part et d’autre des modalités de diplôme.

On visualise beaucoup mieux la plus forte concentration de points se trouvant dans la colonne “master” puis “licence”. On peut encore améliorer la représentation des nuages de points en ajoutant un effet de transparence sur les points.

On peut maintenant affirmer avec certitude que la concentration de points est maximale pour les titulaires d’un master âgés de 20 à 50 ans et de la classe d’âge 40-50 pour les licenciés.

Un effet de genre ?

Essayons maintenant d’ajouter la variable de genre avec une couleur pour voir si les niveaux de diplôme sont liés au genre.

Ainsi, on a du mal à saisir une différence nette entre les hommes et les femmes même si on perçoit qu’il y a plus de rouge que de vert dans la colonne “master” et que la base de la colonne “licence” est plutôt verte. Pour affiner la représentation de ces données nous pouvons intervertir l’âge et le genre.

On représente ainsi mieux la majorité de femmes déclarant être titulaires d’un master ou d’une licence. Les couleurs qui indiquent l’âge ne sont pas très parlantes puisque l’on voit une masse de points violets. On peut essayer avec d’autres couleurs, comme dans le graphique ci-dessous, mais ce n’est pas plus éclairant.

Diagrammes en barres

Pour représenter un lien particulier entre l’âge, les diplômes et le genre nous pouvons essayer de regarder les données avec des diagrammes en barre.

Là encore, on remarque qu’il y a plus d’inscrits titulaires d’un master et d’une licence. Ajoutons une couleur pour la variable de genre.


De cette façon, on montre bien que les femmes sont plus nombreuses en licence et en master, mais ce n’est pas très clair pour les autres niveaux de diplômes. On aperçoit que pour les licences et les masters à partir de 50 ans les hommes se font plus rares qu’avant.

Ces représentations ne permettent pas de se prononcer sur la significativité des liens entre les variables. Autrement dit, il est impossible sur cette base d’affirmer que le nombres de femmes en master et en licence est disproportionné par rapport à celui des autres diplômes. Pour répondre à cette question il est notamment possible de faire appel à des tests statistiques. Le plus souvent ces tests (comme le khi deux d’indépendance, le t de student ou l’anova) s’appliquent sur deux variables, dans notre cas il s’agit de décrire les liens entre 3 variables. Nous allons donc faire appel à un arbre de classification particulier, construit à partir d’un test.

Les arbres d’inférence conditionnelle

Parmi les méthodes d’analyse de données les arbres de classification et de régression, aussi nommés arbres de décisions, sont des méthodes issues de l’algorithmique et non de la statistique3. Il existe un grand nombre de méthodes et d’algorithmes basés sur les arbres. Nous allons produire un arbre d’inférence conditionnelle qui va estimer la relation entre une variable à expliquer (pour nous le genre) et des variables explicatives (âge et niveau de diplômes) en réalisant des tests statistiques comme règle de création des branches et des feuilles.


Comment lire cet arbre ? Le premier critère significatif qui distingue les hommes et les femmes est le niveau de diplôme. L’algorithme fait deux paquets : “brevet, bac, DUT/BTS et doctorat” d’un côté (Node 2). “Autres diplômes, licence et master” de l’autre côté de l’arbre, est ensuite scindé entre “master” (Node 7) et “autres et licences”. L’algorithme finit par distinguer les inscrits titulaires d’une licence ou d’un autre diplôme4 selon leur âge : plus ou moins de 32 ans (Node 5 et 6).

On peut interpreter cet arbre en considérant que l’algorithme estime qu’il y a 7 chances sur 10 pour qu’un titulaire d’un master soit une femme (Node 7) et autant pour un inscrit âgé de plus de 32 ans et titulaire d’une licence ou d’un autre diplôme (Node 6). Pour les autres cas (Node 2 et Node 5) il indique environ 5 chances sur 10 ce qui est une probabilité inutile dans notre contexte.

Conclusion

Représenter et analyser des données doit être mu par une intention qui sera nécéssairement orientée par des contraintes d’ordre technique d’abord mais aussi liée à la nature des données.

On compte toujours plus de femmes que d’hommes et les détenteurs d’une licence et d’un master représentent la majorité des inscrits. Élaborer des graphiques permet de représenter des masses et la perception des nuages de points n’est pas nécéssairement trompeuse mais ne permet pas de se prononcer sur la significativité des écarts entre les modalités.

D’autres méthodes pourraient être mises en oeuvre et elles auraient probablement amené des nuances et des précisions mais sans pour autant effacer l’importance des inscrites, titulaire d’un master ayant entre 25 et 50 ans.


  1. Wickham, H. (2009). ggplot2: elegant graphics for data analysis. Springer New York. http://had.co.nz/ggplot2

  2. R Core Team. (2015). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org

  3. Pour plus de détails sur ce point voir notamment Saporta, G. (2006). Probabilités, analyse des données et statistiques. Editions TECHNIP.

  4. Il faut indiquer qu’il est fort probable que les “Autres diplômes” concerne le plus souvent les titulaires d’une maitrise ce qui correspond dans le nouveau système universitaire au niveau M1.