Lors de la première semaine de cours, on a vu la répartition des 3317 inscrits au Mooc selon le genre, le niveau de diplôme et l’âge (Statistiques sur les inscriptions à la deuxième édition du Mooc eFAN-EMI). Depuis, on compte plus de 1300 inscriptions supplémentaires qui n’ont pas modifié la structure des données. Nous allons voir dans ce billet comment se présentent les 4598 inscrits le 4 janvier 2016 et présenter les données de façon un peu différente que lors du début du Mooc en référence à l’activité de visualisation de la semaine dernière.
On dispose donc de l’âge, du genre et du niveau de diplôme demandés lors de la création du compte sur FUN. Comment représenter les relations entre ces trois critères ? Dans un premier temps, nous allons chercher par des représentations graphiques à caractériser et à décrire des liens entre les trois variables. Nous utiliserons une méthode issue d’une bibliothèque1 du logiciel R2 qui va autant nous guider que nous contraindre dans les représentations. Ensuite nous essayerons d’analyser et représenter les données avec un arbre de classification.
Représentons par un point chacun des inscrits avec en abscisse les niveaux de diplômes et en ordonnée les âges des participants, comme sur le graphique ci-dessous.
Là encore, on remarque qu’il y a plus d’inscrits titulaires d’un master et d’une licence. Ajoutons une couleur pour la variable de genre.
De cette façon, on montre bien que les femmes sont plus nombreuses en licence et en master, mais ce n’est pas très clair pour les autres niveaux de diplômes. On aperçoit que pour les licences et les masters à partir de 50 ans les hommes se font plus rares qu’avant.
Ces représentations ne permettent pas de se prononcer sur la significativité des liens entre les variables. Autrement dit, il est impossible sur cette base d’affirmer que le nombres de femmes en master et en licence est disproportionné par rapport à celui des autres diplômes. Pour répondre à cette question il est notamment possible de faire appel à des tests statistiques. Le plus souvent ces tests (comme le khi deux d’indépendance, le t de student ou l’anova) s’appliquent sur deux variables, dans notre cas il s’agit de décrire les liens entre 3 variables. Nous allons donc faire appel à un arbre de classification particulier, construit à partir d’un test.
Parmi les méthodes d’analyse de données les arbres de classification et de régression, aussi nommés arbres de décisions, sont des méthodes issues de l’algorithmique et non de la statistique3. Il existe un grand nombre de méthodes et d’algorithmes basés sur les arbres. Nous allons produire un arbre d’inférence conditionnelle qui va estimer la relation entre une variable à expliquer (pour nous le genre) et des variables explicatives (âge et niveau de diplômes) en réalisant des tests statistiques comme règle de création des branches et des feuilles.
Comment lire cet arbre ? Le premier critère significatif qui distingue les hommes et les femmes est le niveau de diplôme. L’algorithme fait deux paquets : “brevet, bac, DUT/BTS et doctorat” d’un côté (Node 2). “Autres diplômes, licence et master” de l’autre côté de l’arbre, est ensuite scindé entre “master” (Node 7) et “autres et licences”. L’algorithme finit par distinguer les inscrits titulaires d’une licence ou d’un autre diplôme4 selon leur âge : plus ou moins de 32 ans (Node 5 et 6).
On peut interpreter cet arbre en considérant que l’algorithme estime qu’il y a 7 chances sur 10 pour qu’un titulaire d’un master soit une femme (Node 7) et autant pour un inscrit âgé de plus de 32 ans et titulaire d’une licence ou d’un autre diplôme (Node 6). Pour les autres cas (Node 2 et Node 5) il indique environ 5 chances sur 10 ce qui est une probabilité inutile dans notre contexte.
Représenter et analyser des données doit être mu par une intention qui sera nécéssairement orientée par des contraintes d’ordre technique d’abord mais aussi liée à la nature des données.
On compte toujours plus de femmes que d’hommes et les détenteurs d’une licence et d’un master représentent la majorité des inscrits. Élaborer des graphiques permet de représenter des masses et la perception des nuages de points n’est pas nécéssairement trompeuse mais ne permet pas de se prononcer sur la significativité des écarts entre les modalités.
D’autres méthodes pourraient être mises en oeuvre et elles auraient probablement amené des nuances et des précisions mais sans pour autant effacer l’importance des inscrites, titulaire d’un master ayant entre 25 et 50 ans.
Wickham, H. (2009). ggplot2: elegant graphics for data analysis. Springer New York. http://had.co.nz/ggplot2↩
R Core Team. (2015). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org↩
Pour plus de détails sur ce point voir notamment Saporta, G. (2006). Probabilités, analyse des données et statistiques. Editions TECHNIP.↩
Il faut indiquer qu’il est fort probable que les “Autres diplômes” concerne le plus souvent les titulaires d’une maitrise ce qui correspond dans le nouveau système universitaire au niveau M1.↩