On a vu la semaine dernière comment se répartissent les réponses aux questions à choix multiples dans le questionnaire (pour celles et ceux qui n’ont pas encore répondu il est encore temps de le faire). Cette semaine nous allons présenter une méthode de traitement automatique pour les réponses à la question ouverte : “Pouvez-vous nous préciser ce qui motive principalement votre inscription à ce MOOC ?”.

Le traitement des questions ouvertes est plus difficile que celui des autres types de questions. C’est probablement lié à la nature générative du langage au sens où toute personne qui sait parler a la “capacité d’utiliser de façon pertinente une infinité de phrases différentes et, pour la plupart, nouvelles, dans des situations elles-mêmes nouvelles”1. Autrement dit, chaque phrase écrite dans les réponses à notre questionnaire est différente des autres ce qui rend un travail d’analyse statistique malaisé. Il existe un grand nombre de méthodes qui cherchent à traiter automatiquement le langage. Nous allons en présenter ici une élémentaire bien adaptée à l’analyse de données de questionnaires.

Les réponses brutes

Le jeudi deux avril on comptait 580 réponses au questionnaire. Parmi ces réponses, on disposait de 544 réponses à la première question : “Pouvez-vous nous préciser ce qui motive principalement votre inscription à ce MOOC ?”. Pour commencer il est utile de parcourir les réponses, en voici une dizaine tirées au sort.

  1. “Je suis enseignante dans le secondaire. Je dois faire évoluer ma pédagogie en y intégrant les outils numériques. Ce MOOC est l’opportunité d’apprendre à le faire”
  2. “pour mieux intégrer les outils numériques dans ma pratique de l’enseignement des sciences SVT”
  3. “Ce MOOC constitue un premier pas pour moi vers cette manière d’enseigner.”
  4. “Trouver des réponses à des interrogations sur des pratiques pédagogiques.”
  5. “l’usage de la technologie dans l’enseignement suivant une approche connectiviste”
  6. “Améliorer mes pratiques pédagogiques et mieux intégrer le numérique dans l’enseignement.”
  7. “Découvrir ce que signifie enseigner avec le numérique. Connaître ces méthodes. Enrichir mes connaissances et en garder des supports. Je ne travaille pas dans le domaine de l’éducation ou la formation, mais je n’y intéresse.”
  8. “Me familiariser avec les nouveaux enjeux de l’enseignement à distance ainsi qu’avec les nouvelles technologies utilisables”
  9. “Je souhaite approfondir mes connaissances dans le domaine des technologies éducatives et l’utilisation des TIC dans l’enseignement. Avoir, si possible, un feedback sur mes réalisations et les projets. Mieux connaitre la communauté enseignante qui croit en le potentiel pédagogique des TIC et collaborer avec d’autre enseignants.”
  10. “compléter ma préparation au concours du capes de documentation”

On voit que les messages ont des formes très différentes. Certains sont très rédigés, d’autres beaucoup plus lacunaires. Certains présentent des éléments de contexte personnel tant dis que d’autres répondent strictement à la question. Examinons 10 autres réponses toujours tirées au hasard.

  1. “Enseignante en SHS dans le supérieur, je m’intéresse aux pédagogies alternatives - en particulier à la conception de MOOCs.”
  2. “Je souhaite découvrir "de l’intérieur" ce qu’est un MOOC et, du même coup, travailler sur un sujet qui m’intéresse.”
  3. “Module ESPE obligatoire”
  4. “Je suis enseignante de formation mais j’ai depuis 3 ans des fonctions de coordination qui m’éloignent du terrain. Cela dit, je souhaite garder un lien avec la classe et je ne voudrais pas être déconnectée des évolutions techniques en terme d’enseignement. Et avoir l’occasion de réfléchir à ses pratiques professionnelles en compagnie de spécialistes n’arrive pas si souvent !”
  5. “Je souhaite faire évoluer ma pédagogie et me lancer dans l’enseignement numérique”
  6. “Ayant à travailler sur une formation à mettre en place à distance, je souhaite pouvoir me former aux outils et à la pédagogie. Quoi de mieux qu’un MOOC !!!”
  7. “APPRENDRE À APPRENDRE AVEC LE NUMÉRIQUE, J’AI BESOIN AUSSI DE PIQURES DE RAPPEL SUR LA FORMATION CONTINUE AVEC DES ADULTES”
  8. “Je veux apprendre à creer des MOOCs.”
  9. “La possibilité d’améliorer ses connaissances relativement facilement, sans perturber son emploi du temps.”
  10. “j’enseigne avec le numérique est souhaite faire évoluer mes pratiques.”

Là encore on voit une assez grande variété dans les messages.

Le nuage de mots

Une première étape dans le traitement, consiste à produire un lexique, c’est à dire la liste des mots de vocabulaire utilisés dans l’ensemble des messages (comme cela à été fait pour l’énigme de la semaine dernière avec un roman de Camus !!!!!LIEN!!!!!). On peut ensuite compter le nombre d’apparitions de ces termes et représenter l’ensemble sous la forme d’un nuage de mots. Il existe des sites web spécialisés dans cette tâche comme le célèbre wordle.net mais ce genre d’instrument est à manier avec précaution car, comme tous les services en ligne pseudo-gratuits, on remet des données à un tiers. Il est donc toujours préférable d’utiliser des logiciels hors ligne.

En faisant un nuage de mots avec l’ensemble des messages pour lesquels on laisse le logiciel piloter l’analyse, on obtient la figure suivante. Vous remarquerez que tous les mots figurent en minuscules que les chiffres, les accents et les signes de ponctuations ont été enlevés par le logiciel.

Bien que relativement esthétique cette figure comporte un certain nombre de défauts qui la rendent partiellement inefficace, autrement dit elle représente mal les données. On remarque notamment que les mots les plus fréquents sont “les”, “des”, “dans”, etc. on aurait pu s’y attendre et même attendre d’autres mots qui portent peu de sens comme des articles, des pronoms, etc. On y voit tout de même les mots “formation”, “numerique” et “enseignement”. Le reste est peu lisible, les mots n’apparaissant qu’une seule fois venant “polluer” la figure et masquer les mots les plus fréquents qui sont ceux qui nous interressent le plus. Un examen plus attentif permet de repérer les termes : “enseignant” “enseignantS” “enseignantE” “enseignantES” pour lesquels un regroupement serait souhaitable pour notre analyse. Il est donc nécessaire de travailler un peu mieux le lexique pour obtenir le tableau suivant avec lequel on pourrait produire une nuage de mot plus lisible résumant mieux les données :

vocabulaire nombre d’apparitions
formation 181
numerique 168
mooc 164
enseignement 139
plus 92
outils 76
nouvelles 75
connaissances 74
souhaite 72
apprendre 69
pratique 62
cours 54
faire 54

On voit de façon assez précise le vocabulaire majoritairement employé par les répondants. Il serait surtout nécessaire d’aller consulter les messages dans lesquels figurent les mots et voir si il n’est pas possible “à la main” d’en faire des paquets, d’identifier des régularités.

Lexique et questions fermées

En revanche le nuage de mots global ne permet pas de distinguer le profil des répondants. Il serait plus intéressant de croiser le vocabulaire des questions ouvertes avec les réponses à des questions fermées. On pourrait par exemple examiner si les hommes et les femmes emploient un vocabulaire différent. Notamment en produisant un tableau comme celui-ci :

homme femme
numerique 115 104
mooc 85 74
enseignement 83 61
pratique 57 47
plus 46 44
enseignant 47 42
formateur 19 41
professionnel 46 40
connaissance 42 38

On y voit que le mot “numerique”2 à été employé 115 fois par des hommes et 104 fois par des femmes (!!!sur le nombre d’hommes et de femmes qui ont répondu!!!). Il est possible sur ce type de tableau d’appliquer un test statistique3 qui nous permet de dire qu’on ne trouve pas de différence significative entre le vocabulaire employé par les hommes et par les femmes.

En revanche on va trouver des différences statistiques dans le vocabulaire employé par les répondants ayant déclaré être âgés de plus ou de moins de 43 ans4. En interprétant le tableau ci-dessous on peut dire que les répondants âgés de 43 ans ou davantage ont significativement plus utilisés les mots souhaite, pédagogie, utiliser, apprendre, etc. alors que les répondants âgés de moins de 43 ans ont tendance à mentionner les mots competence, mooc, enseignement, enseignant, etc. On peut tout de même remarquer que les répondants les plus agés emploient les mots apprendre, utiliser et utilisation qui évoquent une dimension opérationnelle. Les plus jeunes font référence à des compétences et à la série enseigner, enseignement, enseignant, ce que l’on peut considérer comme faisant référence à des potentialités : améliorer ses compétences d’enseignant/egnement. C’est une piste qu’il serait intéressant d’éprouver en allant consulter les réponses intégrales dans lesquelles figurent ces mots.

age < 43 ans age > 43 ans
souhaite -1.9553707 1.5792899
pedagogie -1.9471549 1.5726543
utiliser -1.9131664 1.5452028
apprendre -1.7072771 1.3789127
technologie -1.3706497 1.1070296
former -1.1160046 0.9013610
utilisation -1.0405808 0.8404435
eleve -1.0189690 0.8229884
ameliorer 0.9171081 -0.7407187
enseignant 0.9891713 -0.7989218
enseigner 1.1839815 -0.9562637
enseignement 1.2135174 -0.9801189
autres 1.4875530 -1.2014486
mooc 1.5433664 -1.2465273
competence 1.6827867 -1.3591326

Le tableau lexical des questions

Pour affiner un peu on peut maintenant chercher à employer une technique présentée par Philippe Cibois avec les commentaires de visiteurs sur un site marchand pour le film Bienvenue chez les Ch’tis5. Les étapes de la méthode sont consultables dans un article un peu plus ancien mais fort clair6. Il s’agit essentiellement de résumer la structure des attractions et des répulsions entre les lignes et les colonnes d’un tableau dont les premières lignes sont les suivantes :

homme femme age < 43 ans age > 43 ans licence ou - master ou + etud ead pas etud ead
numerique 115 104 94 125 78 114 111 105
mooc 85 74 75 84 39 106 69 91
enseignement 83 61 66 78 34 93 59 83
pratique 57 47 39 66 32 68 46 57
plus 46 44 40 50 34 46 40 50
enseignant 47 42 41 48 29 55 49 40
formateur 19 41 25 35 22 32 35 25
professionnel 46 40 35 52 27 51 36 48

Ce tableau se lit ainsi : le mot “numerique” à été employé 115 fois par des hommes et 104 fois par des femmes, 94 fois par des répondants âgés de plus de 43 ans et 125 fois par des plus jeunes, 78 fois par des titulaires d’un diplôme de licence ou moins, etc. À partir de ce tableau nous allons produire une représentation graphique (figure suivante) qui présentera les attractions entre les modalités des réponses aux questions fermées (en colonnes) et le vocabulaire des réponses à la question ouverte (en ligne).

On peut dire pour simplifier que ce graphique résume 64 % (35+29) de l’information (variance ou inertie) contenu dans le tableau précédent. Ce qui est signifiant sur cette figure se sont les oppositions et les proximités entre les mots de vocabulaire (en gris sur la figure) et les réponses aux questions fermées (en noir). On voit que figurent exactement sur l’axe horizontal les modalités licence ou moins et master ou plus. On peut dire qu’à droite les répondants titulaires d’un diplôme de niveau licence ou moins sont proches des répondants ayant employé les mots eleve, utiliser, outil, informatique, formateur et temps. À gauche de l’origine on dira que les répondants titulaires d’un master ou plus, sont proches de ceux ayant utilisés les mots ameliorer, professionnel, pratique ou notamment compétence. Pour les modalités correspondant à l’âge des répondants, dont on a déjà parlé dans la section précédente, on retrouve grosso modo les mêmes éléments. On pourrait reproduire l’analyse avec les autres modalités de genre et le suivi ou non d’un enseignement à distance (etud ead).

Le problème de cette figure est double. D’abord elle ne prend pas en compte l’intégralité de l’inertie du nuage de points contenu dans le tableau d’origine. Ensuite, alors que ce n’est pas visible sur la figure, toutes les modalités et termes n’y sont pas bien représentés. Pour connaitre la qualité de la représentation de chaque item, il est nécessaire de consulter d’autres éléments chiffrés de l’analyse qui amèneraient à alourdir ce billet.

La classification automatique

En revanche, il est possible de représenter les attractions et les répulsions entre modalités et mots de vocabulaire en faisant appel à une autre représentation graphique (figure suivante). Cela comporte notamment l’intérêt de classer automatiquement les lignes et les colonnes du tableau et de faire des groupes automatiques ainsi que de prendre en compte l’ensemble de l’information contenue dans le tableau (l’inertie ou la variance du nuage de points).

On voit sur cette figure, nommée dendrogramme ou arbre de classification, 5 groupes identifiés par des couleurs. Dans chaque groupe on trouve au moins une modalité de réponse aux questions fermées et les mots de vocabulaires. On voit que les femmes (figurant dans le groupe en rouge en bas du graphique) ont plutôt employé un vocabulaire évoquant la découverte, la curiosité, l’intérêt. Les termes employés par les hommes (groupes bleu clair), proches du vocabulaire des répondants n’ayant pas suivi de formation à distance (pas etud ead) et de celui des plus diplômés (master ou +) suggèrent une dimension professionnelle avec enseignement, pédagogique, cours et opérationnelle avec les mots pratique et faire. Les répondants les plus âgés (groupe violet en haut de la figure) ont eux employé des termes qui font plus référence à apprendre, former, utiliser, ils évoquent les élèves et les technologies. Les plus jeunes (en vert) sont proches des répondants ayant déjà suivi un enseignement à distance (etud ead) et mentionnent des compétences (qui est un terme particulier notamment parce que son emploi en éducation est récent) et des connaissances, une idée d’amélioration, le mot enseignant et le verbe enseigner. Enfin les répondants les moins diplômés (en marron) sont proches de ceux qui emploi le terme informatique et apprentissage.

Perspectives

Cette méthode d’analyse automatique permet d’esquisser des tendances grossières et d’effectuer des regroupements. On peut ainsi considérer qu’un groupe de répondants, plutôt des hommes, plutôt diplômés d’un master ou d’un doctorat dans l’enseignement en présence se détache selon leur vocabulaire. Leur motivation pour participer au Mooc est probablement fondée sur une dimension professionnelle en éducation mais aussi opérationnelle. Les participants les plus jeunes font appel des termes suggérant une amélioration de compétences et de connaissances. Cela revèt une dimension de besoin ou de nécéssité par opposition au groupe des femmes, des plus de 43 ans et des moins diplômés qui expriment davatage des notions de souhait, d’interêt ou d’apprentissage.

Pour être tout à fait rigoureux il serait maintenant nécessaire d’aller confronter ces premières interprétations aux textes d’origine et de se lancer dans une analyse sémantique “à la main” de ces réponses. L’analyse automatique aura tout de même permis d’orienter le travail futur et de gagner du temps.

Si vous voulez avoir accés aux données et vous même produire des analyses de tout type n’hésitez pas à m’envoyer un email : mehdi.khaneboubi@ens-lyon.fr


  1. Bouveresse, J. (1995). Règles, dispositions et habitus. Revue Critique n°579-580. Les éditions de minuit.

  2. Pour être précis il faut indiquer que les mots “numerique” et “numeriqueS” ont été regroupés, comme pour tout ce qui suit. De même pour les formes au féminin et au masculin ont été regroupées comme “enseignant” et “enseignante”.

  3. Voir l’article intitulé le Test de khi deux d’indépendance sur Wikipédia.

  4. 43 ans correspond à l’âge médian de notre échantillon.

  5. Cibois, P. (2015). Bienvenue chez les Ch’tis : une satire sociale ? La Vie des idées.

  6. Cibois, P. (1989). Éclairer le vocabulaire des questions ouvertes par les questions fermées : le tableau lexical des questions. Bulletin de méthodologie sociologique, (26), 12‑23. http://cibois.pagesperso-orange.fr/BMS89.pdf