Ce texte a été publié dans la reubrique “statistique” du Mooc EMI3. Il s’agit de présenter comment traiter une question ouverte qui figurait dans un questionnaire au début du Mooc.

La première question du questionnaire était un champ libre demandant aux participants de présenter leur motivation (“Pouvez-vous nous préciser ce qui motive principalement votre inscription à ce MOOC ?”). Le traitement automatique de ce genre de données est un petit peu différent des autres types de questions. Dans ce billet nous présentons deux modes de traitement de ce type d’informations. Ces méthodes sont devenues assez importantes en raison de l’explosion de données que l’informatisation des sociétés a générées, connaitre leurs principes de fonctionnement participe à la fondation d’une éducation à l’information à l’ère du numérique.

Full sentimental

Le sentiment analysis ou opinion mining consiste à rechercher l’expression de sentiments dans le langage écrit. Utilisé par exemple sur Twitter, dans des forums ou pour des commentaires sur le web, la méthode consiste à évaluer numériquement si l’expression d’une émotion est positive ou négative. La méthode que nous allons présenter se base sur des dictionnaires pour lesquels ont été identifiés au préalable des termes et leurs positions relatives de façon à produire un calcul et des indicateurs (la bibliothèque d’algorithmes que nous utilisons est nommée Pattern elle est accessible sur cette page ). Voyons d’abord ce que produit ce type de calcul pour quatre phrases choisies pour l’exemple :

id subjectivity polarity
Le repas de la cantine était bon 0.7 0.70
Le repas de la cantine était mauvais 0.8 -0.71
Le repas de la cantine était magnifique 1.0 1.00
Le repas de la cantine était dégueulasse 1.0 -1.00

Pour chaque chaîne de caractères, le logiciel renvoie deux valeurs qui ont été nommées polarité et subjectivité. La polarité correspond à l’intensité du sentiment et à son orientation. La subjectivité évalue la présence d’opinions dans le texte et l’absence d’informations factuelles. Plus la subjectivité est proche de zéro moins la valeur de la polarité peut être considéré comme robuste. Voyons comment les valeurs de polarité et de subjectivité évoluent lorsque l’on modifie nos phrases d’exemples en ajoutant des éléments factuels :

id subjectivity polarity
Le repas de la cantine était bon, les champignons étaient très bien cuits et la sauce très douce 0.45 0.3750000
Le repas de la cantine était mauvais, le poisson n’était pas décongelé et les légumes avariés 0.00 -0.3866667

En ajoutant ces éléments descriptifs, les valeurs des 4 indicateurs ont baissé par rapport à la première partie de la phrase qui exprime uniquement un ressenti. Au travers de cet exemple, on constate que le calcul des indicateurs ne prend pas seulement en considération le lexique, mais aussi la position des termes laudatifs ou dépréciatifs dans la phrase (par exemple “très bien” dans la première phrase est repéré comme exprimant une opinion dans l’exposition de faits et contribue modérément à la polarité).

Appliquons cette opération sur les réponses à la première question du questionnaire et affichons les réponses dont la subjectivité est la plus élevée.

polarity subjectivity id
131 0.3220833 1.00 Je suis enseignants et informaticien à la fois. J’aime le savoir et le transmettre. Mais comment ? Je souhaite véritablement trouver de plus en plus de monde qui s’intéresse également à cette nouvelle façon d’enseignée. J’ai plein d’idée, mais sont-elles vraiment sérieuses et surtout peuvent-elles être une source de bonne transmission ? Je forme des adultes depuis plus de 20 ans et je pense que découvrir un MOOC tel que le votre va me donner un bon en avant dans ma façon d’enseigner. Je connais XXXXXX pour avoir passé un DUT en XXXX il y a plus de 20 ans. Voilà.
70 0.0912500 1.00 Dans le cadre de mes prestations en qualité de formatrice pour adultes et de conseiller en insertion professionnelle,je rencontre des personnes qui n’ont pas eu d’éducation à “l’internet” comme ils disent! Face à ce constat, il est essentiel pour moi d’acquérir des connaissances sur l’éducation au média et à l’information afin de proposer des actions qui permettent à ces publics d’appréhender l’ère du “tout” numérique. Les rassurer sur leurs craintes , leurs peurs les amener à découvrir les possibles: l’accès à la culture, à l’information les familiariser aux plateformes des services administratifs Vous constaterez que je suis à des années lumières de nos chères têtes blondes mais au plus près des précaires qui subissent de plein fouet la fracture numérique tant sur le plan de la pratique que sur le plan de l’accès.
25 0.3250000 1.00 Je suis enseignante et je souhaiterai me former davantage sur l’utilisation du numérique et l’appliquer dans mes cours en utilisant les médias pour des situations plus concrètes.
438 0.3500000 0.60 Je suis prof-doc et j’essaie de me tenir au courant des évolution du métier. J’ai déjà participé à votre MOOc que j’avais trouvé très intéressant.
458 0.6100000 0.55 Le thème de l’Education touche tous les secteurs d’activités. Il faut se pourvoir adapter nos mode de transmission au monde du numérique et c’est à ce niveau que ma curiosité m’a poussée à m’inscrire à ce MOOC. Les deux domaines (éducation et numérique) sont des thèmes d’actualité pour lesquelles je suis particulièrement passionnée.
258 0.5300000 0.50 POur avoir une meilleure connaissance et formation afin de remplir au mieux mes missions de CPE.

On remarque que les réponses 458 et 258 ont les valeurs de polarité les plus élevées. La réponse 458 est probablement repérée par l’algorithme en raison de l’emploi multiple du possessif me : “ma curiosité m’a poussée à m’inscrire”. La réponse 258 obtient un score élevé probablement par l’emploi des termes “meilleure” et “mieux”.

Trois messages ont une valeur maximale de subjectivité, le 131, le 70 et le 25. Pour la réponse 131 l’emploi du pronom je (“je suis”, “j’ai”) et de verbes exprimant un sentiment (“j’aime”, “je souhaite”) ont surement contribué au calcul d’un indice conséquent. Dans une moindre mesure, la réponse 25 entre dans cette catégorie bien qu’elle soit plutôt descriptive alors que l’algorithme ne le perçoit pas.

En revanche, la réponse 70 est intéressante, car elle obtient un indicateur de subjectivité maximum alors que la polarité est proche de 0 ce qui correspond assez bien au contenu du message puisqu’il s’agit d’une expression tout à fait personnelle qui exprime plutôt un constat.

La question des modèles

Au regard des éléments que l’algorithme a identifiés, force est de constater qu’il n’est pas très efficace pour ces données. Autrement dit, il identifie et distingue assez mal les réponses à la question. Ce qui est instructif c’est de chercher à comprendre pourquoi.

Le premier élément qui explique cette inadéquation c’est que la procédure que nous avons utilisée fait appel à un modèle linguistique qui cherche à résoudre un problème qui ne se pose pas pour notre questionnaire. Ce modèle cherche à répondre à la question : “Comment mesurer des émotions dans le langage écrit ?”. En cherchant à répondre à cette question par une conceptualisation (identifier des termes et des relations entre eux) il sera possible de voire des choses et pas d’autres. Or pour répondre à la question “Pouvez-vous nous préciser ce qui motive principalement votre inscription à ce MOOC ?” il n’est pas nécessaire d’avoir recours à l’expression d’émotions (sans pour autant l’exclure). Ce modèle n’est donc pas approprié pour traiter nos données (c’est-à-dire ordonner, distinguer, identifier et classer des réponses).

Ensuite, la mise en oeuvre de ce modèle passe par la réalisation d’une modélisation technique (lors de l’identification des termes désignés comme objectif, subjectif, verbe, pronom, etc. et établissant des règles relationnelles). La conception d’un dictionnaire constitue la mise en oeuvre technique du modèle linguistique. Cette construction implique un ensemble de petites décisions qui ont une grande influence lors de l’utilisation du modèle : quels sont les mots prioritaires à taguer ? Que choisir pour les termes polysémiques (par exemple le mot “libre” est tagué comme très positifs alors que dans les réponses on trouve des répondants qui ont indiqué être “candidat libre au Capes”) ? Tout ce travail de catégorisation construit des cas qui ne seront pas adaptés à toutes les situations. Les réponses à ce genre de problème sont faites dans une perspective générale, or chaque champ lexical est souvent le reflet de ce que l’on appelle aujourd’hui rapidement “des communautés”. De ce point de vue la technologie n’est pas neutre. Pour utiliser efficacement ces algorithmes, il faudrait donc l’adapter à notre lexique et donc être en mesure de le consulter et de le modifier (ce qui est possible avec la bibliothèque que nous utilisons). Cette question est un exemple qui montre en quoi la question de la transparence, la modification et la documentation des algorithmes est très importante et donne raison aux militants pour les logiciels libres.

Enfin, les données que notre questionnaire a produit sont influencées par les conditions de passations, la formulation des questions, les catégories de réponses et dans notre cas le système technique de collecte. Réaliser un questionnaire c’est aussi construire un modèle (dans notre situation il s’agit d’un modèle assez sommaire) qui lui aussi répond à des besoins et cherche à résoudre des problèmes particuliers. Pour analyser ces données il faut faire appel à une méthode qui, soit aura pris les mêmes orientations que le modèle qui les a produits, soit permettra une identification sur mesure. C’est ce deuxième cas que nous allons voir ci-dessous.

Constitution d’un lexique

Parmi les réponses, on disposait de 476 textes courts. Pour commencer il est utile de parcourir les réponses, en voici une dizaine tirées au sort.

##  [1] "L'obligation de s'inscrire"                                                                                                                                                                                                                                                                                                                                                                                                                                    
##  [2] "Pour faire évoluer mes pratiques professionnelles et pour développer mes compétences personnelles"                                                                                                                                                                                                                                                                                                                                                             
##  [3] "Pour une mise à jour nécessaire de mes connaissances et de mes pratiques professionnelles. C'est à dire enseigner l'EMI (Education aux médias et à l'information) en collège. Je suis professeur-documentaliste."                                                                                                                                                                                                                                              
##  [4] "Il s'agit de d'enrichir mes connaissances qui traitent du sujet du MOOC.   Il s'agit aussi d'évaluer mes concepts et de rectifier mes erreurs du sujet traité."                                                                                                                                                                                                                                                                                                
##  [5] "Professeure documentaliste, je considère que l'éducation aux médias d'information fait partie de notre mission, mais j'ai passé le capes en 91 et à cette époque on ne parlait pas d'EMI. Je me suis formée bien évidemment depuis, mais je ne maîtrise pas encore, et de loin, toutes les connaissances liées à l'EMI. Je compte sur cette formation pour améliorer mon niveau et être plus apte à mettre en place un enseignement pertinent pour mes élèves."
##  [6] "J'ai exercé sur de courtes périodes le métier de professeur documentaliste et je voulais disposer de cours sur l'enseignement des média et du numérique."                                                                                                                                                                                                                                                                                                      
##  [7] "Ma première motivation pour s'inscrire à ce MOOC (comme aux autres que j'ai déjà suivi) est une curiosité quasi-insatiable sur des sujets très divers.     La seconde est mon intérêt pour le monde de l'information et ses mutations à l'ère du numérique.    La dernière concerne l'exercice de ma profession qui se nourrira très certainement des enseignements de ce MOOC."                                                                               
##  [8] "je fais mon projet fin d étude  sur les mooc"                                                                                                                                                                                                                                                                                                                                                                                                                  
##  [9] "la curiosité, l'envie de formation, la découverte"                                                                                                                                                                                                                                                                                                                                                                                                             
## [10] "Je suis actuellement professeur-documentaliste stagiaire dans l'académie de Créteil. Dans le cadre de ma formation, on m'a demandé de suivre ce MOOC pour apprendre à travailler avec les disciplines scientifiques. Je vais ainsi pouvoir améliorer mes connaissances car j'avais à l'origine un baccalauréat littéraire et diversifier mes partenariats pédagogiques."

On voit que les messages ont des formes très différentes. Certains sont très rédigés, d’autres beaucoup plus lacunaires. Certains présentent des éléments de contexte personnel tandis que d’autres répondent strictement à la question. Une première étape consiste à extraire le lexique employé pour l’ensemble des messages et ses termes selon leur nombre d’apparitions :

occurences
connaissances 140
emi 132
medias 112
mooc 104
documentaliste 102
numerique 101
formation 98
professeur 85
education 79
information 79
eleves 74
souhaite 71
plus 62
pratiques 51
domaine 48
former 45
afin 42
college 40
mieux 40
apprendre 37

On peut représenter ces données sous la forme d’un nuage de mots comme ça se fait beaucoup depuis quelques années.

Parmi les termes les plus employés on a d’abord inévitablement le triptyque : “médias”, “éducation” et “information” dont on comprend aisément qu’il s’agit de la forme éclatée du terme “EMI”.

On remarque, ensuite, que les termes dont les occurrences sont les plus élevés sont plutôt des termes issus du monde scolaire (en particulier le terme “EMI”) : “documentaliste”, “numérique”, “professeur”, “élèves”, “collège”.

Le terme le plus fréquemment employé dans les réponses est celui de “connaissances” au pluriel. On trouve aussi des verbes comme : “souhaite”, “apprendre”, “former”. Le terme “formation” et “mooc”. Le terme “pratique” qui peut être un verbe ou non. Des termes laudatifs : “plus”, “mieux”. On il y a de fortes chances que ces termes constituent le plus souvent les deuxièmes parties de messages qui exposent souvent l’intention et le souhait de mieux se former et souvent en référence aux situations qui figurent dans les premières partie des textes.

On peut interpréter ce petit champ lexical comme des textes qui présentent une situation personnelle et la volonté de se former en réponse à des éléments liés à cette situation professionnelle par exemple :

  • “Professeure documentaliste, je considère que l’éducation aux médias d’information fait partie de notre mission, mais j’ai passé le capes en 91 et à cette époque on ne parlait pas d’EMI. Je me suis formée bien évidemment depuis, mais je ne maîtrise pas encore, et de loin, toutes les connaissances liées à l’EMI. Je compte sur cette formation pour améliorer mon niveau et être plus apte à mettre en place un enseignement pertinent pour mes élèves.”
  • “J’ai exercé sur de courtes périodes le métier de professeur documentaliste et je voulais disposer de cours sur l’enseignement des média et du numérique.”

On peut conclure que les réponses les plus fréquentes dans les messages contextualisent le métier de professeur documentaliste qui concerne la majorité des répondants. Ils ont estimé que ce qui motive leur participation au Mooc est le désir de se former, car ils sont professeurs documentalistes en collège. Par rapport à l’analyse précédente, on a déjà plus de matière explicative. On va maintenant chercher à confirmer ces éléments statistiquement.

Analyse du lexique au regard d’une question fermée

On va maintenant transformer la base de réponses au questionnaire de façon à ce que chaque terme du lexique corresponde à une variable dont la valeur est présence/absence. Une fois que le tableau aura ce format, on pourra utiliser des méthodes statistiques traditionnelles. Voici les premières lignes et premières colonnes de ce nouveau tableau.

situation abord academie acceder acces accompagner acquerir activites actualiser actuellement adapter adultes
1 Autre No No No No No No No No No No No
2 Enseignant ou formateur No No No No No No No No No No No
3 Autre No No No No No No No No No No No
4 Autre No No Yes No No No No No No No No
5 Enseignant ou formateur No No No No No No No No No No No

On dispose maintenant d’un tableau à 333 colonnes (presque le nombre de termes figurant dans le lexique) et 509 lignes (soit le nombre de réponses au questionnaire). La première colonne contient la variable qui correspond à la question “Quelle est votre situation actuelle ?” on a recodé les modalités de réponses en deux cas : “Enseignant” et “Autre”. Ensuite viennent autant de colonnes que de termes figurant dans le lexique avec “No” pour leur absence dans la réponse à la question sur la motivation et “Yes” pour sa présence. On remarque qu’il y a très peu de “Yes”, ce qui est normal. Voyons maintenant si on trouve un lien entre la variable “situation” et le lexique employé dans les réponses, c’est à dire cherchons à répondre à la question : Quels sont les termes du lexique qui distingue les enseignants des autres répondants ?

On va commencer par construire un arbre d’inférence conditionnel. C’est une méthode qui classe l’importance des variables et permet de représenter graphiquement ce classement.