Initiation au traitement de données


EC 311 du master REDEF, premier semestre 2017-2018

Mehdi Khaneboubi, ESPE de Versailles
mehdi.khaneboubi@u-cergy.fr

Programme du semestre

En quoi les statistiques et le traitement de données sont importants socialement et pour construire une recherche ? Quels sont les enjeux informatiques, techniques et sémantiques du traitement de données ? Quel est l'objet du travail d'analyse de données ? Comment construire un questionnaire en ligne ? Quelles représentations graphiques employer ? Comment établir une relation entre deux variables ? Comment traiter quantitativement un texte ?

Nous consacrerons 8 séances à ces questions en suivant le programme ci-dessous :

Comme il est nécéssaire de contrôler totalement les manipulations que nous allons faire sur des données, pour suivre ce cours intégralement il est impossible d'utiliser une tablette ou un téléphone, il faut utiliser un ordinateur avec Windows, Osx ou linux. De même, nous n'utiliserons pas le tableur de Excel il faut installer, si ce n'est pas déjà fait, Libreoffice (https://fr.libreoffice.org) ou Openoffice (https://www.openoffice.org/fr).

Chaque semaine figureront des textes et des vidéos complémentaires. Il est important de les consulter. De plus, chaque semaine un travail est à réaliser avant la réunion synchrone.

Introduction

EC 311 du master REDEF - 9 novembre 2017

Il existe deux grandes familles de méthodes de collecte de données en SHS. Les méthodes dites quantitatives (comme la passation d'un questionnaire) qui étudient un phénomène en le quantifiant et en cherchant à le généraliser et les méthodes dites qualitatives (comme la réalisation d'une série d'entretiens), centrées sur la précision des phénomènes étudiés. Dans ce cours nous allons nous concentrer exclusivement sur les méthodes dites quantitatives.

L'importance toujours croissante des usages de l’internet, de l'informatisation des administrations et des entreprises ont fait se développer une quantité astronomique de données. Cette quantité de données est inédite, concerne tous les secteurs d'activités. Les instruments traditionnels de traitement de données ne permettent de les appréhender que depuis peu de temps. Analyser des données est devenu une compétence clé dans les grandes entreprises et une des plus recherchée1.

Qu'est ce que change ce "déluge" de données sur nos sociétés ? Pour présenter des éléments de réponse à cette question on va voir aujourd'hui comment les statistiques ont changé le championnat professionnel de Baseball américain, en quoi les statistiques peuvent affiner une connaissance sur un objet de connaissance en nous intéressant à un sport très méconnu en France.

Un sport de balles, de battes et de chiffres

On va prendre un premier exemple dans le sport avec un article de presse que vous devez lire avant la réunion synchrone : La fée Statistique ensorcelle le football paru dans le monde diplomatique de mars 2013.

Cet article daté de 20132 décrit de façon assez précise comment l'usage des statistiques et du traitement de données moderne n'a pas changé le football professionnel européen alors qu'il a transformé le baseball professionnel aux États-Unis.

On va s'intéresser au cas des statistiques dans le baseball car c'est un sport tout à fait intéressant du point de vue des statistiques et des probabilités. Contrairement au football, il s'agit d'un sport qui fait assez peu de place à l'improvisation et dans lequel les joueurs de chaque équipe ne sont pas mélangés sur le terrain. Voici une courte vidéo qui en présente les règles.




Un autre tutoriel en explique les règles : https://fr.wikihow.com/jouer-au-baseball. Après cette lecture je vous invite à regarder tout ou partie de ce match.



Remarquez qu'il y a des chiffres et des tableaux très différents et très souvent à l'écran. Ils décrivent et résument différentes choses mais notamment les performances des joueurs au cours de leur carrière ou du championnat en cours.

scorekeeping

scorekeeping

Ces valeurs, qui sont le plus souvent considérées comme des probabilités, font partie intégrante du jeu depuis le 19ème siècle. Leur présentation pendant la retransmission télévisée est un élément signifiant qui fait partie de la trame narrative du match.

Un sport que l'on peut écrire

Les statistiques sur les joueurs de baseball existent depuis le 19ème siècle. Le baseball est un sport qui se prête très bien à l'analyse de données. Produire des données ne demande pas de dispositif technologique particulier car il s'agit d'un sport dont le déroulement des parties est transcrit. Le déroulement des matchs est écrit dans un langage formel3. Cette codification, existe depuis le 19ème siècle. À chaque étape du jeu est noté par un arbitre de façon codé et formelle ce qui s'est passé sur le terrain dans un document comme celui-ci.

scorekeeping vierges

Une fois rempli, ce genre de document peut ressembler à la figure ci-dessous4.

scorekeeping

Après chaque match sont mises à jour les statistiques de chaque joueur qui indiquent la performance générale d'un joueur sur la base de ces documents. Pour la petite histoire ces indicateurs figurent au verso des cartes de baseball que les enfants américains s'échangent comme par exemple celle-ci qui date de 1989.

NolanRyan

L'analyse de données comme source d'innovation

Est apparue dans les années 80 une nouvelle approche du Baseball avec des statistiques modernes5 nommé Sabermétrie dont un accomplissement important est raconté dans un film avec Brad Pitt cité dans l'article du monde diplomatique :

Ce ralliement précoce doit beaucoup à l’émergence dans les années 1980 d’une sous-culture de statisticiens amateurs qui, mus par une même adoration compulsive pour le base-ball et le calcul, consacraient leur temps libre à jongler avec les paramètres de leur sport favori. Leur maître à penser était un certain Bill James, qui gagnait sa vie comme gardien dans une usine de conserves de porc aux haricots, mais qui, une fois rentré du travail, se jetait sur sa machine à écrire pour bâtir sa grande œuvre sur le base-ball en tant qu’abstraction mathématique et réduire en miettes les certitudes les plus inébranlables sur ce sport. M. James apporta notamment la preuve statistique que des stratégies de jeu aussi réputées que le base stealing ou l’« amorti sacrifice » (ne vous inquiétez pas si vous n’y comprenez rien) n’avaient strictement aucun sens.

Grâce à cette activité d'analyse de données une équipe moins financée que ses adversaires a gagné le championnat national et toutes les équipes de baseball professionnelles se sont par la suite mises à embaucher des statisticiens pour leur faire éplucher des données.

En résumé, grâce à une façon analytique d'aborder des données sportives, un club de baseball professionnel a mis en place une politique que l'on peut qualifier d'innovante. Il s'agissait d'une stratégie fondée sur un principe économique : embaucher des joueurs moins chers dont les performances mesurées statistiquement avaient un plus fort potentiel que les indicateurs traditionnels du métier. Autrement dit, ils ont recruté des joueurs dont les performances étaient sous évaluées selon les critères habituels et les ont fait jouer d'une façon différente.

Nardi, B. A. (1993). A Small Matter of Programming: Perspectives on End User Computing. MIT Press. En partie consultable ici : https://books.google.fr/books?id=0drDRT370eoC&lpg=PA30&ots=eGfYXbSopv&dq=formal%20language%20baseball%20scorekeeping&hl=fr&pg=PA30#v=onepage&q&f=false

Quels enseignement tirer de cette histoire ?

On voit dans cet exemple que les statistiques ont un pouvoir d'analyse susceptible de changer des comportements collectifs. Depuis le livre qui a inspiré le film, d'autres champs ont cherché à répliquer ce travail et notamment le football mais l'analyse de données n'a pas eu le même effet et l'avenir nous dira si une petite équipe de football européen sera capable de vaincre des mastodontes grâce aux statistiques.

Le baseball est un sport qui s'y prête pour plusieurs raisons :

Le pouvoir d'objectivation

Cette histoire illustre à merveille ce que l'on nomme classiquement en sociologie le pouvoir d'objectivation des méthodes quantitatives. Dans un ouvrage célèbre, le père de la sociologie française Emile Durkheim étudie Le Suicide et montre, par une étude statistique, que les suicides sont le produit de déterminants sociaux. Que des causes sociales expliquent ce phénomène dont on pourrait penser qu'il est mu exclusivement par des raisons relevant d'éléments de l'intimité et/ou de processus psychologiques.

Quel est le rapport avec le baseball ? La particularité de l'approche de Émile Durkheim c'est d'avoir considéré les faits sociaux comme des choses. Cette idée est très bien expliquée dans le manuel de François de Singly7:

scorekeeping

C'est la fonction principale que doivent jouer les statistiques dans un travail de recherche en éducation. L'analyse de données quantitatives que vous allez produire est un moyen de s'extraire d'un environnement qui peut vous paraître familier, de considérer les phénomènes que vous allez étudier dans une perspective nouvelle. En éducation en particulier, des individus, des groupes sociaux et des institutions s'expriment chaque jour sur le sujet et traiter des données collectées selon des règles particulières permet de considérer les actes éducatifs avec un regard différent.

À faire pour la réunion synchrone du 9 novembre

Lire l'article du Monde diplomatique : Kuper, S. (2013, mars). La fée Statistique ensorcelle le football.

Lire l'extrait de De Singly, F. (2008). L'enquête et ses méthodes : Le questionnaire. Armand Colin.

Regarder le film Moneyball.


  1. http://etudiant.lefigaro.fr/article/emploi-les-5-metiers-du-web-qui-recrutent-le-plus_9b19495c-6548-11e7-a206-95aa27b386e9/ 

  2. Kuper, S. (2013, mars). La fée Statistique ensorcelle le football. Le Monde diplomatique. Consulté à l’adresse https://www.monde-diplomatique.fr/2013/03/KUPER/48824 

  3. Voi par exemple à paritr de la page 30 de :  

  4. Pour plus d'informations sur comment remplir ce genre de document voici un petit tutoriel : https://www.wikihow.com/Mark-a-Baseball-Scorecard, un autre en anglais ici : http://www.baseballscorecard.com 

  5. Il existe d'ailleurs un Mooc sur le sujet : https://www.edx.org/course/sabermetrics-101-introduction-baseball-bux-sabr101x-0 

  6. "Champ" entendu au sens de Bourdieu. 

  7. De Singly, F. (2008). L'enquête et ses méthodes : Le questionnaire. Armand Colin.