Objectifs généraux du travail statistique : résumer, révéler, prédire

Mehdi.Khaneboubi@u-cergy.fr

16 novembre 2017

On a vu la semaine dernière l’importance qu’a eu l’analyse de données dans le Baseball professionnel. Cette semaine nous allons aborder de façon plus concrète le cœur du travail statistique. L’objectif principal de tout traitement statistique est d’opérer un résumé de l’information contenue dans une masse d’informations inintelligibles c’est à dire d’une trop grande complexité pour être appréhendées directement. Ensuite, le deuxième objectif du travail statistique est de révéler des phénomènes peu visibles ou invisibles s’ils existent. Enfin, une dimension importante du traitement de données est de réaliser des prédictions ou des estimations.

–>

Exemple 1 : révéler un phénomène peu visible

On a vu la semaine dernière qu’une analyse de données a permis de montrer que dans le Baseball les stratégies de jeu mises en oeuvre de façon traditionnelle n’étaient pas les plus efficaces. Contre les avis des professionnels du milieu, le travail d’analyse de données suggérait d’autres façons de former une équipe de Baseball.

Autre exemple, en France dans les années 90, une enquête statistique (dont on trouvera les détails dans l’article de Philippe Cibois1), montrait que les enfants issus de l’immigration réussissaient moins bien à l’école que les autres élèves (c’est probablement encore le cas aujourd’hui). En effectuant un traitement plus poussé (nommé régression logistique) pour étudier le cas des élèves issus de l’immigration ayant des caractéristiques sociales identiques aux autres élèves, on s’aperçoit que le fait d’être “issu de l’immigration” a un effet positif significatif sur la réussite scolaire. Autrement dit, l’enquête statistique permet d’affirmer (et de quantifier par une probabilité) que, au regard des données étudiées, “toutes choses égale par ailleurs”, les enfants issus de l’immigration maghrébine réussissaient mieux que les autres.

Cette dimension du travail statistique n’est pas automatique et repose plus sur une activité scientifique et un travail de recherche très élaboré que dans un résultat automatique d’un travail d’analyse de données. Il s’agit d’un idéal qui n’est pas atteint à chaque fois.

–>

Exemple 2 : résumer des informations

Dans une classe, 26 élèves ont reçu une note. Ces notes sont consignées dans le tableau ci-dessous2.

Élève Note sur 20
Maariya 6
Hannah 16
Joshua 9
Tony 18
Raabia 19
Marissa 1
Meghan 11
Katrina 18
Jumail 12
Ira 10
Aastha 20
Cochise 10
Shaamil 14
Jesus 12
Simon 3
Marcus 18
Shabaan 5
Oscar 1
Nam 7
Austin 20
Saood 18
Andrew 14
Krischian 13
Scarlett 20
Jawhar 14
Dominik 15

Si l’on veut se faire une opinion sur le travail de cette classe, par exemple lors d’un conseil de classe, cette liste est trop compliquée. Pour en obtenir une vision globale il faut la synthétiser. Une première façon de faire est d’ordonner les données. Comme ceci3 :

Élève Note sur 20
Aastha 20
Austin 20
Scarlett 20
Raabia 19
Tony 18
Katrina 18
Marcus 18
Saood 18
Hannah 16
Dominik 15
Shaamil 14
Andrew 14
Jawhar 14
Krischian 13
Jumail 12
Jesus 12
Meghan 11
Ira 10
Cochise 10
Joshua 9
Nam 7
Maariya 6
Shabaan 5
Simon 3
Marissa 1
Oscar 1

On voit ainsi clairement que 10 élèves ont 15/20 ou plus et uniquement 4 élèves ont 5/20 ou moins, il y a donc 12 élèves qui ont reçu une note comprise entre 5 et 15. On a déjà une première idée : 10 élèves ont des très bonnes notes et seulement 4 en ont de très mauvaises.

Une autre façon de faire, très commune, est de calculer la note moyenne : 12,5. Souvent on indique aussi la note maximale et la note minimale : 20 et 1. On peut aussi calculer la note médiane : 13,5. La note médiane signifie que la moitié des élèves ont moins de 13,5 et l’autre moitié plus. On obtient le tableau suivant :

Élève Note sur 20
Aastha 20.0
Austin 20.0
Scarlett 20.0
Raabia 19.0
Tony 18.0
Katrina 18.0
Marcus 18.0
Saood 18.0
Hannah 16.0
Dominik 15.0
Shaamil 14.0
Andrew 14.0
Jawhar 14.0
Krischian 13.0
Jumail 12.0
Jesus 12.0
Meghan 11.0
Ira 10.0
Cochise 10.0
Joshua 9.0
Nam 7.0
Maariya 6.0
Shabaan 5.0
Simon 3.0
Marissa 1.0
Oscar 1.0
moyenne 12.5
médiane 13.5
maximum 20.0
minimum 1.0

On peut donc résumer les notes de cette classe en disant :

On a ainsi une idée de la classe et on peut interpréter ces éléments en disant que c’est une classe qui a plutôt reçu de bonnes notes.

Imaginons maintenant qu’il y ait plusieurs notes par élèves comme ceci :

Élève Math Français SVT Musique Sport
Maariya 6 2 17 13 6
Hannah 16 9 3 10 2
Joshua 9 11 6 14 5
Tony 18 8 8 14 3
Raabia 19 5 20 5 7
Marissa 1 6 20 20 15
Meghan 11 12 11 17 11
Katrina 18 10 7 18 6
Jumail 12 19 14 6 16
Ira 10 6 13 19 17
Aastha 20 16 1 10 17
Cochise 10 18 16 4 7
Shaamil 14 16 8 10 16
Jesus 12 18 3 7 4
Simon 3 9 12 16 10
Marcus 18 2 9 19 8
Shabaan 5 12 9 6 15
Oscar 1 15 19 12 4
Nam 7 18 14 10 12
Austin 20 1 16 4 2
Saood 18 13 8 4 10
Andrew 14 13 15 17 10
Krischian 13 2 14 18 15
Scarlett 20 9 6 10 20
Jawhar 14 7 12 9 11
Dominik 15 5 2 15 8

On peut ordonner les données comme précédemment mais avec un degré de complexité plus grand : quelle discipline doit-on choisir comme premier critère de classement ? Et comme deuxième critère ? C’est un problème assez difficile que nous n’allons pas traiter.

Si l’on veut se faire une opinion sur les notes reçues par les élèves au cours du trimestre on peut calculer simplement la moyenne par élève ainsi :

Élève Moyennes
Maariya 8.8
Hannah 8
Joshua 9
Tony 10.2
Raabia 11.2
Marissa 12.4
Meghan 12.4
Katrina 11.8
Jumail 13.4
Ira 13
Aastha 12.8
Cochise 11
Shaamil 12.8
Jesus 8.8
Simon 10
Marcus 11.2
Shabaan 9.4
Oscar 10.2
Nam 12.2
Austin 8.6
Saood 10.6
Andrew 13.8
Krischian 12.4
Scarlett 13
Jawhar 10.6
Dominik 9

On peut agrandir le tableau d’origine en y faisant figurer les notes médianes, les notes maximales et minimales ainsi :

Élève Moyennes Médianes Maximums Minimums
Maariya 8.8 6 17 2
Hannah 8 9 16 2
Joshua 9 9 14 5
Tony 10.2 8 18 3
Raabia 11.2 7 20 5
Marissa 12.4 15 20 1
Meghan 12.4 11 17 11
Katrina 11.8 10 18 6
Jumail 13.4 14 19 6
Ira 13 13 19 6
Aastha 12.8 16 20 1
Cochise 11 10 18 4
Shaamil 12.8 14 16 8
Jesus 8.8 7 18 3
Simon 10 10 16 3
Marcus 11.2 9 19 2
Shabaan 9.4 9 15 5
Oscar 10.2 12 19 1
Nam 12.2 12 18 7
Austin 8.6 4 20 1
Saood 10.6 10 18 4
Andrew 13.8 14 17 10
Krischian 12.4 14 18 2
Scarlett 13 10 20 6
Jawhar 10.6 11 14 7
Dominik 9 8 15 2

On pourra ensuite ordonner le tableau selon les notes moyennes ou médianes et ainsi avoir une vision globale pour chaque élève. On pourrait faire la même chose pour chaque discipline de la même façon en effectuant un traitement sur les colonnes plutôt que sur les lignes et obtenir un tableau de synthèse dans lequel il sera facile de naviguer.

–>

Exemple 3 : prédire un évenement

Imaginons maintenant que nous disposons des chiffres de ventes d’une entreprise de bicyclettes pour les 12 mois de l’année 2016.

Mois Jan Fév Mar Avr Mai Juin Juil Aout Sept Oct Nov Déc
Ventes 40 42 44 45 48 50 52 55 58 63 68 70

Lors du premier mois 40 vélos ont été vendus, 42 le second mois, 44 le troisième, etc. Y a-t-il une forme de régularité dans ces ventes ? Est-il possible d’estimer le nombre de vente du mois de janvier 2017 ?

Pour répondre à ces questions on va représenter graphiquement ces valeurs ainsi :

On appelle cette figure un nuage de points. Remarquez que ce nuage de points est assez régulier, ce qui suggère une relation entre les unités vendues et le temps qui s’écoule. On peut dire qu’il y a de plus en plus de ventes chaque mois mais il n’y en a pas beaucoup plus chaque mois. On voit que chaque mois il y a à peu près autant de ventes supplémentaires que le mois précédent : les points sont plutôt alignés. On peut en conclure qu’il existe un lien statistique, une corrélation entre les deux variables représentées sur le graphiques.

C’est pourquoi une droite serait un bon résumé de ce nuage de points. On va donc calculer l’équation de la droite qui “passe” au plus près de chacun des points et on va la représenter en rouge sur le graphique ci-dessous.

Cette droite est un modèle statistique[^reg]. D’abord elle résume notre nuage de points : elle est plus simple. Ensuite elle le formalise, c’est à dire qu’elle définit par son équation, la relation que l’on a constaté à l’oeil nu entre le nombre de vélos vendus et chacun des mois de l’année :

\[
y = 2,75x + 35 \]

On va interpréter cette équation en disant : pour chaque augmentation de 1 du nombre de mois, il y a une augmentation de 2,75 unités du nombre de ventes. Autrement dit chaque mois il y a 2,75 vélos vendus supplémentaires.

Grâce à cette équation on peut aussi estimer le nombre de vélos vendus pour des mois dont on ne connait pas les valeurs comme pour le 13ème mois grâce à un calcul simple :

\[
2,75 × 13 + 35 = 70,75 \]

Cette méthode est nommée regression linéaire simple. Pour plus de détails je vous invite à consulter le manuel intitulé Statistique descriptive4 mais il en existe un grand nombre.

–>

Une des limitations majeure de la méthode réside dans le fait que la forme du nuage de points doit présenter des régularités. La forme du nuage de points doit évoquer une relation linéaire entre les deux variables.

Exercice 1 : calculer moyenne, maximum, minimum et mediane dans un tableur

Voici un tutoriel simple et didactique montrant les éléments de base d’utilisation d’un tableur : https://www.youtube.com/watch?v=mVEKO4zzHXI

Voici un tutoriel très court montrant comment calculer trois moyennes dans un tableur comme Calc d’Open Office :

Voici les notes reçues par les élèves dans une classe :

Élève Physique Anglais Histoire
Maariya 15 3 20
Hannah 19 7 5
Joshua 14 4 6
Tony 18 7 6
Raabia 20 2 12
Marissa 17 12 19
Meghan 10 2 3
Katrina 5 8 6
Jumail 18 20 4
Ira 3 1 15
Aastha 15 16 10
Cochise 6 7 12
Shaamil 7 16 4
Jesus 5 3 11
Simon 11 10 11
Marcus 2 15 4
Shabaan 12 17 3
Oscar 10 9 4
Nam 19 4 16
Austin 13 8 3
Saood 13 18 20
Andrew 2 1 17
Krischian 17 9 13
Scarlett 1 14 20
Jawhar 1 18 10
Dominik 1 15 19

Devinerez-vous comment calculer maximums, minimums et médiane ?

1 - Calculez les notes moyennes, maximums, minimums et médianes pour chaque élève.
2 - Calculez les notes moyennes, maximums, minimums et médianes pour chaque discipline.

Envoyez le fichier dans lequel figure le tableau complet à Mehdi.Khaneboubi@u-cergy.fr avant la réunion synchrone du 16 novembre.

Exercice 2 : calculer l’équation d’une droite de regression avec un tableur

Il existe un très grand nombre de ressources sur le web et en bibliothèque montrant comment calculer la droite de régression d’un nuage de points dont celle-ci qui est très courte et très efficace avec Excel :

La même chose avec OpenOffice Calc :

Voici un tableau qui indique l’âge et la taille d’enfants :

Âge en mois Tailles moyennes en cm
0 48
1 55
3 63
6 64
9 73
12 77
18 85

1 - Représentez ces points dans un tableur.
2 - Calculez l’équation de la droite de regression.
3 - De combien grandit un de ces enfants chaque mois ?
4 - D’après vous, quelle taille ferait un enfant de 22 mois ?

Envoyez le fichier contenant ces éléments par email avant la connexion du 16 novembre.

Exercice 3 (facultatif)

En vous aidant du tutoriel ci-dessous faire l’exercice 1 avec R5. Dans ce cas vous devez envoyer par email les commandes que vous avez entrées dans la consôle.

Premiers contacts avec R

Lancez R sur votre ordinateur à partir de son icone qui doit ressembler à ceci :

Vous devez ensuite voir s’afficher dans la console un texte qui ressemble à celui-ci :

R version 3.4.2 (2017-09-28) – “Short Summer” Copyright (C) 2017 The R Foundation for Statistical Computing Platform: x86_64-apple-darwin15.6.0 (64-bit)

R est un logiciel libre livré sans AUCUNE GARANTIE. Vous pouvez le redistribuer sous certaines conditions. Tapez ‘license()’ ou ‘licence()’ pour plus de détails.

R est un projet collaboratif avec de nombreux contributeurs. Tapez ‘contributors()’ pour plus d’information et ‘citation()’ pour la façon de le citer dans les publications.

Tapez ‘demo()’ pour des démonstrations, ‘help()’ pour l’aide en ligne ou ‘help.start()’ pour obtenir l’aide au format HTML. Tapez ‘q()’ pour quitter R.

Si c’est bien le cas vous êtes prêt à commencer.

R est un langage de programmation qui est dit “orienté objet”. En pratique cela signifie que l’on peut attribuer à un objet (une lettre, un mot, une phrase) une ou plusieurs valeurs (numériques ou non), algorithmes, graphiques, tableaux, etc… Par exemple, pour donner la valeur 12 à un objet x il suffit de saisir dans la console :

x<-12

puis de taper la touche “entrée”. Pour constater que la valeur 12 a bien été assignée à l’objet x, il suffit de taper :

x

puis la touche “entrée”. R répondra :

[1] 12

Dans cette réponse remarquez que R renvoi le nombre de ligne qui figure dans la réponses avec cette indiquation : “[1]”

Pour qu’un objet n représente la distribution : 1,8,10,7,4,3 tapez :

n<-c(1, 8, 10, 7, 4, 3)

Comme précédemment on peut ensuite voir le contenu de l’objet n en tapant “n” puis entrée :

n

R répond :

[1] 1 8 10 7 4 3

La fonction c() sert à entrer des données dans un objet. Cette fonction sera utile pour des données courtes et simples. Dans la suite de ce cours, lorsque nous manipulerons des données volumineuses nous les importerons autrement. Maintenant que l’on a créé un objet dans lequel figure une distribution de nombres, nous pouvons appliquer différentes opérations dessus.

Le séparateur décimal est le point « . ». On rentrera donc toujours les données décimales avec un « . » en guise de « , ». La virgule a une autre fonction comme lorsque une distribution est entrée ainsi xi<-c(10.5, 11, 12)

Par exemple on peut multiplier chacun de ces éléments par 2 :

n*2

[1] 2 16 20 14 8 6

ou bien ajouter 1 à chacun de ces éléments :

n+1

[1] 2 9 11 8 5 4

bref, cela permet d’automatiser des calculs.

Les opérations ordinaires s’utilisent grâce aux opérateurs suivants : * pour multiplier, + pour ajouter, - pour soustraire, / pour diviser, ^2 pour élever au carré, ^5 pour élever à la puissance 5, sqrt(9) fait la racine carré de 9

Pour calculer une moyenne nous devons calculer la somme de la distribution. La fonction qui permet de calculer la somme d’un objet est sum() :

sum(n)

[1] 33

Notre objet n contient 6 éléments sa moyenne est donc :

33/6

[1] 5.5

ou bien :

sum(n)/6

[1] 5.5

La touche « flèche vers le haut » de votre clavier affiche la commande que l’on vient de saisir et permet de ne pas ressaisir la totalité d’une commande lorsque l’on a fait une erreur.

Dans R il existe des fonctions pour presque toutes les opérations mathématiques et statistiques, on pourrait donc calculer directement la moyenne de l’objet n en utilisant la commande mean() :

mean(n)

[1] 5.5


  1. Cibois, P. (2002). La bonne volonté scolaire. Expliquer la carrière scolaire d’élèves issus de l’immigration. In P. Blanchard & T. Ribémont (Éd.), Méthodes et outils des sciences sociales. Innovation et renouvellement (p. 111‑126). Paris: L’Harmattan. http://cibois.pagesperso-orange.fr/BonneVolonteScolaire.pdf“)

  2. Les prénoms et les notes ont été générés aléatoirement.

  3. Il s’agit ici de donner un exemple simple de traitement de données en aucun cas il s’agit de conseils pédagogiques.

  4. Monino, J.-L., Kosianski, J.-M., & Cornu, F. L. (2007). Statistique descriptive (3e édition). Dunod.

  5. On a déjà parlé de R dans le séminaire de recherche portant sur les méthodes quantitatives EC 321. Vous avez déjà du l’installer à cette occasion.