Objectifs généraux du travail statistique : résumer, révéler, prédire

On a vu la semaine dernière l’importance qu’a eu l’analyse de données dans le Baseball professionnel. Cette semaine nous allons aborder de façon plus concrète le cœur du travail statistique. L’objectif principal de tout traitement statistique est d’opérer un résumé de l’information contenue dans une masse d’informations inintelligibles c’est à dire d’une trop grande complexité pour être appréhendées directement. Ensuite, le deuxième objectif du travail statistique est de révéler des phénomènes peu visibles ou invisibles s’ils existent. Enfin, une dimension importante du traitement de données est de réaliser des prédictions ou des estimations.

Exemple 1 : révéler un phénomène peu visible

On a vu la semaine dernière qu’une analyse de données a permis de montrer que dans le Baseball les stratégies de jeu mises en oeuvre de façon traditionnelle n’étaient pas les plus efficaces. Contre les avis des professionnels du milieu, le travail d’analyse de données suggérait d’autres façons de former une équipe de Baseball.

Autre exemple, en France dans les années 90, une enquête statistique (dont on trouvera les détails dans l’article de Philippe Cibois¹), montrait que les enfants issus de l’immigration réussissaient moins bien à l’école que les autres élèves (c’est probablement encore le cas aujourd’hui). En effectuant un traitement plus poussé (nommé régression logistique) pour étudier le cas des élèves issus de l’immigration ayant des caractéristiques sociales identiques aux autres élèves, on s’aperçoit que le fait d’être “issu de l’immigration” a un effet positif significatif sur la réussite scolaire. Autrement dit, l’enquête statistique permet d’affirmer (et de quantifier par une probabilité) que, au regard des données étudiées, “toutes choses égale par ailleurs”, les enfants issus de l’immigration maghrébine réussissaient mieux que les autres.

Cette dimension du travail statistique n’est pas automatique et repose plus sur une activité scientifique et un travail de recherche très élaboré que dans un résultat automatique d’un travail d’analyse de données. Il s’agit d’un idéal qui n’est pas atteint à chaque fois.

–>

Exemple 2 : résumer des informations

Dans une classe, 26 élèves ont reçu une note. Ces notes sont consignées dans le tableau ci-dessous².

Élève	Note sur 20
Maariya	6
Hannah	16
Joshua	9
Tony	18
Raabia	19
Marissa	1
Meghan	11
Katrina	18
Jumail	12
Ira	10
Aastha	20
Cochise	10
Shaamil	14
Jesus	12
Simon	3
Marcus	18
Shabaan	5
Oscar	1
Nam	7
Austin	20
Saood	18
Andrew	14
Krischian	13
Scarlett	20
Jawhar	14
Dominik	15

Si l’on veut se faire une opinion sur le travail de cette classe, par exemple lors d’un conseil de classe, cette liste est trop compliquée. Pour en obtenir une vision globale il faut la synthétiser. Une première façon de faire est d’ordonner les données. Comme ceci³ :

Élève	Note sur 20
Aastha	20
Austin	20
Scarlett	20
Raabia	19
Tony	18
Katrina	18
Marcus	18
Saood	18
Hannah	16
Dominik	15
Shaamil	14
Andrew	14
Jawhar	14
Krischian	13
Jumail	12
Jesus	12
Meghan	11
Ira	10
Cochise	10
Joshua	9
Nam	7
Maariya	6
Shabaan	5
Simon	3
Marissa	1
Oscar	1

On voit ainsi clairement que 10 élèves ont 15/20 ou plus et uniquement 4 élèves ont 5/20 ou moins, il y a donc 12 élèves qui ont reçu une note comprise entre 5 et 15. On a déjà une première idée : 10 élèves ont des très bonnes notes et seulement 4 en ont de très mauvaises.

Une autre façon de faire, très commune, est de calculer la note moyenne : 12,5. Souvent on indique aussi la note maximale et la note minimale : 20 et 1. On peut aussi calculer la note médiane : 13,5. La note médiane signifie que la moitié des élèves ont moins de 13,5 et l’autre moitié plus. On obtient le tableau suivant :

Élève	Note sur 20
Aastha	20.0
Austin	20.0
Scarlett	20.0
Raabia	19.0
Tony	18.0
Katrina	18.0
Marcus	18.0
Saood	18.0
Hannah	16.0
Dominik	15.0
Shaamil	14.0
Andrew	14.0
Jawhar	14.0
Krischian	13.0
Jumail	12.0
Jesus	12.0
Meghan	11.0
Ira	10.0
Cochise	10.0
Joshua	9.0
Nam	7.0
Maariya	6.0
Shabaan	5.0
Simon	3.0
Marissa	1.0
Oscar	1.0
moyenne	12.5
médiane	13.5
maximum	20.0
minimum	1.0

On peut donc résumer les notes de cette classe en disant :

les notes vont de 1 à 20,
Sur 26 élèves, 10 ont plus de 15/20 et 4 moins de 5/20,
la note moyenne est d’à peu près 12,5,
la moitié des élèves a eu moins de 13,5 (note médiane) et l’autre moitié plus de 13,5.

On a ainsi une idée de la classe et on peut interpréter ces éléments en disant que c’est une classe qui a plutôt reçu de bonnes notes.

Imaginons maintenant qu’il y ait plusieurs notes par élèves comme ceci :

Élève	Math	Français	SVT	Musique	Sport
Maariya	6	2	17	13	6
Hannah	16	9	3	10	2
Joshua	9	11	6	14	5
Tony	18	8	8	14	3
Raabia	19	5	20	5	7
Marissa	1	6	20	20	15
Meghan	11	12	11	17	11
Katrina	18	10	7	18	6
Jumail	12	19	14	6	16
Ira	10	6	13	19	17
Aastha	20	16	1	10	17
Cochise	10	18	16	4	7
Shaamil	14	16	8	10	16
Jesus	12	18	3	7	4
Simon	3	9	12	16	10
Marcus	18	2	9	19	8
Shabaan	5	12	9	6	15
Oscar	1	15	19	12	4
Nam	7	18	14	10	12
Austin	20	1	16	4	2
Saood	18	13	8	4	10
Andrew	14	13	15	17	10
Krischian	13	2	14	18	15
Scarlett	20	9	6	10	20
Jawhar	14	7	12	9	11
Dominik	15	5	2	15	8

On peut ordonner les données comme précédemment mais avec un degré de complexité plus grand : quelle discipline doit-on choisir comme premier critère de classement ? Et comme deuxième critère ? C’est un problème assez difficile que nous n’allons pas traiter.

Si l’on veut se faire une opinion sur les notes reçues par les élèves au cours du trimestre on peut calculer simplement la moyenne par élève ainsi :

Élève	Moyennes
Maariya	8.8
Hannah	8
Joshua	9
Tony	10.2
Raabia	11.2
Marissa	12.4
Meghan	12.4
Katrina	11.8
Jumail	13.4
Ira	13
Aastha	12.8
Cochise	11
Shaamil	12.8
Jesus	8.8
Simon	10
Marcus	11.2
Shabaan	9.4
Oscar	10.2
Nam	12.2
Austin	8.6
Saood	10.6
Andrew	13.8
Krischian	12.4
Scarlett	13
Jawhar	10.6
Dominik	9

On peut agrandir le tableau d’origine en y faisant figurer les notes médianes, les notes maximales et minimales ainsi :

Élève	Moyennes	Médianes	Maximums	Minimums
Maariya	8.8	6	17	2
Hannah	8	9	16	2
Joshua	9	9	14	5
Tony	10.2	8	18	3
Raabia	11.2	7	20	5
Marissa	12.4	15	20	1
Meghan	12.4	11	17	11
Katrina	11.8	10	18	6
Jumail	13.4	14	19	6
Ira	13	13	19	6
Aastha	12.8	16	20	1
Cochise	11	10	18	4
Shaamil	12.8	14	16	8
Jesus	8.8	7	18	3
Simon	10	10	16	3
Marcus	11.2	9	19	2
Shabaan	9.4	9	15	5
Oscar	10.2	12	19	1
Nam	12.2	12	18	7
Austin	8.6	4	20	1
Saood	10.6	10	18	4
Andrew	13.8	14	17	10
Krischian	12.4	14	18	2
Scarlett	13	10	20	6
Jawhar	10.6	11	14	7
Dominik	9	8	15	2

On pourra ensuite ordonner le tableau selon les notes moyennes ou médianes et ainsi avoir une vision globale pour chaque élève. On pourrait faire la même chose pour chaque discipline de la même façon en effectuant un traitement sur les colonnes plutôt que sur les lignes et obtenir un tableau de synthèse dans lequel il sera facile de naviguer.

–>

Exemple 3 : prédire un évenement

Imaginons maintenant que nous disposons des chiffres de ventes d’une entreprise de bicyclettes pour les 12 mois de l’année 2016.

Mois	Jan	Fév	Mar	Avr	Mai	Juin	Juil	Aout	Sept	Oct	Nov	Déc
Ventes	40	42	44	45	48	50	52	55	58	63	68	70

Lors du premier mois 40 vélos ont été vendus, 42 le second mois, 44 le troisième, etc. Y a-t-il une forme de régularité dans ces ventes ? Est-il possible d’estimer le nombre de vente du mois de janvier 2017 ?

Pour répondre à ces questions on va représenter graphiquement ces valeurs ainsi :

On appelle cette figure un nuage de points. Remarquez que ce nuage de points est assez régulier, ce qui suggère une relation entre les unités vendues et le temps qui s’écoule. On peut dire qu’il y a de plus en plus de ventes chaque mois mais il n’y en a pas beaucoup plus chaque mois. On voit que chaque mois il y a à peu près autant de ventes supplémentaires que le mois précédent : les points sont plutôt alignés. On peut en conclure qu’il existe un lien statistique, une corrélation entre les deux variables représentées sur le graphiques.

C’est pourquoi une droite serait un bon résumé de ce nuage de points. On va donc calculer l’équation de la droite qui “passe” au plus près de chacun des points et on va la représenter en rouge sur le graphique ci-dessous.

Cette droite est un modèle statistique[^reg]. D’abord elle résume notre nuage de points : elle est plus simple. Ensuite elle le formalise, c’est à dire qu’elle définit par son équation, la relation que l’on a constaté à l’oeil nu entre le nombre de vélos vendus et chacun des mois de l’année :

\[
y = 2,75x + 35 \]

On va interpréter cette équation en disant : pour chaque augmentation de 1 du nombre de mois, il y a une augmentation de 2,75 unités du nombre de ventes. Autrement dit chaque mois il y a 2,75 vélos vendus supplémentaires.

Grâce à cette équation on peut aussi estimer le nombre de vélos vendus pour des mois dont on ne connait pas les valeurs comme pour le 13ème mois grâce à un calcul simple :

\[
2,75 × 13 + 35 = 70,75 \]

Cette méthode est nommée regression linéaire simple. Pour plus de détails je vous invite à consulter le manuel intitulé Statistique descriptive⁴ mais il en existe un grand nombre.

–>

Une des limitations majeure de la méthode réside dans le fait que la forme du nuage de points doit présenter des régularités. La forme du nuage de points doit évoquer une relation linéaire entre les deux variables.

Exercice 1 : calculer moyenne, maximum, minimum et mediane dans un tableur

Voici un tutoriel simple et didactique montrant les éléments de base d’utilisation d’un tableur : https://www.youtube.com/watch?v=mVEKO4zzHXI

Voici un tutoriel très court montrant comment calculer trois moyennes dans un tableur comme Calc d’Open Office :

Voici les notes reçues par les élèves dans une classe :

Élève	Physique	Anglais	Histoire
Maariya	15	3	20
Hannah	19	7	5
Joshua	14	4	6
Tony	18	7	6
Raabia	20	2	12
Marissa	17	12	19
Meghan	10	2	3
Katrina	5	8	6
Jumail	18	20	4
Ira	3	1	15
Aastha	15	16	10
Cochise	6	7	12
Shaamil	7	16	4
Jesus	5	3	11
Simon	11	10	11
Marcus	2	15	4
Shabaan	12	17	3
Oscar	10	9	4
Nam	19	4	16
Austin	13	8	3
Saood	13	18	20
Andrew	2	1	17
Krischian	17	9	13
Scarlett	1	14	20
Jawhar	1	18	10
Dominik	1	15	19

⊕Devinerez-vous comment calculer maximums, minimums et médiane ?

1 - Calculez les notes moyennes, maximums, minimums et médianes pour chaque élève.
2 - Calculez les notes moyennes, maximums, minimums et médianes pour chaque discipline.

Envoyez le fichier dans lequel figure le tableau complet à Mehdi.Khaneboubi@u-cergy.fr avant la réunion synchrone du 16 novembre.

Exercice 2 : calculer l’équation d’une droite de regression avec un tableur

Il existe un très grand nombre de ressources sur le web et en bibliothèque montrant comment calculer la droite de régression d’un nuage de points dont celle-ci qui est très courte et très efficace avec Excel :

La même chose avec OpenOffice Calc :

Voici un tableau qui indique l’âge et la taille d’enfants :

Âge en mois	Tailles moyennes en cm
0	48
1	55
3	63
6	64
9	73
12	77
18	85

1 - Représentez ces points dans un tableur.
2 - Calculez l’équation de la droite de regression.
3 - De combien grandit un de ces enfants chaque mois ?
4 - D’après vous, quelle taille ferait un enfant de 22 mois ?

Envoyez le fichier contenant ces éléments par email avant la connexion du 16 novembre.

Exercice 3 (facultatif)

En vous aidant du tutoriel ci-dessous faire l’exercice 1 avec R⁵. Dans ce cas vous devez envoyer par email les commandes que vous avez entrées dans la consôle.

Premiers contacts avec R

Lancez R sur votre ordinateur à partir de son icone qui doit ressembler à ceci :

Vous devez ensuite voir s’afficher dans la console un texte qui ressemble à celui-ci :

R version 3.4.2 (2017-09-28) – “Short Summer” Copyright (C) 2017 The R Foundation for Statistical Computing Platform: x86_64-apple-darwin15.6.0 (64-bit)

R est un logiciel libre livré sans AUCUNE GARANTIE. Vous pouvez le redistribuer sous certaines conditions. Tapez ‘license()’ ou ‘licence()’ pour plus de détails.

R est un projet collaboratif avec de nombreux contributeurs. Tapez ‘contributors()’ pour plus d’information et ‘citation()’ pour la façon de le citer dans les publications.

Tapez ‘demo()’ pour des démonstrations, ‘help()’ pour l’aide en ligne ou ‘help.start()’ pour obtenir l’aide au format HTML. Tapez ‘q()’ pour quitter R.

Si c’est bien le cas vous êtes prêt à commencer.

R est un langage de programmation qui est dit “orienté objet”. En pratique cela signifie que l’on peut attribuer à un objet (une lettre, un mot, une phrase) une ou plusieurs valeurs (numériques ou non), algorithmes, graphiques, tableaux, etc… Par exemple, pour donner la valeur 12 à un objet x il suffit de saisir dans la console :

x<-12

puis de taper la touche “entrée”. Pour constater que la valeur 12 a bien été assignée à l’objet x, il suffit de taper :

x

puis la touche “entrée”. R répondra :

[1] 12

Dans cette réponse remarquez que R renvoi le nombre de ligne qui figure dans la réponses avec cette indiquation : “[1]”

Pour qu’un objet n représente la distribution : 1,8,10,7,4,3 tapez :

n<-c(1, 8, 10, 7, 4, 3)

Comme précédemment on peut ensuite voir le contenu de l’objet n en tapant “n” puis entrée :

n

R répond :

[1] 1 8 10 7 4 3

La fonction c() sert à entrer des données dans un objet. Cette fonction sera utile pour des données courtes et simples. Dans la suite de ce cours, lorsque nous manipulerons des données volumineuses nous les importerons autrement. Maintenant que l’on a créé un objet dans lequel figure une distribution de nombres, nous pouvons appliquer différentes opérations dessus.

⊕Le séparateur décimal est le point « . ». On rentrera donc toujours les données décimales avec un « . » en guise de « , ». La virgule a une autre fonction comme lorsque une distribution est entrée ainsi xi<-c(10.5, 11, 12)

Par exemple on peut multiplier chacun de ces éléments par 2 :

n*2

[1] 2 16 20 14 8 6

ou bien ajouter 1 à chacun de ces éléments :

n+1

[1] 2 9 11 8 5 4

bref, cela permet d’automatiser des calculs.

⊕Les opérations ordinaires s’utilisent grâce aux opérateurs suivants : * pour multiplier, + pour ajouter, - pour soustraire, / pour diviser, ^2 pour élever au carré, ^5 pour élever à la puissance 5, sqrt(9) fait la racine carré de 9

Pour calculer une moyenne nous devons calculer la somme de la distribution. La fonction qui permet de calculer la somme d’un objet est sum() :

sum(n)

[1] 33

Notre objet n contient 6 éléments sa moyenne est donc :

33/6

[1] 5.5

ou bien :

sum(n)/6

[1] 5.5

⊕La touche « flèche vers le haut » de votre clavier affiche la commande que l’on vient de saisir et permet de ne pas ressaisir la totalité d’une commande lorsque l’on a fait une erreur.

Dans R il existe des fonctions pour presque toutes les opérations mathématiques et statistiques, on pourrait donc calculer directement la moyenne de l’objet n en utilisant la commande mean() :

mean(n)

[1] 5.5

Cibois, P. (2002). La bonne volonté scolaire. Expliquer la carrière scolaire d’élèves issus de l’immigration. In P. Blanchard & T. Ribémont (Éd.), Méthodes et outils des sciences sociales. Innovation et renouvellement (p. 111‑126). Paris: L’Harmattan. http://cibois.pagesperso-orange.fr/BonneVolonteScolaire.pdf“)↩
Les prénoms et les notes ont été générés aléatoirement.↩
Il s’agit ici de donner un exemple simple de traitement de données en aucun cas il s’agit de conseils pédagogiques.↩
Monino, J.-L., Kosianski, J.-M., & Cornu, F. L. (2007). Statistique descriptive (3e édition). Dunod.↩
On a déjà parlé de R dans le séminaire de recherche portant sur les méthodes quantitatives EC 321. Vous avez déjà du l’installer à cette occasion.↩

Objectifs généraux du travail statistique : résumer, révéler, prédire

Mehdi.Khaneboubi@u-cergy.fr

16 novembre 2017

Exemple 1 : révéler un phénomène peu visible

Exemple 2 : résumer des informations

Exemple 3 : prédire un évenement

Exercice 1 : calculer moyenne, maximum, minimum et mediane dans un tableur

Exercice 2 : calculer l’équation d’une droite de regression avec un tableur

Exercice 3 (facultatif)

Premiers contacts avec R