La semaine dernière on a vu qu’il y a deux types de variable. Les variables qualitatives comme les questions à choix unique ou les échelles de likert et les variables quantitatives qui dénombrent ou mesurent. Aujourd’hui on va voir les principes les plus importants à respecter ou à rechercher lorsque l’on fait un graphique puis, en détail comment représenter des données avec R.

Deux types de représentation

Il existe deux situations de production de graphiques très différentes: lors de l’analyse des données et lors de leur publication.

Lorsque l’on fouille les données on produit des graphiques et des représentations. Dans cette situation les graphiques ne sont pas produits pour être comuniqués mais seulement pour être consultés de façon informelle. Dans ce cas il y a peu d’exigence de forme, il reste des exigences de fidélité aux données et de rigueur. Dans cette situation on s’autorise des représentations complexes et récentes : tout est permis. Souvent ces représentations sont difficiles à lire. Il faut garder à l’esprit que les publier nécéssitera un travail conséquent d’explication autour de la représentation.

La deuxième situation est de représenter des données pour présenter des résultats, ou communiquer des informations. Dans ce cas on fait le plus souvent appel à des graphiques simples, lisibles facilement. En outre, pour favoriser la compréhension de la représentation il y a un certain nombre d’éléments éditoriaux qui doivent figurer sur chaque illustration :

Les erreures à éviter

Les questions d’échelles sont cruciales1. Deux graphiques peuvent par exemple représenter différement les mêmes données, voici un exemple avec deux diagrammes en barres présentant des données sur le prix de l’immobilier au Royaume-Unis :

La même chose avec un nuage de points et la température corporelle humaine :

Poussée à l’absurde voici une représentation des données sur les risques d’attaques d’ursidés :