Introduction à l'analyse de données quantitatives Deuxième semestre 2011-2012 - Mehdi Khaneboubi Université de Cergy-Pontoise

Le test de khi deux de contingence : à quoi ça sert ?

Le test de khi deux est un test statistique qui va permettre de se prononcer sur le lien entre deux variables qualitatives. Comment affirmer que les deux variables de notre distribution ne sont pas indépendante ? Autrement dit comment savoir si deux variables n'ont aucune relation statistique entre elles ?

ExempleDans quelles disciplines des enseignants font-ils faire des recherches sur internet aux élèves ?

Reprenons notre exemple du chapitre précédent qui concernait la recherche sur internet. En colonnes figure le nombre de réponses à la question "Faites-vous faire des recherches sur internet à vos élèves ?" posée à 179 enseignants de collèges en France.

En examinant ce tableau on voit que sur les 128 enseignants de disciplines dominantes, 68 répondent faire utiliser internet à leurs élèves, tandis que 37 sur 51 enseignants de disciplines secondaires répondent la même chose. On voit aussi que sur les 105 enseignant déclarant faire faire des recherches sur internet à leurs élèves 68 enseignent des disciplines dominantes.

Comment savoir si il y a, dans cette distribution, un lien statistique entre ces deux variables ? Les enseignants appartenant aux disciplines dominantes font-ils significativement plus utiliser internet à leurs élèves que les enseignants des disciplines secondaires ? Le test de khi deux va nous permettre de nous prononcer sur la répartition hasardeuse ou non de cette distribution et donc fournir un élément de réponse à ces questions.

ExempleComparer les effets de deux médicaments

Reprenons notre exemple des médicaments. vu au chapitre précédent.

Comment savoir si cette distribution n'est pas le produit du hasard ? Le test de khi deux va nous permettre de répondre à la question : Y a-t-il un lien statistique entre le nombre de guéris et le type de médicament pris par les malades ? Autrement dit, le test de khi deux appliqué à ce tableau va nous permettre de savoir si le médicament cher à guérit significativement plus de patients que le médicament bon marché.

Fondamental{lien, corrélation, dépendance} vs {causalité} ?

Il est capital de ne pas confondre la corrélation, le lien, la dépendance statistique entre deux variables et la causalité.

  • Exemple : il existe une corrélation entre le nombres de clubs de jeu d'échecs et le nombre de lieux de cultes dans les villes du monde. Cela signifie-t-il qu'il existe un lien de causalité entre ces deux éléments ? Les pratiques religieuses sont elles liées à la pratique du jeu d'échec ? Les joueurs d'échecs sont-ils particulièrement religieux ? Non. Plus une ville est grande, plus il y a de clubs de jeu d'échecs et plus il y a aussi de lieux de cultes. Ce lien statistique n'est pas un lien de causalité.

En sciences humaines, il est très rare d'identifier statistiquement des liens de causalités aussi franc que dans les sciences de la nature. Par conséquent il faut être très prudent dans l'analyse de ces liens et s'abstenir le plus souvent d'expliquer une corrélation par une relation de causalité.

Le test du khi deux permet d'établir à quel seuil de probabilité on peut rejeter l'hypothèse d'indépendance entre des effectifs observés et des effectifs théoriques.

DéfinitionQu'est ce que l'indépendance ?

Une distribution constituée par deux variables dans un tableau de contingence est dite indépendante si la répartition des effectifs est équiprobable, c'est-à-dire que la répartition des effectifs est similaire à celle produite par le hasard.

Le principe du test de khi-deux de contingence est de calculer un indicateur, l'indicateur de Khi-deux, en comparant le tableau orignal (celui des effectifs observés) a un tableau pour lequel la distribution est équiprobable (le tableau des effectifs théoriques ou tableau d'indépendance). Plus l'indicateur de khi deux est proche de zéro, plus le tableau des effectifs théoriques et celui des effectifs observées se confondent.

FondamentalConditions d'application du test

Un test de khi deux s'applique uniquement sur des tableaux de contingence :

- ayant au moins 2 lignes et 2 colonnes,

- contenant des valeurs positives entières,

- ayant au moins 60 observations au total,

- ayant au minimum 5 observations par cases du tableau et/ou dans le tableau des effectifs théoriques.

Remarque

Lorsque toutes les cases du tableau n'ont pas plus de 5 observations par cases, il est conseillé d'effectuer des regroupement de modalités lorsque c'est possible.

Voyons maintenant comment le mettre en œuvre avec le tableau portant sur les usages d'internet par des élèves.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer Mehdi Khaneboubi 2011-2012 Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'IdentiqueRéalisé avec Scenari (nouvelle fenêtre)