Introduction à l'analyse de données quantitatives Deuxième semestre 2011-2012 - Mehdi Khaneboubi Université de Cergy-Pontoise

Le test de khi-deux pas à pas

MéthodeLes grandes étapes d'application du test de khi-deux de contingence

A - Identifier si le test de khi-deux est applicable sur le tableau.

B - Si oui, formuler l'hypothèse d'indépendance : "On fait l'hypothèse qu'il y a une relation d'indépendance entre les lignes et les colonnes du tableau".

C - Calculer l'indicateur de khi-deux en calculant le tableau des effectifs théorique et le tableau des écarts à l'indépendance.

D - Confronter l'indicateur de khi-deux à la table de loi de khi-deux ce qui nous permet d'accepter ou de rejeter l'hypothèse d'indépendance.

E - Interpréter les résultats du test en examinant le tableau d'origine (ou tableau des effectifs observés), le tableau des effectifs théoriques et le tableau des écarts à l'indépendance

Voici notre notre tableau de départ intitulé "Faites-vous faire des recherches sur internet à vos élèves ?". L'effectif total est de 179 observations, chaque case du tableau a plus de 5 observations, les conditions d'applications du test de khi deux de contingence sont donc réunis.

Formulons l'hypothèse d'indépendance : il y a indépendance entre les lignes et les colonnes de ce tableau. Autrement dit, notre hypothèse est : "Dans cet échantillon de réponses à un questionnaire, il n'y a pas de lien statistique significatif entre l'utilisation d'internet par les élèves et la discipline enseignée".

T

1) Ajoutons à ce tableau une ligne et une colonne de totaux. Appelons ce tableau .

La ligne et la colonne de totaux sont appelées marges du tableau.

T0

2) Calculons le tableau des effectifs théoriques ou tableau d'indépendance que l'on appelle . Ce calcul s'effectue grâce aux marges du tableau.

Méthode

On calcule l'effectif théorique de chaque case du tableau en multipliant les totaux qui lui correspondent et en divisant par l'effectif total.

Ainsi pour la première case du tableau on multiplie le nombre total d'enseignants appartenant à une discipline dominante ( ) par le nombre total de réponses "oui" ( ) divisé par l'effectif total ( ) :

Pour la deuxième case du tableau (celle des enseignants appartenant à une discipline dominante ayant répondu non) on fait la même chose :

et ainsi de suite pour chaque case du tableau :

On obtient ainsi le tableau des effectifs théoriques ou tableau d'indépendance.

Le tableau des effectifs théoriques ou d'indépendance représente une distribution équiprobable c'est à dire la distribution pour laquelle il n'y a aucun lien statistique entre les deux variables. Nous allons maintenant comparer ce tableau à notre tableau d'origine.

R^2

3) Le test de khi-deux est une méthode pour comparer le tableau et le tableau . Pour ce faire on va soustraire termes à termes chaque cases du tableau et chaque case du tableau on va appeler ce nouveau tableau . En bref, on effectue l'opération termes à termes

Nous n'avons pas besoin pour le moment de la colonne et de la ligne de totaux

Une fois le calcul effectué notre tableau est le suivant :

On va ensuite élever chaque terme au carré pour obtenir le tableau

R^2/T_0

4) Enfin on divise termes à termes le tableau par le tableau des effectifs théoriques

On remet ensuite les colonnes de totaux pour obtenir le tableau suivant :

L'indicateur du khi deux est le total de ce tableau soit 5,67. On appelle ce tableau, le tableau des écarts à l'indépendance ( ).

Interprétation de l'indicateur de khi-deux

5) Consulter la table de loi de khi deux

Pour connaître le résultat du test il est nécessaire de consulter la table de loi de khi deux comme celle-ci (en ligne) ou celle-ci (hors ligne en pdf).

  • Qu'est ce c'est que cette table ?

Dans notre situation, c'est un moyen d'évaluer la "rareté" de notre indicateur de khi-deux en fonction du nombre de ligne et de colonne de notre tableau. En colonne figure une probabilité, c'est la "rareté" d'un indicateur de khi-deux (que nous venons de calculer) et c'est ce que nous cherchons à évaluer au travers du test de khi-deux d'indépendance. Pour plus de précisions sur la construction de cette table rendez-vous sur wikipédia.

En bref, cette table va nous permettre de trouver une probabilité d'acceptation de l'hypothèse d'indépendance en fonction de notre indicateur de khi deux.

  • Qu'est ce que l'hypothèse d'indépendance ?

Lorsque l'on réalise notre test, on fait l'hypothèse qu'il n'y a pas de différence significative entre le tableau et le tableau . C'est ce que l'on appelle l'hypothèse d'indépendance (parfois appelée hypothèse nulle ou ). À l'issue du test on se prononce sur l'acceptation ou le rejet de cette hypothèse d'indépendance.

Si on ne peut pas accepter l'hypothèse d'indépendance quelle est la probabilité que l'on se trompe ? La table de la loi de khi-deux nous permet d'évaluer cette probabilité.

En pratique, comme nous allons le voir plus loin, un logiciel de traitement statistique qui se respecte réalise cette opération automatiquement à notre place et fournit directement la probabilité souvent appelée p-value.

  • Comment lire cette table ?

Dans tous les cas une seule ligne de cette table nous intéresse. On doit donc d'abord identifier à quelle ligne du tableau nous devons nous reporter pour ensuite trouver le seuil de probabilité d'acceptation ou de rejet de l'hypothèse d'indépendance.

En ligne figurent les degrés de libertés (appelé sur cette table), pour calculer le nombre de degrés de liberté d'un tableau, c'est très simple, on effectue le calcul suivant :

(nombres de lignes – 1) (nombres de colonnes – 1)

Notre tableau d'origine a 2 lignes (“disciplines dominantes” et “disciplines secondaires”) et 2 colonnes (“oui” et “non”). Le nombre de degré de libertés est donc de :

On va donc s'intéresser à la première ligne de la table.

Notre indicateur de khi deux est de 5,67 il se situe donc entre la 11ème et 12ème colonnes. En effet 5,67 est compris entre 5,02 et 6,63.

Explications : On peut considérer que cette table est construite en tirant au hasard un très grand nombre de tableaux croisés et en les dénombrant. Ainsi l'intersection entre la 11ème colonne et le première ligne de la table indique que 2,5% ( ) des tableaux de contingence à un degré de liberté, ont un indicateur de khi-deux supérieur ou égal à 5,02.

En colonne figure ce que l'on peut considérer comme le seuil de probabilité d'acceptation ou de rejet de l'hypothèse d'indépendance.

Comme 5,02 correspond à 0,975 on peut dire que nous rejetons l'hypothèse d'indépendance au seuil de 0,975. Autrement dit, on rejette l'hypothèse d'indépendance entre les lignes et les colonne de notre tableau avec 97,5 % (0,975) de chances de ne pas se tromper ou bien avec 2,5% (que l'on appelle p-value=1-0,975=100%-97,5%=2,5%) de chances de se tromper.

Par convention, on rejette le plus souvent l'hypothèse d'indépendance lorsque l'on a au maximum 5% de chance de se tromper. Si le p-value avait été supérieur à 5% on aurait accepté l'hypothèse d'indépendance. Par exemple, si notre indicateur de khi-deux avait été de 2,71, ce qui correspond à une p-value=1-0,900=0,10=10% on aurait accepté l'hypothèse d'indépendance.

Conclusion du test

  • Khi deux = 5,67

  • Degrés de liberté = (nombre de lignes-1) x (nombres de colonnes -1) = 1

  • Seuil de rejet ou p-value : inférieur à 2,5 %

On rejette l'hypothèse d'indépendance entre les lignes et les colonnes du tableau avec moins de 2,5 % de chances de se tromper. On peut donc affirmer, avec moins de 2,5 % de chances de se tromper, qu'il existe, dans ce tableau, un lien entre le type de disciplines enseignées et l'utilisation d'internet par les élèves.

Complément

En examinant le tableau ou tableau des écarts à l'indépendance, on constate que l'indicateur de khi-deux est principalement le fait des enseignants de disciplines secondaires.

En effet, les deux valeurs les plus importantes du tableau des écarts à l'indépendance ( ) correspondent aux enseignants des disciplines secondaires :

- on avait 14 enseignants de cette catégorie qui ont répondus "non" dans notre tableau , on en attendaient 21 dans le tableau , et cela correspond à soit 41,9% de l'inertie de l'indicateur de khi-deux dans le tableau des écarts à l'indépendance.

- même chose pour ceux qui ont répondu "oui" avec 37 réponses observées ( ) alors que l'on en attendait presque 30 ( ) et que cela correspond à soit 29,4% de l'inertie du khi-deux dans le tableau des écarts à l'indépendance.

Remarque

En général, les tests de khi deux, et les analyses descriptives en générale, ne permettent pas de répondre à la question : pourquoi ? Il est nécessaire de confronter ces résultats a des éléments non statistiques comme le contexte de réalisation de l'enquête, des entretiens, des observations pour comprendre le phénomène...

Ce n'est pas clair ?

L'activité qui va suivre va vous permettre de comprendre comment mettre en œuvre le test de Khi-deux avec R. Vous allez constater que c'est beaucoup plus simple à faire qu'à expliquer.

Néanmoins, je vous recommande vivement la lecture de cet excellent et indispensable document de Julien Barnier consultable ici ou ici ainsi que celui-ci de Philippe Cibois qui vont éclaircir grandement ce que je viens d'exposer.

Accessoirement vous pouvez aussi consulter les sites web de ces deux auteurs ou vous trouverez beaucoup de ressources claires, utiles et adaptés aux débutants à propos du khi-deux sur le site de Philippe Cibois http://cibois.pagesperso-orange.fr/Text.html et à propos du logiciel R sur le site de Julien Barnier : http://alea.fr.eu.org/ .

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer Mehdi Khaneboubi 2011-2012 Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'IdentiqueRéalisé avec Scenari (nouvelle fenêtre)