Comment gérer les données manquantes lors des études de cas ?
1. États des lieux d'une question préoccupante...
Les études de cas, comme nous pouvons le constater à travers la partie de ce site qui leur est dédiée, permettent d'étudier de façon bien précise des sujets importants. Cependant, la complexité de ce type d'études n'est pas toujours visible et nombre de chercheurs tombent dans des pièges difficilement évitables. Parmi ces pièges figurent les données ou "cases" manquantes. Dans l'article sur le traitement des données extrêmes, il a été question d'élimination des valeurs individuelles obtenues dans certains essais car, selon certains calculs, dévient de la distribution des réponses données par l'individu. Bien que cette élimination influence la moyenne d'un individu dans la condition concernée, elle n'a pas, en soi, un impact très important sur les analyses statistiques suivantes s'il s'agit d'une étude de groupe car elle n'empêche pas le calcul d'une moyenne individuelle. Elle a, cependant, un impact majeur lors des études des cas qui utilisent les essais comme variable aléatoire.
Considerons l'exemple suivant. Le cas Greg a participé dans un test informatisé de jugement spatial. Il devait juger si un point rouge se trouvait à une distance plus petite ou plus grande d'une croix qu'un item bleu, en appuyant sur des boutons prédéfinis. Ce point pouvait donc être soit (a) à une distance plus petite, soit (b) à une distance plus grande. Pour chaque cas de figure, dix essais ont été présentés et pour chaque essai l'ordinateur enregistrait les temps de réponse (TR). 2 valeurs ont été exclues car elles étaient déviantes, toutes les deux issues de la condition "distance petite". Les résultats obtenus sont les suivants (exprimés en millisecondes):
..............Distance
.................Petite..... Grande
Essai 1..... 500..... 380
Essai 2..... 650..... 490
Essai 3..... 476..... 500
Essai 4..... 823..... 349
Essai 5..... XXX..... 440
Essai 6..... 806..... 597
Essai 7..... 799..... 397
Essai 8..... XXX..... 576
Essai 9..... 498..... 501
Essai 10... 687..... 382
Moyenne...654..... 461
L'élimination des 2 valeurs, qui pourrait être aggravée par l'élimination des essais où l'individu a commis une erreur, nous permet d'obtenir deux moyennes plausibles et bien représentatives à l'égard des valeurs individuelles obtenues. Ce que nous souhaitons, bien entedu, est de comparer les performances obtenues dans les deux conditions. Est-ce que le cas Greg juge aussi facilement les grandes que les petites distances? Une analyse peut-être menée dans ce cas avec les essais comme variable aléatoire (voir "(B) Plans complexes avec variables numériques" de l'article Aspects Statistiques 3). Mais, afin d'effectuer une analyse correcte, aucune donnée ne doit manquer ! En effet, ces analyses consistent en la comparaisons des valeurs obtenues dans chacune des conditions pour chaque essai. Comment peut-on resoudre ce problème ?
Malheureusement, il n'y a pas de solution idéale. Il existe 2 solutions, globalement peu satisfaisantes. Cependant, l'une est optimale. Considérons, donc, chacune de ces solutions séparément.
2. Remplacement des données manquantes par la nouvelle moyenne
Beaucoup de chercheurs, après avoir éliminé les valeurs déviantes et les essais où une erreur a été commise, calculent la nouvelle moyenne basée sur les essais restants, et remplacent les valeurs manquantes par cette moyenne. La logique est que cette moyenne est représentative de la performance de l'individu dans la condition concernée.
Cet argument est, bien entendu, intéressant et plausible. Cependant, il existe un risque majeur. S'il n'y a qu'une seule, voire deux valeurs manquantes, cette méthode ne pose pas de problème réel (à condition qu'il y ait minimum 20 essais par condition, de façon à ramener le pourcentage de valeurs remplacées à 10% maximum). Si, en revanche, il en manque plus que 2 valeurs, nous risquons de réduire la variance (la variation du sujet) en introduisant cette même valeur moyenne plusieurs fois. En d'autres termes, nous conservons la nouvelle moyenne, mais nous changeons considérablement l'écart-type, et par là, les analyses consécutives. Cette critique s'adresse, bien entendu, à tous les cas de figure de remplacement des valeurs manquantes par une seule valeur (qu'elle soit la moyenne, la médiane, etc.). Il vaut donc mieux éviter cette méthode...
3. Remplacement des données manquantes par une valeur tirée au hasard mais représentative des performances du sujet
Il existe une autre méthode, meilleure que la précédente, qui permet de remplacer les valeurs manquantes, mais peu de chercheurs l'utilisent. Il s'agit de calculer la nouvelle moyenne et le nouvel écart-type, puis de tirer au hasard des valeurs de la fourchette non-déviante, c'est-à-dire, moyenne+/- 2 écart-types. Cette fourchette contient 95% des valeurs manifestés par l'individu. Si par exemple la moyenne est de 654 et l'écart-type de 35, la fourchette de laquelle nous pouvons extraire les nouvelles valeurs va de 584 à 724. En tirant au hasard des valeurs issues de cette fourchette, nous assurons qu'elles correspondent au profile de l'individu tout en prenant en compte sa variabilité.
La logique est que la fourchette basée sur la moyenne et les deux écart-types représente les performances non-déviantes de l'individu dans la condition concernée. Cette méthode permet de réduire les effets de ces nouvelles valeurs sur la variance. Cette méthode n'est pas sans risque non plus, car elle peut changer légèrement la moyenne. Il est, pourtant, important de noter que c'est la variance qui est essentielle pour les analyses complexes basées sur les essais. Enfin, il est indispensable de noter que ce type de remplacement ne doit pas excéder 20% des essais.
4. Peut-on éviter ce genre de problème ?
Si nous voulons éviter ce problème vraiment préoccupant, il faut simplement être prévoyant. Il faut prévoir que l'individu testé va commettre des erreurs et va manifester certaines valeurs déviantes, et que nous serons obligés d'éliminer ces essais. Il faut aussi prévoir que le pourcentage total de ce type d'éliminations se situe entre 20% et 30%. Si ce pourcentage est plus grand, nos données sont plutôt inexploitables.
Peu importe la façon dont vous présentez vos tests, prévoyez un certain nombre d'essais supplémentaires (disons 20% à 30% d'essais de plus par condition) que vous considérerez d'avance comme essais de remplacement. Si l'individu testé ne manifeste aucune valeur déviante et ne commet aucune erreur, jetez les résultats obtenus à ces essais. Si en revanche, des erreurs ont eu lieu et/ou des valeurs déviantes ont été observées, alors remplacez les données manquantes par les essais de remplacement (dans l'ordre qu'ils ont été obtenus, bien entendu). C'est une façon très simple de vous évitez de longs moments de réflexion et de désespoir....
ajouter un commentaire commentaires (0) créer un trackback recommander

