La théorie des tests

Pour quantifier l’intelligence, on utilise souvent des tests. Ces tests sont fabriqués de manière rigoureuse afin de répondre à des critères stricts.

1. Qu’est-ce qu’un test ?

Un test psychométrique est une épreuve à laquelle le sujet est soumis dans des conditions strictes (on parle de « conditions standardisées »). Il doit fournir une réponse de manière orale, écrite ou psychomotrice. Sa performance sera ensuite comparée aux autres personnes du même âge, à partir d’un échantillon de référence.

 

2. Propriétés d’un test

 

Huteau et Lautrey (2006) précisent les quatre propriétés suivantes : « Un test est un dispositif d’observation des individus qui présentent quatre propriétés :
- il est standardisé ;
- il permet de situer la conduite de chaque sujet dans un groupe de référence ;
- le degré de précision des mesures qu’il permet est évalué (fidélité) ;
- la signification théorique ou pratique de ces mesures est précisée (validité).
»

2.1 La standardisation

La standardisation désigne les procédures mises en place pour rendre la passation la plus neutre possible et ainsi comparer les individus entre eux. Elle concerne la situation d’observation, les consignes ainsi que la cotation. Ainsi, dans le manuel d’un test, sont explicités clairement comment exprimer les consignes, comment coter et comment observer le comportement de l’individu.

Ainsi, une telle « standardisation a pour fonction unique de rendre l’évaluation objective, c’est-à-dire éviter que le constat des différences entre les individus soit influencé par la subjectivité de l’observateur . (…) (Sans elle), on ne saurait plus ce qui, dans la conduite d’un sujet, est attribuable au sujet lui-même et ce qui est attribuable à celui qui observe, et par voie de conséquence, les observations recueillies sont peu utilisables. » (Huteau et Lautrey, 2006)

 

2.2 L’étalonnage

Un même test est partagé par une grande tranche d’âge. Dans ce cas, la performance d’un sujet en score brut ne nous donne peu d’informations sur son niveau en rapport aux autres personnes du même groupe d’âge. En effet, le score brut ne permet pas de comparer la performance d’un sujet à celle des autres sujets du même groupe. Pour cela, il faut transformer le score brut en note étalonnée par le biais d’une opération dite étalonnage.
Il existe deux catégories d’étalonnage :

 

a/ Les quantilages

Dans les quantilages, les catégories sont créées en regroupant à chaque fois le même effectif. Il suffit de regrouper les scores bruts de l’échantillon de manière à obtenir des catégories de même effectif. Le quantile est la limite entre deux catégories. Le nombre de catégories généralement créées est 4 (on parle alors de quartile), 10 (on parle de décile) ou 100 (on parle de centile ou percentile).

Dire qu’un sujet se trouve dans le 98ème percentile signifie qu’il se situe dans un groupe composé de 1 % des sujets (comme chacun des autres groupes) et que 2 % des sujets ont des scores supérieurs à ce groupe et que 98 % ont des scores inférieurs.

 

b/ L’échelle normalisée (la loi normale)

Les effectifs des catégories d’une échelle normalisée sont établis à partir des propriétés de la distribution théorique de Laplace-Gauss. On l’appelle aussi « loi normale » et elle donne naissance à « la courbe normale » ou « courbe de Gauss » ou encore « courbe en cloche ». C’est un modèle probabiliste utilisé pour décrire de nombreux phénomènes observés dans la pratique. Sa représentation graphique est une densité de probabilité.  On est ici dans le domaine de la théorie mathématique. Ce qui signifie que cette théorie n’a jamais été validée.

Concrètement, cette loi dit que plus l’effectif augmente (plus on mesure un événement), plus on a de chance d’observer un certain événement. Par exemple, si on mesure la taille de 10 personnes, on aura une dizaine de mesures différentes dont certaines seront proches. Mais si on augmente l’effectif, on observe que la taille qui est le plus souvent mesurée (l’événement) a tendance à se regrouper autour d’une moyenne. Autour de cette moyenne, il y a de moins en moins de personnes grandes et encore moins très grandes, et réciproquement pour les personnes petites. La distribution de la taille en fonction de l’effectif a ainsi une forme en cloche.

 

Courbe de Gausse

Courbe de Gauss

 

Dans notre cas, plus on mesure des performances à un test auprès de personnes différentes (plus l’effectif sur qui on mesure est important), plus on a de chances d’observer une performance donnée. Cette performance donnée, c’est le niveau d’intelligence qui est le plus répandu dans la population. C’est ce qu’on appelle la moyenne.

Ce qui est vrai pour la taille, l’est moins pour tout ce qui touche aux sciences humaines, notamment à cause de nombreux facteurs psychologiques qui peuvent intervenir. Si l’on souhaite tout de même garder une échelle normalisée (pour des raisons de commodité), dans ce cas, on réalise une opération qui s’appelle une normalisation.
Pour normaliser les performances, on regroupe celles-ci dans des catégories dont la distribution se rapproche de celle de Laplace-Gauss. Par exemple, si on choisit cinq catégories, la première aurait 6,7 % des sujets qui réussiraient le mieux, la seconde aurait 24,2 % des sujets, la troisième catégorie, où l’effectif est le plus nombreux, regrouperait 38,2 % des sujets, et symétriquement, la quatrième 24,2 % et la cinquième 6,7 % des moins performants.

 

Historique correspondant à la distribution de Laplace-Gauss

Historique correspondant à la distribution de Laplace-Gauss

 

La vitesse à laquelle on observe de moins en moins d’effectif est ce qu’on appelle l’écart-type; on parle aussi de dispersion. Dans le cas présenté ci-dessus, 6,7 % de la population se situent à au-delà de 1,5 écarts type, 24,2 % de la population se situent entre 0,5 et 1,5 écarts type, 38,2 % se situent entre -0,5 et +0,5 écart type autour de la moyenne etc.

 

La distribution théorique de Laplace-Gauss et ses écarts type

La distribution théorique de Laplace-Gauss et ses écarts type

 

Ou avec d’autres valeurs d’écart type :

- 68% de la population se trouvent entre -1 et +1 écart-type de la moyenne
- 95% de la population se trouvent entre -2 et +2 écarts-type de la moyenne
- 99,7% de la population se trouvent entre -3 et +3 écarts-type de la moyenne.

En termes de Q.I., soit en psychométrie, des valeurs d’écart type précis ont été retenus, et ce, afin de conserver la popularité du sigle instauré par Stern. La moyenne a été fixée à 100 et l’écart-type à 15. Ainsi définie, une distribution normalisée donne la représentation suivante :

Loi normale ou de Gauss avec norme à 100 et écart type à 15

Loi normale ou de Gauss avec norme à 100 et écart type à 15

 

Cependant, il faut garder en tête que cette courbe est une distribution purement théorique car jamais réellement observée et que de nombreux les arrangements mathématiques ont été réalisés pour lisser cette courbe.

 

2.3 Les erreurs de mesure

Malgré les précautions prises pour standardiser les épreuves et ainsi enlever toute subjectivité, d’autres erreurs de mesure existent toujours. Elles peuvent provenir du moment de passation ou du dispositif, c’est-à-dire du test en lui-même.

Deux types d’erreurs de mesure peuvent être évalués :

a/ La stabilité

Lors d’un test, un sujet peut ne pas être en forme physiquement ou préoccupé par des problèmes personnels, alors qu’à un autre moment il aurait été plus investi. Ceci peut se ressentir dans ses performances. Toute mesure est donc entachée d’une erreur aléatoire qui tient à ce facteur temps. On dit qu’elle n’est pas parfaitement fidèle ou qu’elle manque de stabilité.

Pour évaluer la fidélité ou stabilité d’un test, lors des pré-tests, on l’administre à deux reprises à un groupe de sujets, et on calcule un coefficient de corrélation entre les deux scores. Si celui-ci est élevé (c’est-à-dire proche de 1), le test est alors considéré comme stable, et on peut dire que ce qu’on y mesure est faiblement entaché d’erreur dépendante du moment de passation. Au contraire, si ce coefficient est faible (proche de zéro), la mesure n’est pas stable, et on ne peut donc caractériser le sujet de façon fiable.

b/ L’équivalence

Lors d’un test de vocabulaire par exemple, il se peut qu’un sujet ne connaisse pas un terme alors qu’un autre de même difficulté, de même fréquence dans la langue, de même degré d’abstraction serait connu du sujet. Ainsi, l’équivalence se demande « dans quelle mesure le score d’un sujet n’est pas affecté par le caractère spécifique des situations problèmes qui lui sont proposées » c’est-à-dire des items choisis  (Huteau et Lautrey, 2006).

Pour cela, on construit deux formes parallèles d’un même test que l’on administre à un groupe de sujets. Le coefficient de corrélation entre les deux scores obtenus aux deux formes du test est le coefficient d’équivalence. Si celui-ci est élevé, les erreurs tenant au choix des items sont négligeables. Inversement, s’il est faible, le score du sujet varie selon les items ; ce qui signifie que les items ont un caractère spécifique, imprévu et non expliqué ; l’utilisation de l’épreuve est alors ambiguë.

 

2.4 La validité

On peut se demander quel est l’intérêt pratique d’un test et la signification de ce qu’il mesure.

a/ La validité empirique

Les tests sont principalement utilisés à visée diagnostique ou pronostique. Ils seront considérés comme valides s’ils permettent effectivement d’établir des diagnostics ou des pronostics qui se révéleront exacts.

La validité diagnostique apparaît lors de la pratique clinique.

La validité pronostique permet de juger de la valeur prédictive d’un test. Par exemple, pour un test possédant un coefficient de validité pronostique élevé, des scores élevés pourront prédire la réussite au niveau scolaire, au niveau professionnel…

b/ La validité théorique

Un test a une validité théorique élevée s’il mesure bien ce qu’il est censé mesurer.

La validité théorique des tests d’intelligence peut être définie à deux niveaux :

- Au niveau structural

Dans ce billet, nous avons parlé de la théorie de Cattell-Horn-Caroll où apparaissent huit grands facteurs (intelligence cristallisée, intelligence fluide…). Ces capacités sont corrélées entre elles et une capacité cognitive générale appelée facteur g, proche de l’intelligence fluide, apparaît.

Dans une perspective structurale, la validité théorique s’attachera à identifier le facteur incriminé dans le test, puis à prouver que celui-ci est saturé en facteur g.

- Au niveau fonctionnel

Ce niveau s’attachera à décrire les processus mis en jeu pour résoudre la situation problème d’un test, puis à montrer que ceux-ci sont généraux dans d’autres types de problèmes équivalents.

 

Conclusion

Nous voyons donc que créer des tests et une science très complexe qui requiert à la fois des conditions rigoureuses et de nombreuses approximations (étalonnage…).

 

Sources

 

Huteau M. & Lautrey J. (2006) Les tests d’intelligence. Ed La découverte, Paris.