FAQ

qualité

Question : Où trouver des références sur la qualité des outils psychométriques ?

Lorsque l’on aborde les questions de qualité des instruments psychométriques, la première idée qui vient à l’esprit est de se demander s’il existe des normes de qualité reconnues dans la communauté des psychologues.

Il existe un consensus dans la communauté scientifique (appliqué par les experts dans les revues à comité de lecture) sur ce que l’on peut attendre des différentes analyses psychométriques appliquées à un instrument de mesure. Des normes ont été publiées par les sociétés psychologiques dans plusieurs pays (par exemple celles de l’American Psychological Association). Il existe également des analyses critiques réalisées sur les outils publiées, le meilleur exemple étant le « Mental Measurement Yearbook » publié pour la première fois en 1938 aux Etats-Unis par Oskar Buros qui recense les tests et les fait expertiser par des chercheurs et praticiens du domaine. Ces analyses aujourd’hui disponibles sur le site Internet de l’organisation permettent de disposer d’une description des tests publiés accompagnée d’un commentaire critique. Bien qu’ils ne recensent que des tests en langue anglaise, c’est une source intéressante d’informations pour les psychologues français dans la mesure où de nombreux tests, parmi les plus utilisés en France, sont des adaptations de tests anglo-saxons. On dispose néanmoins, en français, d’une base de données comportant de nombreuses fiches descriptives des tests : la base de données de la testothèque de l’INETOP (Institut National d’Étude du Travail et d’Orientation Professionnelle du CNAM).

Plus récemment, l’EFPA (European Federation of Psychological Association) a proposé une grille d’analyses pour décrire et évaluer des instruments psychométriques. On peut également citer la démarche de certification des instruments à l’intention des psychologues néerlandais par le COTAN (Commissie Testaangelegenheden Nederland).

En France, les principaux éditeurs historiques ont publié une charte de qualité des tests et se sont constitués en une Association des Editeurs de Tests pour « … assurer une activité de promotion, de défense et de développement de la qualité des tests. » extrait de l’article 3 des statuts.

validite

Qu’est-ce qu’un instrument psychométrique valide ?

La base pour considérer qu’un test est de bonne qualité est de disposer des moyens de juger de cette qualité. Tous les tests et questionnaires édités sont accompagnés d’un manuel comportant références théoriques et surtout les résultats des études de validation. Dans le cas d’adaptation, on trouve en plus des résultats des études sur la version originale les résultats d’études sur des échantillons de la population française. Pour les tests diffusés par d’autres organismes que les éditeurs de tests (par exemple les tests « maison » ou des tests au format informatique ou distribués par Internet), des éléments équivalents doivent être mis à la disposition des psychologues utilisateurs. Aucune raison sérieuse ne peut être invoquée pour justifier l’absence de ces informations ou l’impossibilité de les divulguer.

La validité peut apparaître comme une question complexe. Cependant voici quelques clés pour apprécier la validité.
On peut examiner les qualités d’un instrument psychométrique à travers au moins six facettes de la validité.

  • La première concerne les dimensions mesurées (le construit). Par exemple, les dimensions de personnalité renvoient-elles à des comportements bien définis, sont-elles cohérentes avec les modèles acceptés dans la communauté scientifique internationale ?
  • En second lieu, il est essentiel de vérifier la validité du calcul du score. En général, on fait la somme des points correspondant aux réponses du sujet aux questions (items). Il est nécessaire de s’assurer que les items évaluent bien la même dimension. Sinon il en résulte un mélange de plusieurs comportements différents et le score ne peut recevoir une interprétation univoque. La vérification de cette propriété se fait dans le cadre des modèles de mesure qui peuvent être une approche dite classique (en utilisant le célèbre alpha de Cronbach), ou par les modèles de réponse à l’item ou par les modèles d’équations structurales.
  • Le troisième élément porte sur la standardisation des scores. On sait que les scores bruts n’ont en général pas de sens, pour les interpréter, il est nécessaire de les situer dans la distribution d’une population comparable à celle à laquelle le sujet appartient. Par exemple, la somme des réussites à des items d’une échelle d’intelligence ne permet pas de situer le potentiel d’une personne, c’est en situant ce score par rapport à celui d’un échantillon représentatif des autres personnes que l’on obtiendra le « quotient intellectuel » qui, lui, est interprétable. Un test valide se doit d’offrir des moyens de standardisation sur les différentes populations pour lesquelles l’instrument est utilisé.
  • Le quatrième point concerne l’organisation des dimensions : quelles relations entretiennent-elles entre elles ? Sont-elles cohérentes avec les modèles théoriques publiés ? Si les dimensions mesurées ont été construites dans le cadre d’un modèle, par exemple, pour la personnalité, le modèle dit des Big Five, on parle à ce propos de validité structurale.
  • Une cinquième facette concerne la relation entre la variable mesurée et d’autres variables censées mesurées la même dimension (validité convergente). Il est également souvent utile de s’assurer que la variable ne mesure pas une dimension qu’elle n’est pas censée mesurée (validité divergente) : par exemple une variable de personnalité qui mesurerait également le vocabulaire.
  • Le sixième point, crucial par rapport à l’utilisation qui est faite des résultats, est la validité pronostique qui permet d’apprécier la validité de la prédiction que l’on peut faire du comportement futur de la personne testée à partir de ses résultats. C’est un point souvent délicat car le recueil de données pour réaliser ce type d’analyses est difficile à réaliser du fait de nombreuses contraintes. La première est la validité du type d’informations recueillies sur le comportement à prédire et leur fiabilité. Par exemple, va-t-on apprécier le comportement d’un vendeur par le chiffre d’affaire réalisé ? Par l’avis de sa hiérarchie ? Le comportement d’un cadre par la satisfaction de ses subordonnés (comme dans l’approche à 360°) ? La seconde est l’échantillon utilisé pour réaliser ces études. Le biais le plus connu est celui dit de sélection dans le cas des instruments utilisés en recrutement : on possède des informations uniquement sur les candidats recrutés, il n’est pas possible de savoir quelles auraient été les performances des candidats éliminés. Une autre limite, est induite par le fait que, très souvent, les études de validité prédictives ne sont pas faites sur des échantillons représentatifs de la population étudiée mais sur des échantillons ad hoc : base de données constituée des passations recueillies par l’éditeur ou l’utilisateur, échantillons d’étudiants, etc. Il faut également envisager ces questions de prédiction en fonction de la prestation : en recrutement on va tenter de prédire une adaptation optimale à un poste ; en orientation ou en gestion de carrière on va chercher à déterminer les fonctions dans lesquelles le bénéficiaire a le plus de chances de réussir et de s’épanouir.

Par ailleurs, il est évident qu’un instrument valide ne doit pas être biaisé. On dit qu’une mesure est biaisée dès lors qu’elle ne mesure pas, ou, qu’imparfaitement, ce qu’elle est censée mesurée. On est en présence d’un biais lorsque la mesure met en évidence des différences entre des groupes de sujets et que ces différences ne peuvent être mises en relation avec la ou les variables mesurées. Les biais et les méthodes pour les identifier peuvent être classés en fonction des différents niveaux et aspects du dispositif de mesure où ils se manifestent : le construit, l’instrument de mesure et sa situation d’administration, les items. Il est commode d’établir une taxonomie des biais, en fonction des éléments suivants : biais de construit, de méthode, d’item. Le concept de biais est inséparable du concept d’équivalence. Il est souhaitable que les auteur/éditeur présentent dans les manuels des analyses montrant l’absence de ces différents types de biais dans l’instrument.

Enfin, il est essentiel de signaler que le concept de validité s’est depuis une vingtaine d’années élargi à l’ensemble du processus d’utilisation de l’instrument et non plus au seul instrument. On parle de validité écologique. Il est évidemment indispensable que l’instrument soit valide mais il faut aussi que l’interprétation de l’utilisateur le soit et même que les informations établies à partir des résultats soient comprises par ceux à qui elles sont communiquées (par exemple dans le cadre d’un bilan, que la personne testée puisse s’approprier les informations que l’on va lui donner sur elle). La validité repose donc sur le fait que l’utilisateur est compétent pour administrer l’outil, interpréter et communiquer ses résultats. La formation est ici primordiale. La validité de la communication des résultats peut être grandement facilitée par le fait que l’auteur et l’éditeur vont fournir à l’utilisateur des aides à l’interprétation et des documents ergonomiques pour reporter les résultats et les communiquer aux différentes parties prenantes du processus de testing.

 

Si vous avez d'autres questions, n'hésitez pas à nous les communiquer à l'aide de notre formulaire de contact afin que nous puissions y répondre.