Papeles del Psicólogo

Papeles del Psicólogo, 2000. Vol. (77).

UN MODELO PARA EVALUAR LA CALIDAD DE LOS TEST UTILIZADOS EN ESPAÑA

Gerardo Prieto* y José Muñiz**

* Universidad de Salamanca. ** Universidad de Oviedo

En el ejercicio de su profesión los psicólogos utilizan con frecuencia los tests para la obtención de datos. Para que los datos así obtenidos sean de calidad y puedan ayudar al psicólogo a tomar las decisiones adecuadas, los tests utilizados han de reunir las propiedades técnicas oportunas. Un medio eficaz para mejorar los tests y su práctica es ofrecer a los usuarios toda la información posible acerca de su calidad y características. El Colegio Oficial de Psicólogos tiene la intención de promover un proceso de evaluación de los tests más utilizados en España para proporcionar así una información técnica precisa a los usuarios de las pruebas. En este artículo se describen las características del procedimiento de evaluación y se presenta un modelo de cuestionario para llevar a cabo la evaluación.

A model to evaluate the quality of tests used in Spain. Professional psychologists very frequently use tests to gather information about human behavior. In order to obtain good quality data which could help psychologists to make the right decisions, tests used to collect data have to be psychometrically sound. An efficient way to improve tests and testing is to offer the practitioners technical information about test characteristics. The Spanish Psychological Association is promoting a process of reviewing those tests more frequently used in Spain, aiming to provide test users with the best information available on tests. In this paper the test review process to be implemented is described, and a model of questionnaire to evaluate tests presented.

Los tests psicológicos constituyen una de las herramientas más importantes al servicio de la práctica profesional y de la investigación de los psicólogos. Como ocurre con cualquier otra tecnología científica, los tests pueden ser usados de forma correcta o incorrecta. Una exposición de las actitudes de los psicólogos españoles hacia los tests, los problemas más habituales de uso, así como las pruebas más utilizadas, puede consultarse en el reciente trabajo de Muñiz y Fernández-Hermida (2000), publicado en esta misma revista. En ese trabajo, los más de tres mil psicólogos encuestados ponían de manifiesto la necesidad de mejorar el uso que se hace de los tests en nuestro país. Este objetivo es compartido por buena parte de las asociaciones profesionales de psicólogos, tanto nacionales como internacionales. El Colegio Oficial de Psicólogos (COP) no ha sido ajeno a esta corriente, y en año 1995 se puso en marcha una Comisión de Tests integrada por psicólogos procedentes del ámbito académico, de las editoras de tests y del propio COP (véase http://www.cop.es/tests/). La Comisión de Tests fue creada para tratar de promocionar y potenciar el uso adecuado de los tests en nuestro país. Para llevar a cabo esta tarea, la Comisión funciona de forma coordinada con otros grupos de trabajo internacionales con fines similares, tales como la Federación Europea de Asociaciones de Psicólogos Profesionales (EFPPA), o la Comisión Internacional de Tests (ITC).

En general, podrían seguirse tres vías para mejorar el uso de los tests: (i) restringir el acceso de los usuarios, permitiendo su empleo solamente a profesionales debidamente capacitados y acreditados, (ii) incrementar la formación de los usuarios y (iii) fomentar la investigación para desarrollar pruebas eficientes (construcción de nuevas pruebas, adaptación adecuada de las desarrolladas en otros países y revisión periódica de la calidad técnica de las ya disponibles). Aunque lo ideal sería actuar en los tres frentes, en ocasiones la primera vía no está exenta de dificultades, puesto que las asociaciones profesionales no disponen de las armas legales para introducir fuertes restricciones al uso de los instrumentos. Por ello, parece más viable mejorar la práctica profesional a través de la formación de los usuarios, puesto que las deficiencias en los conocimientos técnicos requeridos son consideradas como la principal causa de las prácticas inadecuadas (Anastasi, 1987; Kaufman, 1982; Muñiz et al., 1999; Muñiz y Fernández-Hermida, 2000). Además, la mejora de la formación favorece la tercera de las vías antes mencionadas.

En algunos países de nuestro entorno se ha seguido el principio de que facilitar información a los usuarios acerca de la calidad técnica de los tests disponibles es uno de los principales recursos formativos. Así lo han entendido, por ejemplo, las asociaciones profesionales de psicólogos de Holanda y del Reino Unido. Ambas asociaciones publican periódicamente monografías en las que se aporta información técnica de los principales tests usados en esos países (Bartram et al., 1992a, 1992b, 1995 y 1997; Evers, 1996). En estas publicaciones se difunden los resultados de evaluaciones anónimas efectuadas por expertos siguiendo un proceso estandarizado de revisión de los tests.

En nuestro país las informaciones acerca de las características de los tests no son exhaustivas, están muy dispersas, no son fácilmente accesibles o, al ser facilitadas por el editor del test, no pueden ser consideradas independientes e imparciales. Por este motivo, los profesionales carecen en muchas ocasiones de orientaciones científicas que les permitan seleccionar el instrumento más apropiado para sus objetivos. Consciente de este problema, la Comisión de Tests del COP ha diseñado un modelo estandarizado de evaluación de tests (CET) con la finalidad de revisar los tests empleados en nuestro país, al objeto de informar a los usuarios sobre su calidad técnica. Puesto que se dispone de datos recientes bastante fiables sobre los tests más usados en los distintos campos profesionales de la psicología (Muñiz y Fernández-Hermida, 2000), es intención de la Comisión de Tests focalizar inicialmente en estas pruebas las revisiones, aunque también sería posible incluir otros tests en la primera fase de evaluación a instancias de editores y autores

El objetivo de este artículo es la descripción de un posible proceso de revisión a seguir, y la presentación del modelo de cuestionario que se utilizaría en las revisiones de los tests. Consideramos que la publicación del sistema de evaluación y de los criterios de evaluación generará un beneficio colateral añadido a la información técnica facilitada, a saber, informar a los autores de tests de los estándares de calidad que han de poseer las nuevas pruebas que aparezcan en el mercado. Tanto el sistema de evaluación que se describe a continuación, como el modelo de cuestionario presentado, se han inspirado principalmente en los modelos inglés y holandés actualmente en funcionamiento.

PROCESO DE EVALUACIÓN

Se presenta a continuación lo que podría ser en líneas generales el proceso a seguir para llevar a cabo la evaluación de los tests. El primer paso que hay que dar es elegir los tests a revisar. La idea es que sea un proceso continuo, hasta llegar a revisar la mayoría, si no todas, las pruebas que hay en el mercado, si bien parece razonable empezar por aquellas pruebas más utilizadas por los profesionales.

Otro aspecto a resolver es la selección de los revisores para la evaluación de cada test. Los revisores habrán de a) ser expertos en metodología psicométrica y/o en el campo profesional de evaluación al que el test va dirigido. La experiencia obtenida en otros países sugiere que uno de los revisores sea experto en psicometría y el otro en la temática que se pretende evaluar mediante el test (Evers, 1996); b) no estar implicados en la construcción o distribución del test, y c) realizar la evaluación de forma anónima e independiente.

Cada revisor recibiría un ejemplar del test (cuadernillo, hoja de respuesta, diskete, etc), un ejemplar de la documentación aportada por el editor o autor (manual, informes técnicos, trabajos científicos, etc.), y el cuestionario para la evaluación, en formato impreso e informatizado.

Si no existe un acuerdo sustancial entre los revisores, se solicitará a un tercer revisor que lleve a cabo la evaluación de la prueba. Antes de dar publicidad a los resultados de la evaluación, se informará al autor y/o al editor del test para que efectúen las observaciones que consideren oportunas, aporten información complementaria, etc.

Finalmente se dará publicidad a los resultados.

Este proceso descrito es similar al que se lleva a cabo actualmente en otros países como Holanda, Inglaterra o Estados Unidos, y coincide en su filosofía general con el que utilizan habitualmente las revistas científicas para la revisión de los artículos. Cualquier sistema de evaluación que se utilice ha de tener necesariamente limitaciones, pero el arriba descrito nos parece que mejora significativamente el modelo actual en nuestro país, consistente en no hacer nada.

DESCRIPCIÓN DEL CUESTIONARIO PARA LA EVALUACIÓN DE LOS TESTS (CET)

Para construir la versión final del cuestionario (CET) se tomaron en consideración los comentarios y sugerencias a una versión inicial, recibidas de los miembros de la Comisión de Tests del COP y de diecinueve expertos de los ámbitos académico y profesional que se relacionan al final. El CET ha sido diseñado para analizar fundamentalmente instrumentos psicométricos basados en la Teoría Clásica de los Tests, puesto que por el momento son los de más frecuente uso en la práctica profesional en España. Está estructurado en tres apartados; el primero tiene la finalidad de elaborar una descripción técnica del test. Está integrado por 31 ítems relativos al nombre de la prueba, autor, constructo medido, ámbito de aplicación, etc. En el segundo apartado se incluye la evaluación técnica de las características del instrumento. Los expertos han de juzgar características como la fundamentación teórica, la adaptación/traducción (si el test ha sido construido en otro país), la fiabilidad, la validez, los baremos, etc. Para lograr este objetivo, se han incluido 32 ítems cerrados y 6 abiertos. En la mayor parte de los ítems cerrados se propone un sistema de cinco categorías ordenadas en función de la calidad de la característica evaluada. Este sistema de cinco estrellas es similar al empleado por el Colegio de Psicólogos del Reino Unido (Bartram et al., 1997).

En los ítems abiertos se solicita una justificación razonada de las respuestas a los ítems cerrados y una evaluación de cada característica.

En último apartado, se solicita una valoración global del test y un resumen de los dos primeros apartados, al objeto de resumir toda la información en una ficha técnica.

A continuación, tras unas breves conclusiones, se presenta el cuestionario completo.

CONCLUSIONES

La mayoría de los expertos, así como las organizaciones profesionales nacionales e internacionales coinciden en señalar que una de las medidas más eficaces para mejorar la utilización que se hace de los tests es la de proporcionar una buena información y formación a los usuarios. Un profesional con una buena información sobre las pruebas y una formación adecuada difícilmente utilizará de forma incorrecta los tests. Enmarcado en esa filosofía, en 1995 el Colegio Oficial de Psicólogos (COP) creó una Comisión de Tests con el fin de analizar los problemas implicados en el uso de los tests. En el presente trabajo se describe el proceso diseñado por la Comisión de Tests del COP para llevar a cabo la revisión de los tests editados en España. También se presenta el cuestionario elaborado a tal efecto. En líneas generales, el procedimiento de evaluación propuesto consiste en revisar los tests de forma sistemática por parte de expertos, utilizando el cuestionario de recogida de datos diseñado a tal efecto, inspirado en los modelos holandés e inglés actualmente en funcionamiento. Cabe esperar que la publicación de los resultados de las revisiones de los tests ayude a los profesionales a elegir y evaluar las pruebas que tienen a su disposición en el mercado, al menos ése ha sido el objetivo que ha guiado a la comisión de tests del COP parra llevar a cabo esta iniciativa. Señalar, finalmente, que cualquier sugerencia que pueda mejorar el proceso de evaluación expuesto será bien recibida por los autores, que la elevarán a la comisión de tests del COP.

AGRADECIMIENTOS

Los autores desean expresar su agradecimiento al Colegio Oficial de Psicólogos (COP) por su inestimable apoyo en la realización de este trabajo, así como a los miembros de la Comisión de Tests del COP por sus importantes contribuciones al desarrollo del cuestionario. Nuestro agradecimiento más sincero a: María Teresa Anguera, Rocío Fernández Ballesteros, Manuel Martínez, Rosario Martínez Arias, Eduardo Montes, Carlos Rodríguez Sutil, Nicolás Seisdedos y Manuel García Pérez.

Muchas gracias también a las personas que se citan a continuación por sus enriquecedores comentarios acerca del cuestionario, que sin duda han contribuido a mejorarlo: Alejandro Avila Espada, Antoni Andrés Pueyo, Pilar Sánchez López, Roberto Colom Marañón, Gloria Seoane, Miguel Angel Verdugo, María José Navas, José Antonio López Pina, Pere Joan Ferrando, Salvador Algarabel, Isabel Barbero, Alfredo Fierro, Concha Fernández, Jordi Renom, Vicente González Romá, Julio Olea, Pedro Hontangas, Vicente Ponsoda y Antonio Pamos.

Gracias a todos por su colaboración y ayuda, las deficiencias que aún se observen en el trabajo sólo son imputables a los autores.

CUESTIONARIO PARA LA EVALUACION DE LOS TESTS (CET)

1. Descripción general del test¹

1.1. Nombre del test:

1.2. Nombre del test en su versión original (si la versión española es una adaptación):

1.3. Autor/es del test original:

1.4. Autor/es de la adaptación española:

1.5. Editor del test en su versión original:

1.6. Editor de la adaptación española:

1.7. Fecha de publicación del test original:

1.8. Fecha de publicación del test en su adaptación española:

1.9. Fecha de la última revisión del test en su adaptación española:

1.10. Clasifique el área general de la o las variables que pretende medir el test².

(   ) Inteligencia
(   ) Aptitudes
(   ) Habilidades y Rendimiento académico
(   ) Psicomotricidad
(   ) Alteraciones neuropsicológicas
(   ) Personalidad
(   ) Motivación
(   ) Actitudes
(   ) Intereses
(   ) Valores
(   ) Otros (Indique cuál:............................................)

1.11. Breve descripción de la variable o variables que pretende medir el test:

1.12. Area de aplicación³

(   ) Psicología clínica
(   ) Psicología educativa
(   ) Neuropsicología
(   ) Psicología forense
(   ) Psicología del trabajo y las organizaciones
(   ) Psicología del deporte
(   ) Servicios sociales
(   ) Psicología del Tráfico
(   ) Otros (Indique cuál:............................................)

1.13. Formato de los ítems⁴:

(   ) Respuesta libre
(   ) Respuesta dicotómica (si/no, verdadero/falso, etc)
(   ) Elección múltiple
(   ) Tipo Likert
(   ) Adjetivos bipolares
(   ) Otro (Indique cuál:............................................)

1.14. Número de ítems⁵:

1.15. Soporte⁶:

(   ) Administración oral
(   ) Papel y lápiz
(   ) Manipulativo
(   ) Informatizado
(   ) Otro (Indique cuál:............................................)

1.16. Cualificación requerida para el uso del test de acuerdo con la documentación aportada:

(   ) Ninguna
(   ) Entrenamiento y Acreditación especifica*
(   ) Nivel A⁷(   ) Nivel B
(   ) Nivel C
(   ) Otra (Indique cuál:............................................)

*Indique el nombre de la institución que lleva a cabo la acreditación:

1.17. Descripción de las poblaciones a las que el test es aplicable (especifique el rango de edad, nivel educativo, etc., y si el test es aplicable en ciertas poblaciones especificas: minorías étnicas, discapacitados, grupos clínicos, etc.):

1.18. Indique si existen diferentes formas del test y sus características (formas paralelas, versiones abreviadas, versiones informatizadas o impresas, etc). En el caso de que existan versiones informatizadas, describa los requisitos mínimos del hardware y software.

1.19. Procedimiento de corrección:

(   ) Manual mediante plantilla
(   ) Lectora óptica
(   ) Automatizada por ordenador
(   ) Efectuado exclusivamente por la empresa suministradora
(   ) Mediante expertos
(   ) Otro (Indique cuál:............................................).

1.20. Puntuaciones: (Describa el procedimiento para obtener las puntuaciones directas).

1.21. Transformación de las puntuaciones:

(   ) Característica no aplicable para este instrumento
(   ) Normalizada
(   ) No normalizada

1.22. Escalas utilizadas:

(   ) Centiles
(   ) Puntuaciones típicas
(   ) Cocientes de desviación
(   ) Eneatipos
(   ) Decatipos
(   ) T
(   ) Otra (Indique cuál:............................................)

1.23. Posibilidad de obtener informes automatizados:

( ) No
( ) Si*

*Breve descripción:

1.24. El editor ofrece un servicio para la corrección y/o elaboración de informes:

( ) No
( ) Si

1.25. Tiempo estimado para la aplicación del test (instrucciones, ejemplos y respuestas a los ítems).

En aplicación individual:...........................

En aplicación colectiva:............................

1.26. Documentación aportada por el editor:

(   ) Manual
(   ) Libros o artículos complementarios
(   ) Disketes/CD
(   ) Otra (Indique cuál:............................................)

1.27. Precio de un juego completo de la prueba (documentación, test, plantillas de corrección; en el caso de tests informatizados no se incluye el costo del hardware):

1.28. Precio y número de ejemplares del paquete de cuadernillos (tests de papel y lápiz):

1.29. Precio y número de ejemplares del paquete de hojas de respuesta (tests de papel y lápiz):

1.30. Precio de la corrección y/o elaboración de informes por parte del editor:

1.31. Bibliografía básica acerca del test aportada en la documentación:

2. Valoración de las características del test

2.1. Calidad de los materiales del test (objetos, material impreso o software):

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (Impresión y presentación de gran calidad, software muy atractivo y eficiente, etc.).

2.2. Calidad de la documentación aportada:

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (Descripción muy clara y completa de las características técnicas, fundamentada en abundantes datos y referencias).

2.3. Fundamentación teórica:

(   ) No se aporta información en la documentación
* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (Descripción muy clara y documentada del constructo que se pretende medir y del procedimiento de medición).

2.4. Adaptación del test (si el test ha sido traducido y adaptado para su aplicación en España):

(   ) Característica no aplicable para este instrumento
(   ) No se aporta información en la documentación
* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (Descripción precisa del procedimiento de traducción, de la adaptación de los ítems a la cultura española, de los estudios de equivalencia con la versión original, utilización de la normativa de la International Test Commission, etc.).

2.5. Calidad de las instrucciones:

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (Claras y precisas. Muy adecuadas para las poblaciones a las que va dirigido el test).

2.6. Facilidad para comprender la tarea :

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Suficiente
**** (   ) Buena
***** (   ) Excelente (Los sujetos de las poblaciones a las que va dirigido el test pueden comprender facilmente la tarea a realizar).

2.7. Facilidad para registrar las respuestas :

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (El procedimiento para emitir o registrar las respuestas es muy simple por lo que se evitan los errores en la anotación).

2.8. Calidad de los ítems (aspectos formales):

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (La redacción y el diseño son muy apropiados).

2.9. Análisis de los ítems

2.9.1 Datos sobre el análisis de los ítems:

(   ) Característica no aplicable para este instrumento
(   ) No se aporta información en la documentación
* (   ) Inadecuados
** (   ) Adecuados pero con algunas carencias
*** (   ) Adecuados
**** (   ) Buenos
***** (   ) Excelentes (Información detallada sobre diversos estudios acerca de las características psicométricas de los ítems: dificultad o variabilidad, discriminación, validez, distractores, etc. ).

2.10. Validez

2.10.1. Validez de contenido⁸:

2.10.1.1. Calidad de la representación del contenido o dominio:

* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente (En la documentación se presenta una precisa definición del contenido.
Los ítems muestrean adecuadamente todas las facetas del contenido).

2.10.1.2. Consultas a expertos⁹:

(   ) No se aporta información en la documentación
* (   ) No se ha consultado a expertos sobre la representación del contenido
** (   ) Se ha consultado de manera informal a un pequeño número de expertos
*** (   ) Se ha consultado a un pequeño número de expertos mediante un procedimiento sistematizado (N<10).
**** (   ) Se ha consultado a un número moderado de expertos mediante un procedimiento sistematizado (10≤ N≤ 30).
***** (   ) Se ha consultado a un amplio número de expertos mediante un un procedimiento sistematizado (N>30).

2.10.2. Validez de constructo:

2.10.2.1. Diseños empleados¹⁰:

(   ) No se aporta información en la documentación
(   ) Correlaciones con otros tests
(   ) Diferencias entre grupos
(   ) Matriz multirasgo-multimétodo
(   ) Análisis factorial exploratorio
(   ) Análisis factorial confirmatorio
(   ) Diseños experimentales
(   ) Otros (Indique cuales:............................................).

2.10.2.2. Tamaño de las muestras en la validación de constructo:

(   ) No se aporta información en la documentación.
* (   ) Un estudio con una muestra pequeña (N<200)
** (   ) Un estudio con una muestra moderada (200 ≤ N<500)
*** (   ) Un estudio con una muestra grande (N ≥ 500)
**** (   ) Varios estudios con muestras de tamaño moderado
***** (   ) Varios estudios con muestras grandes

2.10.2.3. Procedimiento de selección de las muestras*:

(   ) No se aporta información en la documentación
(   ) Incidental
(   ) Aleatorio

*Describa brevemente el procedimiento de selección.

2.10.2.4. Mediana de las correlaciones del test con otros tests similares:

(   ) No se aporta información en la documentación
* (   ) Inadecuada (r<0.25)
** (   ) Adecuada pero con algunas carencias (0.25≤ r<0.40)
*** (   ) Adecuada (0.40≤ r<0.50)
**** (   ) Buena (0.50≤ r<0.60)
***** (   ) Excelente (r≥ 0.60)

2.10.2.5. Calidad de los tests empleados como criterio o marcador:

(   ) No se aporta información en la documentación
* (   ) Inadecuada
** (   ) Adecuada pero con algunas carencias
*** (   ) Adecuada
**** (   ) Buena
***** (   ) Excelente

2.10.2.6. Datos sobre el sesgo de los ítems:

(   ) Característica no aplicable para este instrumento
(   ) No se aporta información en la documentación
* (   ) Inadecuados
** (   ) Adecuados pero con algunas carencias
*** (   ) Adecuados
**** (   ) Buenos
***** (   ) Excelentes (Información detallada sobre diversos estudios acerca del sesgo de los ítems relacionado con el sexo, la lengua materna, etc. Empleo de la metodología apropiada).

2.10.3. Validez predictiva

2.10.3.1. Describa los criterios empleados y las características de las poblaciones:

2.10.3.1. Diseño de selección del criterio¹¹:

(   ) Concurrente
(   ) Predictivo
(   ) Retrospectívo

2.10.3.2. Tamaño de las muestras en la validación predictiva:

(   ) No se aporta información en la documentación
* (   ) Un estudio con una muestra pequeña (N<100)
** (   ) Un estudio con una muestra moderada (100≤N<200)
*** (   ) Un estudio con una muestra grande y representativa (N=200)
**** (   ) Varios estudios con muestras representativas de tamaño moderado
***** (   ) Varios estudios con muestras grandes y representativas

2.10.3.3. Procedimiento de selección de las muestras*:

(   ) No se aporta información en la documentación
(   ) Incidental
(   ) Aleatorio

*Describa brevemente el procedimiento de selección.

2.10.3.4. Mediana de las correlaciones del test con los criterios:

(   ) No se aporta información en la documentación
* (   ) Inadecuada (r<0.20)
** (   ) Suficiente (0.20≤ r<0.35)
*** (   ) Buena (0.35≤ r<0.45)
**** (   ) Muy buena (0.45≤ r<0.55)
***** (   ) Excelente (r≥ 0.55)

2.10.4. Comentarios sobre la validez en general:

2.11. Fiabilidad

2.11.1. Datos aportados sobre la fiabilidad:

(   ) Un único coeficiente de fiabilidad
(   ) Un único error típico de medida
(   ) Coeficientes de fiabilidad para diferentes grupos de sujetos
(   ) Error típico de medida para diferentes grupos de sujetos

2.11.2. Equivalencia (Formas paralelas):

2.11.2.1. Tamaño de las muestras en los estudios de equivalencia:

(   ) No se aporta información en la documentación
* (   ) Un estudio con una muestra pequeña (N<200)
** (   ) Un estudio con una muestra moderada (200≤ N<500)
*** (   ) Un estudio con una muestra grande (N≥ 500)
**** (   ) Varios estudios con muestras de tamaño moderado
***** (   ) Varios estudios con muestras grandes

2.11.2.2. Mediana de los coeficientes de equivalencia:

(   ) No se aporta información en la documentación
* (   ) Inadecuada (r<0.50)
** (   ) Adecuada pero con algunas carencias (0.50≤ r<0.60)
*** (   ) Adecuada (0.60≤ r<0.70)
**** (   ) Buena (0.70≤ r<0.80)
***** (   ) Excelente (r≥ 0.80)

2.11.3. Consistencia interna

2.11.3.1. Tamaño de las muestras en los estudios de consistencia:

2.11.3.2. Mediana de los coeficientes de consistencia:

(   ) No se aporta información en la documentación
* (   ) Inadecuada (r<0.60)
** (   ) Adecuada pero con algunas carencias (0.60≤ r<0.70)
*** (   ) Adecuada (0.70≤ r<0.80)
**** (   ) Buena (0.80≤ r<0.85)
***** (   ) Excelente (r≥ 0.85)

2.11.4. Estabilidad (Test-Retest)

2.11.4.1. Tamaño de las muestras en los estudios de estabilidad¹²:

(   ) No se aporta información en la documentación
* (   ) Un estudio con una muestra pequeña (N<100)
** (   ) Un estudio con una muestra moderada (100≤ N<200)
*** (   ) Un estudio con una muestra grande (N≥ 200)
**** (   ) Varios estudios con muestras de tamaño moderado
***** (   ) Varios estudios con muestras grandes

2.11.4.2. Mediana de los coeficientes de estabilidad:

(   ) No se aporta información en la documentación
* (   ) Inadecuada (r<0.55)
** (   ) Adecuada pero con algunas carencias (0.55≤r<0.65)
*** (   ) Adecuada (0.65≤ r<0.75)
**** (   ) Buena (0.75≤ r<0.80)
***** (   ) Excelente (r≥ 0.80)

2.11. 5 Comentarios sobre la fiabilidad en general:

2.12. Normas

2.12.1. Calidad de las normas:

(   ) No se aporta información en la documentación
* (   ) Un baremo que no es aplicable a la población objetivo
** (   ) Un baremo aplicable a la población objetivo con cierta precaución
*** (   ) Un baremo adecuado para la población objetivo
**** (   ) Varios baremos dirigidos a diversos estratos poblacionales
***** (   ) Amplio rango de baremos en función de la edad, el sexo, el nivel cultural y otras características relevantes.

2.12.2. Tamaño de las muestras¹³:

(   ) No se aporta información en la documentación
* (   ) Pequeño (N<150)
** (   ) Suficiente (150≤ N<300)
*** (   ) Moderado (300≤ N<600)
**** (   ) Grande (600≤ N<1000)
***** (   ) Muy grande (N≥ 1000)

2.12.3. Procedimiento de selección de las muestras*:

(   ) No se aporta información en la documentación
(   ) Incidental
(   ) Aleatorio

*Describa brevemente el procedimiento de selección.

2.12.4. Comentarios sobre las normas

3. Valoración global del test

3.1. Con una extensión máxima de 1000 palabras, exprese su valoración del test resaltando sus aspectos positivos y negativos, así como recomendaciones acerca de su uso en diversas áreas profesionales. Indique asimismo cuáles son las características de la prueba que podrían ser mejoradas, carencias de información en la documentación, etc. 3.2. A modo de resumen, rellene las Tablas 1 y 2. La Tabla 1 incluye algunos datos descriptivos del test. En la Tabla 2 se resume la valoración de las características generales del test. Tome en consideración el promedio de las calificaciones emitidas en los apartados que figuran en la segunda columna de la Tabla 2.

Tabla 1 Descripción del test
Característica	Descripción
Nombre del test	(apartado 1.1)
Autor	(apartado 1.3)
Autor de la adaptación española	(apartado 1.4)
Fecha última revisión	(apartado 1.9)
Constructo evaluado	(apartado 1.11)
Areas de aplicación	(apartado 1.12)
Soporte	(apartado 1.15)

Tabla 2. Valoración del test
Característica	Apartados	Valoración
Materiales y documentación	2.1 y 2.2
Fundamentación teórica	2.3
Adaptación	2.4
Análisis de ítems	2.9
Validez de contenido	2.10.1
Validez de constructo	2.10.2
Análisis del sesgo	2.10.2.6
Validez predictiva	2.10.3
Fiabilidad: equivalencia	2.11.2
Fiabilidad: consistencia interna	2.11.3
Fiabilidad: estabilidad	2.11.4
Normas	2.12

NOTAS

1. Si el Test está compuesto de subtests heterogéneos en su formato y características, rellene un cuestionario para cada subtest.

2. Puede marcar más de una opción.

3. Puede marcar más de una opción.

4. Puede marcar más de una opción.

5. Si el test tiene varias escalas, indique el número de ítems de cada una.

6. Puede marcar más de una opción.

7. Algunos países han adoptado sistemas para la clasificación de los tests en distintas categorías, en función de la cualificación requerida para los usuarios. Estos sistemas de clasificación proporcionan a los editores de tests un medio para decidir a quién pueden vender los tests. Un sistema muy utilizado es el que divide los tests en tres categorías: Nivel A (tests de rendimiento y conocimientos), Nivel B (tests colectivos de aptitudes e inteligencia) y Nivel C (tests de aplicación individual de inteligencia, personalidad y otros instrumentos complejos).

8. Este aspecto es esencial en los tests referidos al criterio y particularmente en los tests de rendimiento académico. Emita su juicio sobre la calidad de la representación del contenido o dominio. Si en la documentación aportada aparecen las evaluaciones de los expertos, tómelas en consideración.

9. Las cifras acerca del tamaño de las muestras y de los estadísticos que aparecerán más adelante tienen un carácter orientativo.

10. Puede marcar más de una opción.

11. Puede marcar más de una opción.

12. Número de sujetos con ambas puntuaciones (antes-después).

13. Si hay varios baremos, clasifique el tamaño promedio.

REFERENCIAS

Anastasi, A. (1987). What test users should know about the interpretation os test scores. Keynote address at Joint Committee on Testing Practices Second Test Publishers Conference, Rockville, Maryland. (Citado de Fremer, 1996).

Bartram, D., Lindley, P.A.y Foster, J.M. (1992 a). A Review of Psychometric Tests for Assessment in Vocational Training. Leicester: BPS Books.

Bartram, D., Lindley, P.A.y Marshall, L. (1992 b). Update to the Review of Psychometric Tests for Assessment in Vocational Training. Leicester: BPS Books.

Bartram, D., Anderson, N., Kellett, D., Lindley, P.A.& Robertson, I. (Eds.). (1995). Review of Personality Assessment Instruments (Level B) for use in ocuppational settings. Leicester: BPS Books.

Bartram, D., Burke, E., Kandola, R., Lindley, P., Marshall, L. & Rasch, P. (Eds.). (1997). Review of Tests of Ability and Aptitude (Level A) for use in ocuppational settings. Leicester: BPS Books.

Evers, A. (1996). Regulations concerning test qualifications and test use in The Netherlands. European Journal of Psychological Assessment, 12, 153-159.

Kauffman, A.S. (1982). Psicometría razonada con el WISC-R. México: El Manual Moderno.

Muñiz, J., Prieto, G., Almeida, L. y Bartram, D. (1999). Test use in Spain, Portugal and Latin American countries. European Journal of Psychological Assessment, 15, 151-157.

Muñiz, J. y Fernández-Hermida, J.R. (2000). La utilización de los tests en España. Papeles del Psicólogo, 76, 41-49.

INFORMACIÓN

PAPELES DEL PSICÓLOGO

CONTACTO

UN MODELO PARA EVALUAR LA CALIDAD DE LOS TEST UTILIZADOS EN ESPAÑA