Regresar a la Portada
NÚMEROS ANTERIORES
BÚSQUEDA

Todas las palabras Alguna palabra

 
 
 
Noviembre , nº 66 , 1996 Copyright 1996 © Papeles del Psicólogo
ISSN 0214 - 7823

DIRECTRICES PARA LA TRADUCCION Y ADAPTACION DE LOS TESTS

José Muñiz y Ronald K. Hambleton

Universidad de Oviedo y Universidad de Massachusetts

[ Imprimir ]  

Los tests en sus distintas modalidades constituyen uno de los instrumentos de medida más utilizados por los profesionales de la psicología y por los investigadores. Como cualquier otro instrumento de medida en cualquier campo de actividad, su utilización incorrecta resulta nefasta, pero ello es especialemnte grave en psicología y educación, donde con frecuencia están implicadas decisiones de suma importancia para la vida de las personas. La mayoría de los problemas en torno a los tests provienen de su uso inadecuado, más que del test en sí, de su construcción, o de sus propiedades técnicas. Este uso inapropiado por parte de personas sin una formación suficiente, es el responsable de muchas de las críticas que reciben los tests, cuestionarios y las escalas psicológicas. Pero la realidad es que los tests siguen siendo una instrumentación imprescindible en la práctica psicológica y educativa en todo el mundo, y todo indica que va a seguir siéndolo en el futuro, por tanto no hay que ahorrar esfuerzos en mejorar su uso. Cómo hacerlo es una cuestión abierta, que ofrece muchas posibilidades y modelos, y cualquier opinión es bienvenida. Los Colegios de Psicólogos de la mayoría de los países tratan de mejorar esta práctica de formas muy diversas. Una línea clave de actuación es promover que los tests que se comercializan estén técnicamente bien construidos. A la base de ello está una formación psicométrica adecuada y la publicación de normas técnicas que deben de seguir los constructores. Los estándares técnicos más utilizados son los elaborados por la Asociación Americana de Psicología y otras organizaciones (1985), actualmente en proceso de revisión, esperándose una nueva edición para 1998. Las propias casas editoras de tests, primeras interesadas en un uso deontológico apropiado, así como los Colegios Profesionales, toman algunas medidas complementarias, tales como restringir el acceso a los tests en función de su especialización, registrar oficialmente a los usuarios cualificados, etc. La posibilidades son muy variadas, véanse por ejemplo los trabajos de Bartram (1996), Fremer (1996), Evers (1996) o Muñiz (1996a).

La creciente globalización mundial que se está produciendo a todos los niveles y en todas las esferas de la actividad humana, debido a la facilidad y rapidez de las comunicaciones, potencia que los instrumentos de medida generados en determinado país rápidamente se utilicen en otro distinto. Existe además un interés creciente en todo lo relacionado con los estudios interculturales, como bien señalan van de Vijver y Lonner (1995). Ahora bien, los tests no son automáticamente utilizables, deben de adaptarse cuidadosamente en función de las diferencias interculturales entre el idioma/cultura originario y aquéllos en los que se pretende utilizar. Esto es especialmente importante en un país como España en el que un porcentaje muy elevado de los tests y las escalas que se utilizan provienen de traducciones y adaptaciones de otros idiomas y culturas. Con la inminente integración europea el problema seguramente se agudizará. Para no sesgar de entrada el uso de estos tests hay que asegurarse de que su traducción/adaptación es la adecuada. Si ya apareciesen fallos a este nivel básico, cualquier medida posterior encaminada a mejorar su uso caería en saco roto. Como se irá viendo, traducir un test no es una mera cuestión de conocer bien los dos idiomas implicados, es un proceso mucho más complejo, por eso más que de traducción habría que hablar de adaptación. Consciente de este problema, el Colegio Oficial de Psicólogos (COP) ha participado en un Comité Internacional auspiciado por la Comisión Internacional de Tests (ITC), de la cual es miembro, para preparar unas directrices técnicas para la adaptación de los tests de unos países a otros. Este Comité ha elaborado un conjunto de veintidós directrices o recomendaciones que aparecerán publicadas en un amplio documento. Avances de este documento, en los que se basa nuestra exposición, pueden verse en Hambleton (1993, 1994, 1996) y Van de Vijver y Hambleton (1996).

El Comité, presidido por Ronald K Hambleton, está formado por las siguientes personas, representando a diversas asociaciones internacionales:

- Glen Budgell. Canadá

- Rob Feltham. Inglaterra

- Rocío Fernández Ballesteros. España

- John H. A. L. de Jong. Holanda

- Ingrid Munck. Suecia

- José Muñiz. España

- Ype Poortinga. Holanda

- Isik Savasir. Turquía

- Charles Spielberger. Estados Unidos

- Fons Van de Vijver. Holanda

- Jac N. Zaal. Holanda

Posibles fuentes de error al adaptar un test

Si bien, como antes se ha señalado, están muy claras las razones por las que se adaptan los tests, la metodología para hacerlo no lo está tanto, y aparece dispersa en diversas publicaciones. Esta es la razón fundamental por la que la Comisión Internacional de Tests se planteó la tarea de elaborar un documento técnico al respecto, del cual lo que aquí se presenta es un avance.

Ahora bien, ¿dónde se producen los errores cuando alguien trata de adaptar un test de una cultura a otra?. Hay cuatro grandes áreas implicadas en la confección de un test en las cuales se pueden tomar decisiones erróneas:

- Contexto

- Construcción y adaptación

- Aplicación

- Interpretación de las puntuaciones

Contexto: Se refiere al ámbito sociocultural en el que están enmarcadas las personas a las que se aplicará el test. La mayoría de los constructos utilizados en Psicología son altamente dependientes de los aspectos culturales, por tanto, lo primero de lo que hay que cerciorase es que el constructo a evaluar es equiparable en ambas culturas. Si no se da esa equivalencia razonable carece de sentido la adaptación, y si se hace se estarán midiendo constructos distintos en cada cultura. Hay que aportar datos empíricos de la equivalencia, para lo cual pueden llevarse a cabo estudios sobre el terreno por equipos de personas multiculturales y multilíngües para evitar un sesgo etnocéntrico. Por ejemplo, evaluación de variables como inteligencia, actitudes, o personalidad, resultan altamente dependientes de la matriz cultural, por lo que su utilización en estudios comparativos requiere sumo cuidado al adaptar la prueba. Si existen datos acerca de la equivalencia de los constructos, puede pasarse a la fase de la adaptación propiamente dicha, que medirá las conductas concretas para evaluar el constructo.

Construcción y adaptación del test: La filosofía general que ha de guiar la adaptación es que el test mida el mismo constructo de la misma forma, pero ajustándose a las peculiaridades de la nueva población. Naturalmente esto no resulta nada fácil. La primera decisión difícil es la selección de los traductores. Es fundamental que los traductores no sólo conozcan ambos idiomas, sino que estén familiarizados también con ambas culturas. En numerosas situaciones hay que cambiar los ítems casi completamente, y eso sólo se puede hacer desde un conocimiento profundo de la cultura objetivo del nuevo ítem. Es también necesario que los traductores tengan un cierto conocimiento de la tecnología para la construcción de tests, y de la materia a traducir, para lo cual han de recibir algún tipo de formación. Si no disponen de esos conocimientos tienden a traducir literalmente, lo cual obviamente no siempre es lo más adecuado.

Una técnica habitual en la traducción es lo que se denomina traducción inversa. Primero se traduce el test al idioma objetivo por uno, o mejor, un equipo de traductores, y otro equipo vuelve a traducir esa versión al idioma original, la bondad de la traducción se juzga en función del grado de coincidencia con la versión original. Este popular método no está exento de problemas, existiendo otros diseños recomendables, véase por ejemplo el capítulo de Hambleton (1996).

Una traducción correcta es sólo el punto de partida para que un test resulte bien adaptado. A partir de ahí hay que comprobar empíricamente sus propiedades psicométricas, tales como la fiabilidad, validez y estandarización en la nueva población. Elaborar y mantener actualizados los baremos es trabajoso, y caro en tiempo y dinero, pero bajo ningún concepto deben de utilizarse los de la población de origen sin más. Otro aspecto clave es asegurarse de que ciertos ítems no están sesgados contra determinado grupo. La tecnología psicométrica para la detección del sesgo es en la actualidad abundante y eficaz, véase, por ejemplo, una exposición en castellano en el trabajo de Fidalgo (1996).

Dos aspectos claves que los adaptadores deben de valorar, aparte de la adecuación de los propios estímulos, es el tipo de formato de los ítems y el concepto de velocidad en la ejecución de las tareas. Hay formatos, como el de elección múltiple, muy habituales en ciertas culturas, que no lo son tanto en otras. Estas diferencias pueden mitigarse con suficientes ejemplos y ejercicios. Los occidentales tendemos a asumir que no sólo hay que hacer las cosas bien, sino rápido, y así somos socializados desde niños. Pero esta asunción no se da en todas las culturas (van Leest y Bleichrodt, 1990; van de Vijver y Poortinga, 1991), y cuando se les pide que trabajen en la prueba lo más rápidamente posible, no entienden qué prisa puede haber para acabar pronto, pues probablemente tiempo es de las pocas cosas de las que están sobrados. Hay que tratar de minimizar los efectos de la velocidad de respuesta, siempre y cuando, claro está, no forme parte del constructo a evaluar.

Aplicación: La forma en la que se aplica un test influye en sus propiedades psicométricas, tales como su fiabilidad y validez. Las relaciones de los aplicadores con las personas a las que se pasa el test (rapport), la forma de dar las instrucciones de la prueba, y en general las interacciones aplicador-examinado deben de cuidarse al máximo. Como señala Hambleton (1996), los aplicadores, a) deben ser elegidos entre personas de la población a la que se aplica el test, b) estar familiarizados con los distintos matices de la cultura de que se trate, c) tener experiencia y aptitudes para la aplicación de tests, y d) conocer la importancia de seguir al pie de la letra los procedimientos reglados para la aplicación de los tests. Deben de programarse sesiones de entrenamiento riguroso para los aplicadores.

Interpretación: En general, interpretar los resultados de cualquier test requiere un psicólogo especialista en el área del test y con la formación psicométrica apropiada. Y esto sigue siendo válido cuando el test proviene de una adaptación. Lo que ocurre es que con los tests adaptados hay un peligro adicional, a saber, la tentación de comparar grupos o países en el test y establecer una clasificación de ganadores y perdedores. Como señalan algunos autores (Hambleton y Bollwark, 1991; Wesbury, 1992), los estudios comparativos deberían de usarse para comprender las semejanzas y diferencias entre los grupos analizados, pero nunca para establecer comparaciones sin más. Y no es adecuado establecerlas porque raramente encontraremos dos comunidades que sean equiparables completamente en aspectos tan influyentes como motivación a la hora de hacer las pruebas, curricula escolares, valores culturales, nivel de vida, políticas educativas, oportunidades de acceso a la educación, etc.

Finalmente, para interpretar las puntuaciones el psicólogo debe de disponer de una documentación exhaustiva acerca de cómo se llevó a cabo el proceso de adaptación. El manual del test deberá incluir todo tipo de detalles del proceso adaptativo, que en determinadas circunstancias pueden dar las claves interpretativas de un resultado.

Directrices para la adaptación de los tests

Para tratar de minimizar los errores en las cuatro grandes áreas citadas (contexto, adaptación, aplicación e interpretación), el Comité de la Comisión Internacional de Tests (ITC), propuso recomendar veintidós directrices que se consideran claves para una correcta adaptación o construcción simultánea de los tests psicológicos y educativos.

Contexto

C.1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos centrales del estudio deberían minimizarse en la medida de lo posible.

C.2. Debería de evaluarse la cuantía del solapamiento de los constructos en las poblaciones de interés.

Adaptación del test

D.1. Los constructores/editores de tests deberían de asegurar que el proceso de adaptación tiene en cuenta las diferencias lingüísticas y culturales entre las poblaciones a las que se dirigen las versiones adaptadas del test.

D.2. Los constructores/editores de los tests deberían de proporcionar datos que garanticen que el lenguaje utilizado en las instrucciones, en los propios ítems y en el manual del test, son apropiados para todas las poblaciones culturales e idiomáticas a las que va dirigido el test.

D.3. Los constructores/editores de tests deberían de aportar evidencia de que las técnicas de evaluación elegidas, los formatos de los ítems, las reglas de los tests, y los procedimientos son familiares a todas las poblaciones a las que van dirigidos.

D.4. Los constructores/editores de tests deberían de facilitar evidencia de que el contenido de los ítems y los materiales de los estímulos son familiares para todas las poblaciones a las que van dirigidos.

D.5. Los constructores/editores de tests deberían aportar una justificación racional sistemática, tanto lingüística como psicológica, para mejorar la precisión del proceso de adaptación, así como reunir datos acerca de la equivalencia de todas las versiones en los distintos idiomas.

D.6. Los constructores/editores de tests deberían asegurar que el diseño de recogida de datos permite el uso de técnicas estadísticas apropiadas para establecer la equivalencia entre los ítems correspondientes a las diferentes versiones idiomáticas del test

D.7. Los constructores/editores de tests deberían aplicar técnicas estadísticas apropiadas para 1) establecer la equivalencia entre las diferentes versiones de un test, y 2) identificar componentes problemáticos o aspectos del test que puedan ser inadecuados para alguna de las poblaciones a las que va destinado el test.

D.8. Los constructores/editores de tests deberían proporcionar información sobre la evaluación de la validez en todas las poblaciones objetivo a las que va dirigido el test adaptado.

D.9. Los constructores/editores de tests deberían aportar datos estadísticos sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos.

D.10. No deben utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes poblaciones cuando se prepara una escala común, o cuando se comparan estas poblaciones. Sin embargo, pueden ser útiles para reforzar la validez de contenido de las puntuaciones de cada población por separado.

Aplicación

A.1. Los constructores y los aplicadores de los tests deberían tratar de prever los tipos de problemas que cabe esperar, y tomar las medidas oportunas para evitarlos mediante la preparación de materiales e instrucciones adecuados.

A.2. Quienes aplican los tests deberían de ser sensibles a cierto número de factores relacionados con los materiales utilizados para los estímulos, los procedimientos de aplicación, y las formas de respuesta, que pueden reducir la validez de las inferencias extraidas de las puntuaciones.

A.3. Aquellos aspectos del entorno que influyen en la aplicación del test deberían de mantenerse lo más parecidos posible para todas las poblaciones a las que va dirigido el test.

A.4. Las instrucciones para la aplicación del test en el idioma fuente y en el objetivo deben minimizar la influencia de fuentes de variación no deseadas.

A.5. El manual del test debería de especificar todos los aspectos del test y de su aplicación que han de revisarse al utilizarlo en un nuevo contexto cultural.

A.6. El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los examinados. Deben de seguirse al pie de la letra las reglas explícitas descritas en el manual del test.

Interpretación de las puntuaciones

I.1. Cuando se adapta un test para utilizarlo en otra población, debe de facilitarse la documentación sobre los cambios, así como los datos acerca de la equivalencia entre las versiones.

I.2. Las diferencias entre las puntuaciones obtenidas por las muestras a las que se aplicó el test no deben de tomarse sin más directamente. El investigador tiene la responsabilidad de sustanciar las diferencias con otros datos empíricos.

I.3.Las comparaciones entre poblaciones sólo pueden hacerse al nivel de la invarianza que se haya establecido para la escala en la que se expresan las puntuaciones.

I.4. El constructor del test debería de proporcionar información específica acerca de las distintas formas en las que los contextos socioculturales y ecológicos de las poblaciones pueden afectar al rendimiento en el test, y debería sugerir procedimientos para tener en cuenta estos efectos en la interpretación de los resultados.

Algunos comentarios a las directrices

En el documento final que la Comisión Internacional de Tests editará con las directrices, cada una de ellas llevará una explicación y fundamentación de su sentido, se indican los pasos a seguir para cumplirla, se señalan los errores más frecuentes y se sugieren referencias y documentación complementarias. Aquí nos limitaremos a hacer algunos comentarios generales. Para una exposición más detallada en castellano véase Hambleton (1996).

Contexto. Las dos primeras directrices tratan de asegurar que haya una equivalencia de los constructos medidos en las dos poblaciones de interés. A medida que la distancia cultural entre las dos (o más) poblaciones de interés aumenta, más probabilidades hay de que haya diferencias entre los constructos. Por ejemplo, una variable tan clásica como la inteligencia tiende a ser conceptualizada de muy diverso modo de unas culturas a otras; mientras en Occidente suele asociarse a eficiencia y rapidez, en algunas sociedades del Este se asocia con actitudes reflexivas y reposadas, más que con rapidez (Lonner, 1990). La primera directriz hace hincapié en la necesidad de minimizar la incidencia de cualquier aspecto ajeno al constructo medido. Por ejemplo, en algunos estudios internacionales recientes (Wainer, 1993) se observó que las diferencias en motivación podían estar a la base de algunas de las diferencias halladas.

Adaptación. Una vez que los constructores del test han aportado los datos que garantizan que hay una equivalencia apropiada entre los constructos a medir en ambas poblaciones, y por tanto tiene sentido adaptar el test, empieza el proceso real de su construcción. Este proceso une a la problemática psicométrica general para construir un test la dificultad añadida de plasmar fielmente el test original, si se trata de una adaptación; podría darse el caso también de una doble construcción simultánea en las dos (o más) poblaciones de interés. El meollo central de la construcción/adaptación gira en torno al funcionamiento adecuado del equipo de traductores. Amén de la posibilidad de utilizar diseños técnicos sofisticados, con la utilización de monolíngües y bilíngües para asegurarse de las equivalencias, es clave que los traductores conozcan las culturas implicadas además de los idiomas (Bracken y Barona, 1991; Brislin, 1986; Hambleton y Kanjee, 1995; Prieto, 1992). Tal vez algunos puristas apuntarán que no se puede dominar un idioma sin hacerlo también con la cultura y costumbres, y seguramente tienen razón, pero hay que asegurarse de ello. Es imprescindible que los traductores, aún sin ser expertos, conozcan las reglas básicas de la construcción de los tests. Por poner un solo ejemplo, los traductores tienen que saber que cuando se utilizan ítems de elección múltiple la longitud de las alternativas tiene que ser aproximadamente la misma. Una buena exposición en castellano sobre la construcción de los ítems puede consultarse en Prieto y Delgado (1996). Las directrices subrayan la necesidad de asegurarse que los contenidos, formatos, estímulos, gráficos, diagramas, figuras, unidades de medida, y signos en general, son igualmente familiares para las culturas implicadas.

Otro aspecto clave subrayado en varias de las directrices es que los constructores recojan datos de todo tipo que permitan evaluar la validez y comparabilidad de las dos versiones. La tecnología estadística es actualmente potente y variada para analizar los datos, pero no hay que olvidar que cuanto más amplias sean las muestras utilizadas con más eficacia funcionan las técnicas estadísticas. Estas técnicas son complementarias de los correspondientes análisis racionales, no los sustituyen. En los últimos años se ha perfeccionado notablemente la tecnología para evaluar el sesgo de las puntuaciones (Camilli y Shepard, 1994; Fidalgo, 1996; Holland y Wainer, 1993), pero sigue siendo de suma importancia el análisis racional por parte de un equipo de expertos en las culturas implicadas. Lo que las técnicas detectan es que cierto ítem funciona de modo diferente en un grupo que en otro, por eso suelen agruparse bajo el nombre genérico de Funcionamiento Diferencial de los Items, será el psicólogo quien tenga que analizar las razones de ese funcionamiento diferencial. En síntesis, hay que garantizar tanto por medios estadísticos como analítico-racionales que el test es igualmente válido para las poblaciones de interés.

Aplicación. Las seis directrices correspondientes a la aplicación de los tests tratan de subrayar aquellos aspectos claves para una aplicación correcta de los tests. A veces se descuida la aplicación, confiándola a personas sin la debida formación. Esto constituye un grave error, pues una aplicación defectuosa afecta directamente a la validez del test. Si esto ocurre en general, cuando se trata de un test adaptado hay que extremar las precauciones, asegurándose que las condiciones de aplicación no constituyen una fuente de error respecto del test original. El peligro es mayor cuanto mayor es la distancia cultural entre las poblaciones origen y objetivo. El aplicador no debe de interferir ni con su conducta, apariencia, instrucciones, etc., en el proceso estrictamente reglado de la aplicación del test. Los constructores de los tests deben de asegurarse mediante una selección y entrenamiento adecuados que los aplicadores actúan correctamente. Suele ser muy útil llevar a cabo algún estudio piloto para comprobarlo.

Interpretación de las puntuaciones. En el paso final correspondiente a la interpretación de las puntuaciones puede echarse a perder toda la labor anterior de construcción y aplicación del test si no se actúa adecuadamente. En primer lugar, las puntuaciones de los tests siempre son datos que deben de utilizarse convergentemente con otros en la toma de decisiones. Ayudará notablemente a la interpretación si se dispone de la documentación apropiada sobre todo el proceso de construcción y aplicación, diseños utilizados, métodos para la evaluación de la equivalencia entre las dos versiones, ítems que se han modificado y por qué, etc. Así y todo se recomienda prudencia extrema a la hora de interpretar las diferencias halladas entre poblaciones distintas. No se pueden interpretar directamente sin más, hay que fundamentar esas diferencias, cuyas posibles causas pueden ser múltiples. Por ejemplo, cuando se compara el rendimiento académico de estudiantes de países desarrollados con otros del tercer mundo, pueden atribuirse simplista e irresponsablemente las diferencias a diferencias reales en las correspondientes aptitudes, cuando en realidad existen toda una serie de factores diferenciales tales como las políticas educativas, los curricula, el acceso a la escolarización, equipamientos y recursos educativos disponibles, idioma materno frente al escolar, etc., por citar sólo algunos ejemplos. Las directrices subrayan la necesidad de una prudencia suma a la hora de interpretar las diferencias. La tecnología psicométrica desarrollada bajo el enfoque de la teoría de respuesta a los ítems (Hambleton et al., 1991; Muñiz, 1996b; Navas, 1996), permite establecer equiparaciones entre las puntuaciones con bastante precisión.

Resumen y Conclusiones. Se han presentado las directrices para la traducción y adaptación de los tests elaboradas por la Comisión Internacional de Tests, en la que ha participado el Colegio Oficial de Psicólogos de España, dada la importancia de este asunto para nuestro país, donde se utilizan numerosos tests originarios de otras culturas. Estas directrices aparecerán publicadas en un amplio documento, un breve avance del cual es lo que se ha expuesto aquí. El primer aspecto a reseñar es que la traducción de un test no es una mera cuestión lingüística, conlleva una verdadera adaptación a la cultura en la que se quiere introducir. Esta labor de adaptar un test no es simple, articulándose en torno a cuatro grandes áreas las fuentes de error más habituales: el contexto sociocultural de las poblaciones implicadas, la propia construcción-adaptación del test, su aplicación, y la interpretación de las puntuaciones. Las directrices propuestas se dirigen a aquellos aspectos que deben cuidarse especialmente, aunque no es posible dar un recetario o vademecum que recoja todas las fuentes potenciales de error. En lo que corresponde al contexto, es central asegurarse que el constructo a evaluar es equivalente en las poblaciones de interés, lo cual está muy relacionado con la distancia cultural entre unas y otras. La mayoría de los constructos psicológicos vienen influidos por el marco sociocultural de las personas, por lo que no se puede asumir sin más la invarianza intercultural de los constructos. Ya puestos a adaptar la prueba, la selección de un equipo multicultural de traductores es básico. Estos deben no sólo dominar los idiomas implicados, sino conocer los matices culturales y tener una base mínima de conocimientos acerca de la confección de los tests. Una aplicación defectuosa puede echar por tierra toda la labor previa y atentar gravemente contra la validez del test. La selección y entrenamiento de los aplicadores es una tarea central para el uso correcto del test. Finalmente las directrices previenen contra el uso alegre de las diferencias interculturales, cuya explicación puede deberse a causas muy variadas. Lo fundamental de una prueba es que dé información sobre la población estudiada, permitiendo diagnósticos precisos para intervenir con eficacia; el análisis de las diferencias interpoblacionales es secundario, y seguramente menos significativo psicológicamente que el estudio de las semejanzas.

Bibliografia

American Educational Research Association, American Psychological Association, National Council on Measurement in Education (1985). Standards for educational and psychological testing. Washington, DC.: American Psychological Association.

Bartram, D. (1996). Tests qualifications and test use in UK: the competence approach. European Journal of Psychological Assessment, 12(1), 62-71.

Bracken, B. A. y Barona, A. (1991). State of the art procedures for translating, validating and using psycho-educational tests in cross-cultural assessment. School Psychology International, 12, 119-132.

Brislin, R. W. (1986). The wording and translation of research instruments. En W. J. Lonner y J. W. Berry (eds.), Field methods in cross-cultural psychology (pp. 137-164). Newbury Park, CA: Sage Publications.

Camilli, G. y Shepard, L. A. (1994). Methods for identifying biased test items. London: Sage Publications.

Evers, A. (1996). Regulations concerning test qualifications and test use in The Netherlands. European Journal of Psychological Assessment, 12, 2, 153-159.

Fidalgo, A. (1996). Funcionamiento diferencial de los ítems. En J. Muñiz (coor.), Psicometría. Madrid: Universitas.

Fremer, J. (1996). Promoting high standards for test use: developments in the United States. European Journal of Psychological Assessment, 12, 2, 160-168.

Hambleton, R. K. (1993). Translating achievement tests for use in cross-national studies. European Journal of Psychological Assessment, 9, 1, 57-68.

Hambleton, R. K. (1994). Guidelines for adapting educational and psychological tests: a progress report. European Journal of Psychological Assessment, 10, 3, 229-244.

Hambleton, R. K. (1996). Adaptación de tests para su uso en diferentes idiomas y culturas: fuentes de error, posibles soluciones y directrices prácticas. En J. Muñiz (Coor.), Psicometría. Madrid: Universitas.

Hambleton, R. K. y Bollwark, J. (1991). Adapting tests for use in different cultures: technical issues and methods. Bulletin of the International Test Commission, 18, 3-32.

Hambleton, R. K. y Kanjee, A. (1995). Translation of tests and attitude scales. En T. Husen y T. N. Postlewaite (eds.), International Encyclopedia of Education (2ª ed. pp. 6326-6334). Oxford, UK: Pergamon Press.

Hambleton, R. K., Swaminathan, H. y Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Publications.

Holland, P. W. y Wainer, H. (eds.) (1993). Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Publishers.

Lonner, W. J. (1990). An overview of cross-cultural testing and assessment. En R. W. Brislin (ed.), Applied cross-cultural psychology. (Vol. 14, pp. 56-76). Newbury Park, CA: Sage Publications.

Muñiz, J. (1996a). Reunión en Madrid de la Comisión Europea de Tests. Papeles del Psicólogo, 3, 65, 89-91.

Muñiz, J. (1996b) (coor.). Psicometría. Madrid: Universitas.

Navas, M. J. (1996). Equiparación de puntuaciones. En J. Muñiz (coor.), Psicometría. Madrid: Universitas.

Prieto, A. J. (1992). A method for translation of instruments to other languages. Adult Education Quarterly, 43, 1-14.

Prieto, G. y Delgado, A. R. (1996). Construcción de los ítems. En J. Muñiz (coor.), Psicometría. Madrid: Universitas.

Van Leest, P. F. y Bleichrodt, N. (1990). Testing of college graduates from ethnic minority groups. En N. Bleichrodt y P. J. Drenth (eds.), Contemporary issues in cross-cultural psychology. Amsterdam: Swets and Zeitlinger.

Van de Vijver, F. y Hambleton, R. K. (1996). Translating tests: some practical guidelines. European Psychologist, 1, 2, 89-99.

Van de Vijver, F. y Poortinga, Y. H. (1991). Testing across cultures. En R. K. Hambleton y J. Zaal (eds.), Advances in educational and psychological testing. Boston: Kluwer Academic Publishers.

Van de Vijver, F. y Lonner, W. (1995). A bibliometric analysis of the Journal of Cross-Cultural Psychology. Journal of Cross-Cultural Psychology, 26, 591-602.

Wainer, H. (1993). Measurement problems. Journal of Educational Measurement, 30, 1-21.

Westbury, I. (1992). Comparing American and Japanese achievement: Is the United States really a low achiever? Educational Researcher, 21, 10-24.

Nota. Este trabajo fue realizado durante una estancia de José Muñiz en la Univeridad de Massachusetts, con una beca de investigación del Ministerio de Educación y Ciencia, referencia PR95-342.