Papeles del Psicólogo

Papeles del Psicólogo, 2002. Vol. (81).

LA DÉCADA 1989-1998 EN LA PSICOLOGÍA ESPAÑOLA: UN ANÁLISIS DE LAS LÍNEAS DE INVESTIGACIÓN EN ESTADÍSTICA, METODOLOGÍA Y TEORÍA PSICOMÉTRICA

Miguel A. García-Pérez

Universidad Complutense de Madrid

En este artículo se presenta un análisis de los trabajos de investigación publicados durante la década 1989-1998 por profesores numerarios españoles en las áreas de métodos estadísticos, metodología de investigación y psicometría. La búsqueda en bases de datos y la correspondencia directa con profesores del área de Metodología de las Ciencias del Comportamiento dio como resultado una lista de 193 artículos publicados por 82 profesores. Éstos y otros profesores del área han publicado en realidad 931 artículos durante la década objeto de análisis, pero 738 de ellos abordaban materias que no encajan con lo analizado en el presente trabajo. La clasificación y análisis de estos 193 artículos reveló una serie de temas que se han abordado profusamente (psicofísica, teoría de respuesta a los ítems, análisis de varianza, análisis secuencial y meta-análisis) así como otros que han recibido una menor atención (escalamiento, análisis factorial, series temporales y modelos estructurales). Un número importante de artículos ha abordado problemas metodológicos (software, algoritmos, instrumentación y técnicas experimentales). La mayor parte del presente artículo está dedicada a describir los asuntos abordados en estos 193 artículos- la mayoría de los cuales están escritos en español y publicados en revistas españolas- y se citan algunos artículos representativos.

This paper presents an analysis of research published in the decade 1989–1998 by Spanish faculty members in the areas of statistical methods, research methodology, and psychometric theory. Database search and direct correspondence with faculty members in Departments of Methodology across Spain rendered a list of 193 papers published in these broad areas by 82 faculty members. These and other faculty members had actually published 931 papers over the decade of analysis, but 738 of them addressed topics not appropriate for description in this report. Classification and analysis of these 193 papers revealed topics that have attracted the most interest (psychophysics, item response theory, analysis of variance, sequential analysis, and meta-analysis) as well as other topics that have received less attention (scaling, factor analysis, time series, and structural models). A significant number of papers also dealt with various methodological issues (software, algorithms, instrumentation, and techniques). A substantial part of this report is devoted to describing the issues addressed across these 193 papers -most of which are written in the Spanish language and published in Spanish journals- and some representative references are given.

Este informe abarca las áreas de los métodos de investigación comportamental, métodos estadísticos, psicología matemática y teoría psicométrica. Las cuestiones abordadas en los artículos incluidos en este análisis caen dentro de las categorías consideradas como apropiadas para la presentación de material en jornadas que abarcan estos temas (véase la lista en la Tabla 1), los cuales se publican en revistas como Applied Measurement in Education, Applied Psychological Measurement, Behavior Research Methods, Instruments, y Computers, el British Journal of Mathematical and Statistical Psychology, Educational and Psychological Measurement, el Journal of Educational Measurement, el Journal of Mathematical Psychology, Multivariate Behavioral Research, Psychological Methods, y Psychometrika entre otras. Así, este análisis abarca material similar en contenido al que a menudo se publica en esas revistas, aunque sólo una pequeña cantidad de este material realmente se publicó en ellas (véase más abajo).

No aparecen en la Tabla 1 los temas principales de la psicología matemática: preferencia, elección probabilística, medición, tiempos de reacción y sus modelos. Una razón de esta falta es que un determinado número de trabajos que comprueban o proponen modelos matemáticos se han distribuido para su análisis en otros artículos de este número monográfico (véase abajo), donde son más apropiados por los procesos modelizados. Por ejemplo, la investigación sobre los modelos matemáticos de los procesos psicológicos (atención, percepción, aprendizaje, memoria, etc.) la realiza Igoa (este número), y atestigua la lenta pero continua transferencia del enfoque cuantitativo y teórico de la psicología matemática a todos los campos de la psicología cognitiva y experimental (Batchelder y Riefer, 1999; Luce, 1997; Ratcliff, 1998). Sin embargo, hemos analizado aquí un subconjunto de trabajos en psicofísica y teoría psicométrica. Una segunda explicación de las ausencias en la Tabla 1 es un poco más alarmante: la simple falta de investigación en aquellas áreas de psicología matemática.

En la línea de las características de este número monográfico, solamente se incluyeron para su análisis aquellos trabajos publicados por investigadores españoles, una decisión que no debe malinterpretarse en este mundo revuelto de crecientes nacionalismos. De hecho, los temas de interés científico no conocen fronteras políticas o administrativas (salvo la investigación muy regional; considérese las cuestiones acerca de las minorías sociales o las idiosincrasias culturales), y así no parece razonable distribuir la investigación científica en categorías aisladas según la nacionalidad de los autores. Sin embargo, este informe no es una revisión temática. Además, las políticas nacionales con respecto a la investigación científica actúan como catalizadores (u obstáculo), lo cual podría explicar las diferencias en la productividad científica en los distintos países; así, los análisis nacionales actúan como indicadores indirectos para una comparación transnacional de los efectos de dichas políticas. Por otro lado, la publicación en idiomas no estándar (esto es, distinto del inglés) implica que la comunidad internacional no tiene acceso a los resultados, ya sea por la falta de familiaridad con el propio idioma, ya sea por la disponibilidad limitada de las revistas donde se publica dicha investigación.

Debido a ello, el objetivo de nuestro análisis es describir la investigación que han realizado los expertos españoles durante la década 1989-1998, investigación de acceso limitado porque se ha publicado principalmente en revistas españolas y en el idioma español (véase abajo), a pesar del hecho de que los temas abordados realmente son de interés general.

UN BREVE COMENTARIO SOBRE EL MÉTODO

Nuestro método se describe en detalle en el artículo de Fernández (este número). Brevemente, se buscó en las bases de datos (PsycLIT, eric, medline) los trabajos publicados entre 1989 y 1998 (inclusive) por cada uno de los 154 profesores numerarios de los Departamentos de Metodología de las Ciencias del Comportamiento en todas las 22 Universidades españolas elegibles.1 La búsqueda inicial ingenua basada en el primer apellido de cada profesor numerario2 reveló errores en la trascripción y errores en la compilación de estas bases de datos que recuerdan a los bien conocidos errores de citación (Brown, 1999; Kotiaho, 1999; Kotiaho, Tomkins, y Simmons, 1999; Price, 1998). Esta anomalía nos animó a realizar otras búsquedas exhaustivas basadas en el segundo apellido y en combinaciones de apellidos de cada profesor numerario.

Una vez que parecía que se habían llevado a cabo todas las variaciones posibles de búsqueda y se había reunido una lista de referencias aparentemente satisfactoria, se contactó por correo con cada uno de los profesores numerarios para pedirle su confirmación de cada una de las referencias de su lista, y si era posible, que proporcionara otras referencias no reflejadas en la búsqueda de las bases de datos. No se devolvió ninguna de dichas cartas por imposibilidad de entrega. Respondieron 69 (44,8%) de los profesores numerarios (de 20 de las 22 universidades), dando como resultado una lista final por autor de 1258 papeles. No obstante, muchos trabajos aparecían varías veces (una vez por cada co-autor admisible3).

A continuación se comprobó cada referencia de esta lista para comprobar que cumpliera el requerimiento de que el trabajo describiera investigación en las áreas dentro de los temas amplios abarcados por este análisis. Como resultado, se consideraron inapropiadas4 869 referencias (69%), pero se distribuyeron para ser analizados por los autores de otros informes de este número monográfico.5 Además, 88 de las restantes referencias (62 distintos) no cumplían los criterios de inclusión descritos por Fernández (este número), por lo que también se desecharon. En total, este proceso de selección dio como resultado un listado final por autores de 301 referencias (incluyendo la ocurrencia múltiple de trabajos escritos en colaboración con otros autores) para su análisis y clasificación.

En nuestro posterior análisis de estos artículos, no se hizo ningún intento de juzgar la relevancia de las cuestiones estudiadas ni la significatividad de las contribuciones. Las revistas en las que se publicaron los artículos emplean un proceso de revisión que debe garantizar la conformidad con unos mínimos criterios de calidad, y nos hemos fiado de la evaluación llevada a cabo por las revistas cuando aceptan artículos para su publicación.6 Por lo tanto, la inclusión de los artículos para su análisis en el informe actual no debe entenderse como indicación de que los trabajos hayan aprobado algún tipo de evaluación de su calidad realizada por el autor. Asimismo, no se excluyó ningún trabajo por un presunto suspenso en dicha evaluación.

ANÁLISIS DESCRIPTIVO DE LA INVESTIGACIÓN PUBLICADA

La eliminación de las apariciones múltiples de las 301 referencias de la lista final por autor dio como resultado la cifra total de 193 trabajos distintos y 82 profesores numerarios diferentes. Para llegar a estas cifras, cada trabajo individual se contabilizó una sola vez (fuese o no escrito por varios autores) y cada (co-)autor admisible se contabilizó también una sola vez (independientemente de si otros profesores numerarios o personas no relacionadas con la facultad fuesen los co-autores de los mismos trabajos). Esta cifra final de profesores numerarios que publican es relativamente pequeña comparada con los 154 miembros de Departamentos de Metodología en España, pero esto no significa que los profesores numerarios no fuesen productivos a lo largo del período de este análisis: simplemente muchos llevan a cabo su investigación en otras áreas de psicología (véase la nota 4) y dicha investigación se analiza en otra sección del número monográfico. Además, la reducida cifra final de 193 trabajos individuales (de los 301 trabajos, cuando se clasificaron por cada uno de los profesores numerarios admisible s) revela una cantidad sustancial de trabajo en equipo que produce artículos escritos en colaboración con otros autores.

Como primer repaso de esta investigación, la Figura 1a muestra el número de profesores numerarios (independientemente de otros co-autores) que han publicado varios números de trabajos. Nótese que más de la mitad de los profesores numerarios (46 de los 82) han publicado sólo uno o dos trabajos en sus campos nominales, lo que indica más bien escaso interés grupal en desarrollar el campo. (Recordamos al lector que el interés de la mayoría de estos profesores numerarios cae en áreas de psicología analizadas en otras secciones de este número monográfico.) La Figura 1b muestra un histograma del número de autores por estudio (independientemente de si los co-autores eran o no profesores numerarios en estos departamentos, en otros departamentos, o en instituciones extranjeras). El número de trabajos con dos o tres autores representa aproximadamente el 73% del total de la cifra de trabajos publicados en este período, indicando un nivel saludable de cooperación, el cual también involucra a colegas extranjeros: el 10% de los trabajos escritos en colaboración con otros autores (16 de 159) incluían al menos un co-autor afiliado a una institución no española. Por último, la Figura 1c muestra el número de trabajos publicados en cada uno de los años abarcados por este análisis. Aparte de un número relativamente reducido de artículos en los primeros años, la tasa general de publicación es bastante estable, algo más de 20 trabajos por año desde 1992.

La Tabla 2 presenta un sumario del medio de publicación y la disponibilidad de esta investigación, indicando el número de artículos publicados en revistas internacionales en comparación con revistas españolas y dentro de éstas, los trabajos escritos en inglés en comparación con los escritos en español. Se pone claramente de manifiesto que la práctica más habitual de los autores españoles consiste en escribir sus manuscritos en español y enviarlos a revistas españolas para su publicación. La consecuencia obvia de esta costumbre es que la mayor parte de esta investigación pasa inadvertida por la comunidad internacional.

La Tabla 3 muestra la distribución de los artículos por revista y área, diferenciando entre las revistas españolas y las internacionales. Únicamente se registran por separado en la Tabla 3 aquellas revistas en las que aparecieron publicados cinco o más trabajos de la lista completa de áreas; todas las demás revistas se han agregado en las categorías de "otras" (las cuales, de nuevo, aparecen por separado en los apartados de revistas españolas y extranjeras).

La gran mayoría de la investigación publicada en revistas españolas (97 de 144 estudios; 67%) ha aparecido únicamente en dos revistas generales (Psicológica y Psicothema), mientras que la investigación publicada en revistas internacionales aparece distribuida de forma más equilibrada en revistas especializadas. Nótese también que la distribución de la investigación es desigual en cada una de las áreas en las revistas internacionales, lo que simplemente refleja el área definitoria de cada revista.

Excluyendo los temas dentro de las dos áreas que aparecen al final de la Tabla 3 (software, algoritmos, instrumentación y técnicas), el enfoque de los temas específicos en cada una de las tres restantes áreas puede ser teórico/analítico (centrado en cuestiones teóricas o en el desarrollo analítico), empírico (recurre a datos empíricos de sujetos reales) o por simulación (genera datos artificiales para abordar cuestiones teóricas o prácticas que posiblemente no se prestan a métodos analíticos o a la investigación empírica). La Tabla 4 muestra el número de trabajos en cada una de estas tres áreas que recurrían principalmente a cada enfoque. Se ve claramente que la investigación en psicofísica sensorial y cognitiva ha sido exclusivamente empírica, mientras que la investigación de los métodos cuantitativos y estadísticos ha empleado principalmente el enfoque de la simulación; por otro lado, la investigación en la teoría y aplicaciones psicométricas ha empleado principalmente enfoques empíricos y de simulación, aunque parecen predominar los estudios empíricos. Combinando todas las áreas, el desarrollo teórico o analítico ha sido relativamente escaso, mientras que el número de estudios empíricos y de simulación es equilibrado y representa aproximadamente el 85% del número total de artículos en las tres áreas.

ÁREAS ESPECÍFICAS DE INVESTIGACIÓN

En esta sección se describen los temas principales abordados en el conjunto de artículos dentro de las áreas amplias que aparecen en la Tabla 3. Dado que no es posible reflejar cada uno de los trabajos (o autores), sólo se referirá explícitamente a unos pocos trabajos, aquellos que describen contribuciones destacadas de forma más extensa. Esta selección de trabajos se hizo principalmente de acuerdo con los criterios generales descritos por Fernández (este número), es decir, centrada en el trabajo de autores individuales que (independientemente o en colaboración con otros) han publicado cinco o más estudios sobre un tema específico a lo largo del período abarcado por este análisis. Aunque el análisis en sí sólo abarcaba la década de 1989-1998, se menciona algunos artículos publicados posteriormente si éstos son más amplios, ofrecen una perspectiva mejor, o proporcionan más pistas hacia la literatura relacionada.

No obstante, dichos criterios dejarían fuera una cantidad significativa de investigación. De hecho, hay áreas en las que ningún individuo por sí solo ha publicado cinco o más trabajos, y sin embargo la cifra total de trabajos publicados acerca de estos temas excede ampliamente el número de cinco. No parece razonable ignorar estas áreas de investigación por la falta de un líder identificable y, por ello, también describiremos estas áreas de firma miscelánea en los epígrafes apropiados. En este caso, se citan los trabajos que, en opinión del autor de este artículo, puedan ser más útiles para que el lector interesado se haga una idea de la situación de este área de investigación en España. Además, en igualdad de condiciones, hemos optado por citar artículos de revistas españolas porque los trabajos publicados en revistas internacionales serán más fáciles de localizar por el lector interesado.

Por último, simplemente se enumerarán aquellos temas abordados en menos de cinco trabajos (del conjunto total de 193) testimonialmente, pero no se ofrecerán las referencias.

PSICOFÍSICA SENSORIAL Y COGNITIVA

Se acepta que la psicofísica sensorial marca el principio de la psicología matemática, y ciertamente su enfoque empírico es el origen la psicología experimental moderna (Fechner, 1987; Scheerer, 1987). A pesar de su historia de siglo y medio, la psicofísica sensorial sigue siendo un área activa de investigación que reúne a los expertos cada año para celebrar el Día de Fechner. Una forma empírica de abordar las cuestiones implicadas en el escalamiento sensorial es determinar la forma funcional de la ley psicofísica que describe la relación entre la magnitud física de algún estímulo y su magnitud subjetiva tal y como la manifiestan los observadores humanos. La disputa tradicional sobre esta cuestión se relaciona con la universalidad de la ley psicofísica: de si una única relación funcional se puede aplicar a todos los sujetos y estímulos, independientemente del método empírico empleado para obtener las estimaciones subjetivas así como de los efectos del contexto. Fontes, Garriga, y Barbero (1993) emplearon una tarea de estimación de magnitudes para obtener datos sobre la distancia subjetiva entre dos líneas verticales para comparar el ajuste de leyes lineales, potenciales (Stevens) y logarítmicas (Fechner). Posteriormente, Fontes, Barbero, y Fontes (1994) realizaron un estudio para determinar si el rango de magnitudes en el conjunto estimular afecta el ajuste de estas diversas leyes.

Las medidas de sensibilidad pueden obtenerse mediante una serie de métodos empíricos, incluyendo la comparación entre modalidades, las tareas de estimación de magnitudes o de discriminación (P. ej., el método triangular), entre otros. Garriga-Trillo (1992) empleó el análisis de regresión para determinar si es el método de estimación de magnitudes o el de comparación entre modalidades el que se relaciona en mayor medida con las medidas físicas reales de los estímulos. Cada uno de los métodos empíricos empleados para obtener datos psicofísicos implica a su vez un equilibrio diferente de los procesos sensoriales puros y los componentes cognitivos, y la interacción de estos dos factores podría explicar algunas de las diferencias encontradas en distintos estudios, por ejemplo, las referidas a la confianza expresada por los sujetos experimentales en de la calidad de sus propios juicios. Garriga Trillo, Villarino, González Labra y Arnau (1994) propusieron un índice indirecto que permitiría la calibración de los juicios psicofísicos obtenidos en tareas de estimación de magnitudes, y también estudiaron el comportamiento del índice para evaluar empíricamente la confianza a partir de los datos de estimación de magnitudes.

TEORÍA PSICOMÉTRICA Y APLICACIONES

Un reducido subconjunto de investigación en esta área se ha ocupado de la comparación empírica de las propiedades de los tests en la teoría clásica de los tests en contraste con la teoría de respuesta al ítem (TRI), la evaluación de la unidimensionalidad en la TRI, o la parametrización de los tests convencionales de aptitudes y personalidad. Una cantidad significativamente mayor de trabajos se ha dedicado a cuatro áreas específicas de TRI que se describen a continuación.

Modelos de la TRI

Las funciones de respuesta al ítem (FRI) constituyen la pieza básica de la TRI. Una FRI especifica la probabilidad de que un examinando acierte la respuesta correcta a un ítem de elección múltiple, en función de los parámetros tanto del examinando y como del ítem. Las aplicaciones actuales de TRI se basan casi exclusivamente en FRI logísticas. García-Pérez y Frary (1991) desarrollaron una teoría de estados finitos para describir el comportamiento ante ítems de elección múltiple que da lugar a un conjunto nuevo de FRI, todas las cuales acaban teniendo la forma matemática de un polinomio. Las FRI polinómicas de estados finitos surgen de forma natural cuando se considera el comportamiento ante un test dentro del contexto de los modelos multinomiales en árbol (véase Batchelder y Riefer, 1999), e incorpora directamente a la forma matemática de la FRI características como las estrategias para contestar al azar por parte del examinando, el número de opciones por ítem, la identificabilidad relativa de las respuestas correctas frente a los distractores, el formato de aplicación del test, y otras características de los ítems como el empleo de la opción "ninguna de las respuestas anteriores". Además de las FRI, la teoría de estados finitos proporciona las expresiones de la probabilidad de cada tipo de respuesta (no sólo correcta/incorrecta) que podría surgir en cualquier formato de aplicación de un ítem de elección múltiple (P. ej., responder-hasta-acertar). Así, en la teoría de estados finitos, una FRI existe junto con otras funciones, cada una de las cuales expresa la probabilidad de uno de los demás tipos de respuesta en función de los parámetros y características del examinando así como de los ítems. A lo largo de los años el trabajo con este modelo ha consistido en ponerlo a prueba frente a varios conjuntos de datos empíricos, desarrollar y estudiar las propiedades de bondad de ajuste y los métodos de estimación de parámetros y comparar las propiedades psicométricas teóricas de diversos formatos de ítem (véase García-Pérez, 1999).

El empleo de las FRI convencionales (es decir, logísticas) inicialmente implica el supuesto de que las respuestas al ítem son dicotómicas (correctas/incorrectas), pero desarrollos teóricos posteriores han permitido el uso de métodos de TRI cuando las respuestas al ítem son todavía discretas pero politómicas, o cuando son continuas (pero posiblemente discretizadas al registrarse). Esto último ocurre con los inventarios de personalidad y aptitudes que consisten en ítems tipo Likert, cuyas opciones de respuesta definen un conjunto ordenado de categorías que revelan la fuerza de un rasgo continuo subyacente. Uno de los enfoques para tratar estos ítems consiste en recurrir al modelo de análisis factorial lineal. Ferrando (1996) propuso una extensión al modelo continuo de análisis factorial de respuesta al ítem que permite la calibración de los ítems y los análisis de grupos múltiples para la evaluación de la invarianza de los parámetros. Ferrando (1999) también comparó las características de los modelos continuos lineales (analítico-factoriales) y no lineales (TRI) aplicados a respuestas reales a ítems tipo Likert, empleando criterios como la bondad de ajuste, las estimaciones de parámetros de los ítems y de los sujetos y la validez de criterio.

Funcionamiento de los Métodos de Estimación de Parámetros

La aplicación práctica de la TRI requiere la estimación de los parámetros que mejor describan cada ítem individual de un test, dada una FRI conveniente, que a menudo se elige a priori. Se ha desarrollado un gran número de métodos de estimación de parámetros en los últimos tres décadas (principalmente para su uso con las FRI logísticas; véase Baker, 1987), y se puede comprar el software informático que implementa estos métodos. Además del supuesto estructural de una forma matemática para la FRI, todos estos métodos de estimación de parámetros se basan en supuestos acerca de la estructura de los datos, especialmente sobre la unidimensionalidad del espacio paramétrico del examinando (es decir, el supuesto de que la actuación del examinando ante cada ítem del test depende de un único rasgo), las dimensiones de espacio paramétrico del ítem (en el caso de los modelos logísticos, si las FRI asumidas deben incluir uno sólo o hasta cuatro parámetros diferentes) y la ausencia de tipos de respuesta que las FRI logísticas no pueden adecuar (P. ej., las omisiones). Una cuestión principal en la aplicación de los métodos TRI de estimación de parámetros consiste en comprobar si la violación de las características supuestas durante la estimación de los parámetros afecta el funcionamiento de los algoritmos y, por ello, hasta qué punto los métodos de estimación son insensibles a dichas violaciones. Muñiz, Rogers y Swaminathan (1989) estudiaron la capacidad del modelo Rasch de estimar con precisión las dificultades de los ítems y las habilidades del examinando (los únicos parámetros que se estiman en el modelo Rasch) cuando los datos se generan mediante el modelo logístico de tres parámetros. En una línea similar, Cuesta y Muñiz (1995) estudiaron los efectos de la multidimensionalidad del rasgo sobre las estimaciones obtenidas por métodos que suponen que las respuestas a los ítems dependen de un único rasgo.

Pruebas Adaptativas y Auto-Adaptadas

La invarianza de los parámetros de ítem y del examinando en TRI es la base para la aplicación de pruebas adaptativas por ordenador [en inglés, CAT, "computerized adaptive testing"] por la que la habilidad de cada examinando se mide con un conjunto a medida (y posiblemente único) de ítems que se eligen sobre la marcha (on-line) durante el proceso de aplicación de la prueba para obtener las estimaciones de habilidad con la máxima precisión posible, al menor coste posible. La aplicación de pruebas adaptativas requiere un banco calibrado de ítems de entre los cuales se seleccionan los ítems de la prueba, así como el uso de ordenadores para llevar a cabo el considerable cálculo on-line que requiere el proceso de selección de ítems. Sin un control de la exposición a los ítems, el CAT puede acabar aplicando al grupo de examinandos algunos ítems del banco con mucha más frecuencia que otros ítems. El propósito de los métodos de control de la exposición es prevenir este mal sin comprometer la precisión de las estimaciones de habilidad del CAT. Revuelta y Ponsoda (1998) propusieron dos nuevos métodos de control de la exposición y compararon su funcionamiento al de métodos anteriores.

El empleo de pruebas auto-adaptadas [en inglés, SAT, "self-adapted testing"] es una variante del CAT en la cual los propios examinandos eligen la dificultad del ítem siguiente, en vez de determinarse por un algoritmo apropiado de selección de ítems. Esta práctica posiblemente no es óptima desde la perspectiva psicométrica, pero puede resolver algunos problemas motivacionales y de ansiedad que el CAT parece generar. Ponsoda, Olea, Rodríguez y Revuelta (1999) llevaron a cabo un estudio empírico comparando el CAT y el SAT con respecto a sus propiedades psicométricas (las características de las estimaciones de habilidad obtenidas con cada método) y sus efectos psicológicos (la ansiedad generada por cada método).

Funcionamiento Diferencial de los Ítems

(firma miscelánea)

Aunque se supone que los parámetros de los ítems son invariantes en la TRI, existen pruebas empíricas de que individuos con la misma habilidad pero pertenecientes a distintos grupos (P. ej., cultura, sexo, etc.) no tienen la misma probabilidad de responder correctamente a determinados ítems, como si los parámetros que describen la FRI de estos ítems variase de unos grupos a otros. Inicialmente, estos ítems se denominaban "sesgados", pero la terminología actual los designa como DIF (de "Differential Item Functioning"; véase la discusión en Angoff, 1993, páginas 3-5). Dados los problemas sociales y legales que despierta el DIF, la investigación de los métodos estadísticos para detectarlo ha aumentado considerablemente en las últimas décadas. Siguiendo esta tradición, Gómez y Navas (1996) diseñaron un método paso a paso para detectar el DIF, e Hidalgo Montesinos y López Pina (1997) compararon el funcionamiento de varios métodos de detección del DIF.

MÉTODOS CUANTITATIVOS Y ESTADÍSTICOS

Un reducido número de trabajos en este área se ha ocupado de una variedad de problemas incluyendo el análisis de la potencia estadística en la investigación publicada en varias revistas, los métodos de análisis de los tiempos de reacción, los estudios de simulación de las tasas empíricas de los errores Tipo I y Tipo II cuando se violan los supuestos de varias pruebas estadísticas, o los estudios de simulación acerca de la distribución muestral de estadísticos de contraste para los que no se dispone de resultados analíticos. Algunas cuestiones en otras siete áreas han recibido más atención, como se describe a continuación.

Análisis de Varianza

En análisis de varianza (anova) tal vez sea el método estadístico que más se emplea en todas las áreas de la psicología experimental. Como todos los métodos paramétricos, el anova se diseñó bajo supuestos restrictivos con respecto a la distribución que los datos empíricos no siempre cumplen. Esto causa dudas sobre la adecuación y la robustez de anova, es decir, hasta qué punto su aplicación puede llevar a conclusiones fiables cuando los datos violan estos supuestos. anova sólo es un término general que se refiere a un conjunto muy diverso de métodos, cada uno de los cuales asume que los datos satisfacen un conjunto específico de restricciones, desde el caso relativamente sencillo de efectos fijos en diseños balanceados con un único factor de grupo, a los diseños más sofisticados no balanceados, incompletos, y/o multivariados con efectos aleatorios e incluyendo un número de factores de grupo y de medidas repetidas. Por ello, cualquier investigación sobre la adecuación de anova cuando los datos violan los supuestos definitorios necesariamente debe limitar su extensión a alguna versión específica de este procedimiento general.

En los diseños de medidas repetidas, donde cada unidad experimental proporciona múltiples respuestas a través de los niveles del factor de medidas repetidas, el anova exige que los datos cumplan el supuesto de la esfericidad: todos los niveles del factor tienen la misma varianza y todos los pares de niveles tienen la misma correlación. Sin embargo, se han diseñado modelos alternativos de anova que permiten otras estructuras en la matriz de covarianza de las medidas repetidas. La esfericidad es un supuesto de dudosa validez en diseños en los cuales es probable que los tratamientos en los distintos niveles del factor introduzcan dependencia serial en lo que deberían ser errores aleatorios con la misma distribución. Fernández y Vallejo (1997) llevaron a cabo un estudio de simulación para comparar los resultados del anova multivariado de datos con estas características empleando la estrategia alternativa de usar anova univariado en el que la estructura del error se había modelizado a través de un proceso auto-regresivo de primer orden.

El rechazo de cualquiera de las hipótesis nulas contrastadas mediante el anova aconseja el uso de procedimientos de comparación múltiple que contrastan diferencias entre pares de medias, y también parece adecuado realizar un análisis del funcionamiento de dichos procedimientos cuando se violan sus supuestos definitorios. Vallejo y Menéndez (1998) llevaron a cabo un estudio de simulación en el que se examinaron las tasas empíricas de los errores Tipo I y Tipo II de seis procedimientos de comparación múltiple con datos correlacionados en diseños anova de un solo factor de grupo, en función del tamaño muestral y del patrón de desviación de la hipótesis nula.

Análisis Secuencial

Las medidas repetidas pueden conllevar variables categóricas no aptas para realizar un anova. El análisis secuencial intenta descubrir patrones temporales en estas secuencias de datos categóricos. Si la hipótesis experimental incluye procesos o si los investigadores se interesan por la interacción entre los participantes, parece que lo más lógico sea observarles sistemáticamente y representar su comportamiento a medida que transcurra el tiempo. Bakeman y Quera (1995a) propusieron el "Sequential Data Interchange Standard" (SDIS; en español se podría traducir por "el estándar de intercambio de datos secuenciales"), un estándar para clasificar estos datos secuenciales y una sintaxis para representarlos en los archivos informáticos con el fin de analizarlos. También desarrollaron el "General Sequential Querier" (GSEQ; en español se podría traducir por "el interpelador secuencial general"), un programa informático de uso general para analizar datos secuenciales en formato SDIS. El SDIS puede representar una variedad de datos secuenciales, desde secuencias simples de sucesos no concurrentes hasta secuencias complejas y cronometradas de sucesos concurrentes. El GSEQ puede realizar análisis de secuencias demoradas de sucesos y análisis concurrentes de ventanas temporales ancladas a comportamientos específicos, dependiendo de si lo que se desea es comprobar una hipótesis de patrones secuenciales o una de patrones de sincronicidad. Es posible realizar análisis más sofisticados cuando se aplican los modelos log-lineales a tablas multidimensionales de secuencias demoradas y cuando se emplean técnicas de refinamiento para detectar los principales residuos significativos en dichas tablas (véase Bakeman y Quera, 1995b).

Meta-Análisis

El meta-análisis se considera actualmente un método bien establecido para integrar de forma cuantitativa los resultados obtenidos a través de estudios empíricos independientes sobre un mismo tema. A menudo se emplea el meta-análisis como herramienta para aproximarse a un tamaño muestral mayor que los que se emplean en cualquiera de los estudios independientes integrados de esta forma, siendo su meta general obtener una estimación más precisa del tamaño del efecto. Un paso preliminar fundamental en el procedimiento general es la evaluación estadística de la homogeneidad de los resultados en los distintos estudios, algo que justifique su integración basada en el supuesto (plausible) de que las variaciones en dichos estudios simplemente reflejan error muestral. Si la homogeneidad parece insostenible, la estrategia habitual consiste en comprobar la hipótesis de que algunas variables moduladoras (que hay que identificar) explican la heterogeneidad de los tamaños del efecto encontrados en los distintos estudios. Se pueden emplear varias estrategias estadísticas para contrastar esta hipótesis, y Sánchez-Meca y Marín-Martínez (1998) llevaron a cabo un estudio de simulación para comparar tres procedimientos con respecto a su sesgo, eficiencia y tasas de errores Tipo I y Tipo II, en función de factores como el número de estudios independientes implicado, el tamaño de la muestra en cada uno de ellos, y la distribución del tamaño del efecto.

Otro problema que aborda el meta-análisis es la forma de resumir los resultados de un estudio empírico que incluya varias variables dependientes, cuando se cree que todas son indicadores de un mismo constructo. Una estrategia consiste en promediar los tamaños del efecto calculados por separado en cada variable, aunque se puede promediar de varias formas. Marín-Martínez y Sánchez-Meca (1999) evaluaron las diferencias teóricas y empíricas entre varios procedimientos estadísticos para promediar.

Series Temporales (firma miscelánea)

Los diseños clínicos y conductuales a menudo conllevan datos registrados a lo largo de períodos largos de tiempo, normalmente con una interrupción en medio que corresponde a algún tratamiento cuya efectividad se trata de evaluar. Estos datos se someten a métodos estadísticos de análisis de series temporales. El uso de métodos espectrales exige que los datos satisfagan el supuesto de estacionariedad, algo que en muchos casos es insostenible. Los métodos en el dominio temporal no exigen este requisito, pero se basan en supuestos específicos acerca de la dependencia serial y la tendencia de una serie, y puede ocurrir que estos supuestos no se cumplan en los datos disponibles. Además, la aplicación de estos métodos multifásicos requiere cantidades de datos comparativamente mayores. Vallejo Seco (1994) estudió las consecuencias de omitir la fase de identificación en la aplicación de los métodos multifásicos, y Arnau y Bono (1998) compararon dos métodos alternativos de tratar series temporales cortas.

Escalamiento (firma miscelánea)

La determinación de una métrica y un procedimiento empírico apropiados para ordenar estímulos que reflejan dimensiones psicológicas es un problema antiguo cuya solución presenta muchas ramificaciones prácticas para la medida de las variables psicológicas. El escalamiento unidimensional es el enfoque más simple, por el que las respuestas de los sujetos en una tarea apropiada se emplean para colocar cada estímulo del conjunto experimental en un punto específico a lo largo de una única dimensión continua subyacente. Sospedra, Molina y Meliá (1994) propusieron un nuevo método para el escalamiento unidimensional que también compararon con cuatro alternativas que existían desde hace tiempo, y Cañadas Osinski y Sánchez Bruno (1998) determinaron empíricamente los valores escalares (de intervalos) de cuantificadores lingüísticos de frecuencia empleados en ítems tipo Likert en español.

Análisis Factorial (firma miscelánea)

En su apogeo, se pensaba que el análisis factorial (AF) era el método que revelaría la estructura de la inteligencia humana y, por extensión, la de todas las aptitudes psicológicas. Hoy día, se considera el AF como una herramienta estadística de uso general cuyo papel es más bien confirmatorio o explicatorio que el de construir teorías. Como tal, el AF es objeto del mismo escrutinio y desarrollo que otros métodos estadísticos, especialmente teniendo en cuenta que, en realidad, el AF describe un procedimiento general que puede implementarse de muchas formas diversas, las cuales a su vez pueden proporcionar distintas soluciones factoriales para los mismos datos. La mayoría de los trabajos de esta categoría comparan métodos de AF con respecto a los resultados que producen (véase Ferrando y Lorenzo, 1993; González-Romá, Hernández y Ferreres, 1997; Oliver, Sancerni, Tomás y Lis, 1995).

Modelos Estructurales (firma miscelánea)

Junto con el AF, los modelos de ecuaciones estructurales (o estructura de covarianza) ofrecen una metodología para comprobar teorías para esclarecer la estructura subyacente de un conjunto de datos. Estos modelos formalizan hipótesis acerca de los patrones de relaciones entre un conjunto de variables medidas empíricamente y un conjunto de variables latentes no observables. Su empleo práctico requiere la elaboración estadística obvia y el recurso a métodos de estimación de parámetros y estadísticos de bondad de ajuste, los cuales asumen unos supuestos más o menos restrictivos acerca de la distribución. Se trata de otro área en la que la evaluación del funcionamiento de dichos métodos parece obligatorio. Los trabajos de este área describen investigación en este sentido (véase Hernández y Ramírez, 1996; Hernández Cabrera, San Luis Costas y Guardia Olmos, 1995; Oliver, Tomás y Meliá, 1993).

SOFTWARE Y ALGORITMOS

Estrictamente hablando, el encabezamiento de esta sección no cuenta como una línea de investigación. Sin embargo, en prácticamente cualquier área, la investigación depende cada vez más de software y algoritmos que no son de uso general y, por lo tanto, no se han desarrollado comercialmente. La mayoría de los trabajos en esta categoría representan contribuciones de autores que tienen un área de investigación bien definida, algo que les ha debido animar a poner a disposición de los demás las herramientas informáticas que ellos han desarrollado para su trabajo.

Por su misma naturaleza, ésta es un área de firma miscelánea. Incluso los autores que han publicado cinco o más trabajos en esta categoría amplia han abordado problemas muy diferentes. Debido a ello, una descripción detallada (con referencias) de todo este trabajo no es apropiado aquí. En su lugar, la Tabla 5 ofrece una descripción resumida de las áreas específicas en las que son relevantes dicho software y algoritmos. En general, los trabajos en esta categoría presentan software para análisis de segundo orden que no se incluyen en los paquetes estadísticos de uso general ni en otro software comercialmente disponible (P. ej., para TRI). El software descrito en estos trabajos tiene características similares al que aparece en trabajos publicados en revistas como Applied Psychological Measurement, Applied Statistics, Behavior Research Methods, Instruments, y Computers, o Educational and Psychological Measurement, y, de hecho, 8 de estos 41 trabajos (19.5%) se publicaron en dichas revistas (véase Tabla 3).

INSTRUMENTACIÓN Y TÉCNICAS

Este área es similar al anterior (incluyendo su firma miscelánea), pero aquí se pone énfasis en el hardware y en la metodología general (excluyendo los métodos de análisis de datos). La diversidad temática es mayor en esta sección, y la Tabla 6 proporciona la clasificación de los 28 trabajos de esta categoría en las dos áreas principales de aplicación: métodos estadísticos/numéricos (incluyendo evaluación de software, análisis comparativo de procedimientos computacionales alternativos, estudios del funcionamiento de algoritmos en condiciones límite, análisis comparativo de generadores de números aleatorios, etc.) y métodos experimentales (incluyendo instrumentación y protocolos o diseños experimentales).

DISCUSIÓN

En este informe se ha presentado un análisis de la investigación publicada por los profesores numerarios españoles dentro de las áreas de métodos de investigación comportamental, psicología matemática, métodos estadísticos y teoría psicométrica. Teniendo en cuenta que este análisis abarca una década entera (1989-1998, ambos inclusive) y que hay 154 profesores numerarios en los Departamentos de Metodología de las Ciencias del Comportamiento en toda España, la cifra total de 193 trabajos publicados por 82 profesores numerarios parece una contribución grupal muy pequeña, aunque el análisis también reveló una contribución mucho mayor de estos 82 profesores numerarios así como de los demás profesores numerarios en otras áreas de la psicología descritas en otros artículos de este número monográfico.

La investigación presentada en estos 193 trabajos abordó temas de actual interés internacional, pero aproximadamente un 73% de los artículos (véase la Tabla 2) se ha publicado en revistas españolas y en el idioma español. Es claro que, desde la perspectiva de la ciencia, dicha práctica aísla esta investigación: es muy probable que la comunidad internacional siga sin percatarse de la investigación publicada en un idioma no estándar y en un medio apenas accesible. La validez de esta afirmación se corrobora mediante una búsqueda de referencias citadas en la versión de Internet del Social Sciences Citation Index (SSCI), que se llevó a cabo el 8 de julio de 2000, empleando para ello la base de datos a día 6 de julio de 2000. Psicológica, la revista española con el mayor número de artículos en el área e intervalo de nuestro análisis (véase la Tabla 3) no aparece en el SSCI, y, de los 47 trabajos publicados en Psicothema, se habían citado 20 (43%) en un total de 24 artículos. Un análisis de estas 24 citas reveló que todas ellas eran auto-referencias en otros artículos publicados por los mismos autores y en el propio Psicothema (21 casos), en otras revistas españolas (1 caso) o en revistas internacionales (2 casos).

Además, aunque la mayoría de las revistas españolas que aparecen en la Tabla 3 están registradas en las bases de datos electrónicas internacionales así como en Psychological Abstracts, las versiones impresas rara vez llegan a las instituciones de los países donde no se hable el español, y las versiones electrónicas de texto íntegro de algunas de estas revistas sólo ahora empiezan a estar disponibles.

Afortunadamente, la salida del presente estado de aislamiento es muy fácil. Por lo menos en las áreas abarcadas en este análisis, el reto para los psicólogos españoles consiste en informar de sus investigaciones a sus colegas internacionales, escribiendo sus manuscritos en inglés y enviándolos (por lo menos algunos de ellos) a revistas internacionales para su divulgación más extensa.

EPÍLOGO

Dado que este número monográfico se concibió mucho antes de su publicación, parece apropiado realizar un seguimiento de la situación en 1999 y en 2000. Se llevó a cabo una búsqueda similar en las base de datos que reveló que se habían publicado 20 artículos en 1999 y 31 artículos en 2000 sobre temas que caen dentro del alcance de este informe, así como un número aún mayor de artículos que describen la investigación en temas abarcados por otras secciones de este monográfico. Estas cifras siguen apoyando la afirmación de una tasa de publicación un poco mayor que 20 trabajos por año desde 1992 (Figura 1c). Los temas abordados en estos 51 artículos abarcan todas las áreas descritas en este informe, con una proporción significativamente alta en teoría psicométrica (21 de los 51 artículos; el 41,2%). De los 20 artículos publicados en 1999, 11 se publicaron en revistas internacionales, mientras que 9 de los 31 trabajos publicados en 2000 aparecieron en revistas internacionales. Estas cifras implican que casi un 40% de la producción durante 1999 y 2000 llegó a una audiencia internacional, un porcentaje notablemente mayor que el de la década 1989-1998 (un 25%; Tabla 2).

1 Esto incluye las 20 universidades que ofrecen una licenciatura en Psicología (de las 22 universidades que la ofrecen; dos no tienen profesores numerarios en el Departamento de Metodología) y dos que no ofrecen licenciatura en Psicología pero que tienen profesores numerarios en Departamentos de Metodologìa.

2 Los españoles poseemos dos apellidos: el primero es el apellido del padre y el segundo el de la madre (legislación recientemente aprobada permite que las parejas se peleen sobre el orden en que sus hijos llevanrán estos apellidos). Al aparecer como autores de artículos de revistas, algunos unimos nuestros apellidos con un guión para que la Gestalt parezca un solo apellido a las personas que sólo esperan encontrarse con uno; otros autores omiten su segundo apellido; por último otros autores los escriben sin unir y sus artículos aparecen normalmente en las bases de datos bajo su segundo apellido.

3 El término "co-autor admisible" se refiere a los 154 profesores numerarios en los Departamentos de Metodología de las Ciencias del Comportamiento. Los co-autores no afiliados a estos departamentos no tenían una sección individual en este listado por autores.

4 La división de estas 869 referencias fue la siguiente: 364 (267 distintos ) correspondían a investigación en psicología cognitiva; 211 (161 distintos ) a investigación en psicología social y de organizaciones; 172 (142 distintos ) a psicología clínica y de la personalidad; 83 (70 distintos ) a psicología educativa y evolutiva; y 39 (36 distintos ) a psicología fisiológica y biológica.

5 Como resultado de este intercambio, se abrió una sección adicional en nuestra lista por autor para un profesor numerario en otro departamento que, sin embargo, publicaba investigación en el área de nuestro análisis sin la colaboración de profesores numerarios de los Departamentos de Metodología.

6 Se incluyen siete capítulos de libro y un libro en el conjunto de trabajos que vamos a analizar a continuación. Podría argüirse que estos trabajos no pasan por el mismo proceso de evaluación de calidad que los artículos de revista, pero su inclusión aquí no sesgará nuestros resultados.

REFERENCIAS

Angoff, W.H. (1993). Perspectives on differential item functioning methodology. En P.W. Holland y H. Wainer (Eds.), Differential item functioning (pp. 3-23). Hillsdale, NJ: Erlbaum.

Arnau, J., y Bono, R. (1998). Short time series analysis: C statistic vs Edgington model. Quality and Quantity, 32, 63-75.

Bakeman, R., y Quera, V. (1995a). Analyzing interaction: Sequential analysis with SDIS and GSEQ. Nueva York: Cambridge University Press.

Bakeman, R., y Quera, V. (1995b). Log-linear approaches to lag-sequential analysis when consecutive codes may and cannot repeat. Psychological Bulletin, 118, 272-284.

Baker, F.B. (1987). Methodology review: Item parameter estimation under the one-, two-, and three-parameter logistic models. Applied Psychological Measurement, 11, 111-141.

Batchelder, W.H., y Riefer, D.M. (1999). Theoretical and empirical review of multinomial process tree modeling. Psychonomic Bulletin y Review, 6, 57-86.

Brown, N.L. (1999). On the trail of the prolific Dr Path. Nature, 398, 555.

Cañadas Osinski, I., y Sánchez Bruno, A. (1998). Categorías de respuesta en escalas tipo Likert. Psicothema, 10, 623-631.

Cuesta, M., y Muñiz, J. (1995). Efectos de la multidimensionalidad en la estimación de parámetros desde modelos unidimensionales de teoría de respuesta a los ítems. Psicológica, 16, 65-86.

Fechner, G.T. (1987). Outline of a new principle of mathematical psychology (1851). Psychological Research, 49, 203-207. (Traducido y editado por Eckart Scheerer.)

Fernández, J. (este número). Líneas de investigación en la Psicología española (1989-1998).

Fernández, P., y Vallejo, G. (1997). Diseño de medidas repetidas con dependencia serial en el error. Psicothema, 9, 619-635.

Ferrando, P.J. (1996). Calibration of invariant item parameters in a continuous item response model using the extended LISREL measurement submodel. Multivariate Behavioral Research, 31, 419-439.

Ferrando, P.J. (1999). Likert scaling using continuous, censored and graded response models: Effects on criterion-related validity. Applied Psychological Measurement, 23, 161-175.

Ferrando, P.J., y Lorenzo, U. (1993). Relación entre las soluciones factoriales MINRES y P.A.F.: algunas consideraciones. Revista de Psicología Universitas Tarraconensis, 15, 7-14.

Fontes, S., Barbero, I., y Fontes, A.I. (1994). Efecto del rango del estímulo en la función de Stevens. Revista de Psicología General y Aplicada, 47, 253-257.

Fontes, S., Garriga, A.J., y Barbero, I. (1993). Funciones psicofísicas de la estimación de distancias entre dos rectas. Revista de Psicología General y Aplicada, 46, 23-32.

García-Pérez, M.A. (1999). Fitting logistic IRT models: Small wonder. The Spanish Journal of Psychology, 2, 74-94. [Disponible online en www.ucm.es/sjp]

García-Pérez, M.A., y Frary, R.B. (1991). Finite state polynomic item characteristic curves. British Journal of Mathematical and Statistical Psychology, 44, 45-73.

Garriga Trillo, A.J., Villarino, A., González Labra, M.J., y Arnau, M.A. (1994). La calibración de juicios psicofísicos: estimación de magnitudes. Psicothema, 6, 525-532.

Garriga-Trillo, A. (1992). How much of the physical continuum is explained by magnitude estimates and cross-modality matches? En G. Borg y G. Neely (Eds.), Fechner day 92 (pp. 81-85). Estocolmo: Stockholm University.

Gómez, J., y Navas, M.J. (1996). Detección del funcionamiento diferencial de los ítems mediante regresión logística: purificación paso a paso de la habilidad. Psicológica, 17, 397-411.

González-Romá, V., Hernández, A., y Ferreres, A. (1997). Análisis factorial confirmatorio de matrices multirrasgo-multimétodo: análisis y comparación de tres parametrizaciones. Psicológica, 18, 105-118.

Hernández, J.A., y Ramírez, G. (1996). Procedimiento bootstrap modificado para la evaluación de los índices de ajuste en el entorno de los modelos de estructura de covarianza. Psicológica, 17, 41-54.

Hernández Cabrera, J.A., San Luis Costas, C., y Guardia Olmos, J. (1995). Acerca de la robustez de los estimadores multinormales y elípticos bajo ciertas condiciones de asimetría, tamaño muestral y complejidad de los modelos de estructuras de covarianza. Anales de Psicología, 11, 203-217.

Hidalgo Montesinos, M.D., y López Pina, J.A. (1997). Comparación entre las medidas de área, el estadístico de Lord y el análisis de regresión logística en la evaluación del funcionamiento diferencial de los ítems. Psicothema, 9, 417-431.

Igoa, J.M. (este número). The decade 1989-1998 in Spanish psychology: An analysis of research on basic psychological processes, history of psychology, and other related topics.

Kotiaho, J.S. (1999). Papers vanish in mis-citation black hole. Nature, 398, 19.

Kotiaho, J.S., Tomkins, J.L., y Simmons, L.W. (1999). Unfamiliar citations breed mistakes. Nature, 400, 307.

Luce, R.D. (1997). Several unresolved conceptual problems of mathematical psychology. Journal of Mathematical Psychology, 41, 79-87.

Marín-Martínez, F., y Sánchez-Meca, J. (1999). Averaging dependent effect sizes in meta-analysis: A cautionary note about procedures. The Spanish Journal of Psychology, 2, 32-38. [Disponible online en www.ucm.es/sjp].

Muñiz, J., Rogers, J., y Swaminathan, H. (1989). Robustez de las estimaciones del modelo de Rasch en presencia de aciertos al azar y discriminación variable de los ítems. Anuario de Psicología, 43, 81-97.

Oliver, A., Tomás, J.M., y Meliá, J.L. (1993). Análisis de los efectos del error de medida sobre las estimaciones en modelos de ecuaciones estructurales. Psicológica, 14, 293-306.

Oliver, A., Sancerni, M.D., Tomás, J.M., y Lis, R. (1995). Métodos de estimación y tamaños muestrales en análisis factorial confirmatorio: implicaciones en la validez factorial del GHQ. Psicológica, 16, 101-113.

Ponsoda, V., Olea, J., Rodríguez, M.S., y Revuelta, J. (1999). The effects of test difficulty manipulation in computerized adaptive testing and self-adapted testing. Applied Measurement in Education, 12, 167-184.

Price, N.C. (1998). What`s in a name (or a number or a date)? Nature, 395, 538.

Ratcliff, R. (1998). The role of mathematical psychology in experimental psychology. Australian Journal of Psychology, 50, 129-130.

Revuelta, J., y Ponsoda, V. (1998). A comparison of item exposure control methods in computerized adaptive testing. Journal of Educational Measurement, 35, 311-327.

Sánchez-Meca, J., y Marín-Martínez, F. (1998). Testing continuous moderators in meta-analysis: A comparison of procedures. British Journal of Mathematical and Statistical Psychology, 51, 311-326.

Scheerer, E. (1987). The unknown Fechner. Psychological Research, 49, 197-202.

Sospedra, M.J., Molina, J.G., y Meliá, J.L. (1994). Estudio comparativo de cinco métodos de escalamiento unidimensional: ajuste y divergencia de los valores escalares. Psicológica, 15, 427-437.

Vallejo, G., y Menéndez, I. (1998). Efectos de la dependencia entre las observaciones en diversos procedimientos de comparación múltiple. Psicológica, 19, 53-71.

Vallejo Seco, G. (1994). Evaluación de los efectos de la intervención en diseños de series temporales en presencia de tendencias. Psicothema, 6, 503-524.

Material adicional / Suplementary material