Buscar
  • María Uribe

¿Qué significa Confiabilidad y Validez en Psicometría?

Actualizado: 4 may 2021

¡Conoce el significado de estos conceptos y aprende cómo se relacionan con la medición!



El presente artículo tiene el objetivo de realizar una descripción sobre dos conceptos centrales de la psicometría, considerados como las cualidades intrínsecas de cualquier test psicométrico: la confiabilidad y la validez. A partir de ello se realiza una amplia explicación de cada una, proporcionando una descripción de sus características principales y sus conceptos básicos. En cuanto a la confiabilidad, se define como la obtención de puntuaciones consistentes y precisas, y se da paso a la explicación de sus dos elementos centrales: el coeficiente de confiabilidad y el error estándar de medida. En cuanto a la validez, ésta se define como la justificación científica de las interpretaciones de los resultados de un test, y se da paso a la explicación de sus características y las 4 categorías de validez. Finalmente, a modo de conclusión se presenta la utilidad y el valor en el campo de la psicometría de estas dos cualidades a la hora de construir cualquier test psicométrico.

Palabras clave: psicometría; confiabilidad; coeficiente de confiabilidad; error estándar de medida; validez; categorías de validez.


Introducción a la confiabilidad y validez


La psicometría se puede definir como la rama de la psicología que se ocupa de las mediciones de los fenómenos psicológicos o mentales (Aliaga, 2006). En el campo de la psicología el concepto medir implica dar una magnitud de cierta propiedad o atributo psicológico (Aliaga, 2006). Esto quiere decir que la psicometría permite medir de forma numérica y cuantificable, por ejemplo, la inteligencia, la extraversión, la estabilidad emocional, la impulsividad, el autocontrol, la sensibilidad, entre otros, de una persona o un grupo de personas.


Teniendo en cuenta lo anterior, para lograr medir de forma cuantificable las propiedades o atributos psicológicos se utilizan los llamados tests psicométricos. Un test psicométrico se puede definir como: “un procedimiento estandarizado compuesto por ítemes seleccionados y organizados, concebidos para provocar en el individuo ciertas reacciones registrables” (Aliaga, 2006, p. 87). Un test psicométrico está compuesto por una serie de preguntas o afirmaciones llamadas “ítems” que provocan en el individuo o grupo de personas una serie de reacciones que son registrables, medibles e interpretables. Algunos de los tests más utilizados por los psicólogos en la actualidad son, por ejemplo, la Escala de Inteligencia para Adultos de Wechsler (WAIS) y su versión para niños (WISC), el Cuestionario 16PF de Cattell, y el Inventario de la Personalidad de Eysenck (EPI).


Ahora bien, para que un test psicométrico sea utilizado dentro del campo de la psicología, no es suficiente realizar una construcción de ítems o preguntas y aplicarlas dentro de una población determinada. Para que una prueba psicométrica pueda ser utilizada debe ser constituida con un buen diseño de medición, y se debe examinar detenidamente múltiples criterios o cualidades con los que debe cumplir la prueba. Existen diversas cualidades para que un test psicométrico sea considerado adecuado y óptimo para su aplicación en el campo de la psicometría, como por ejemplo, su proceso de estandarización o el grado de objetividad que indica la prueba (Morales, 1990). Sin embargo, existen dos cualidades que están intrínsecamente relacionadas con la construcción de las pruebas psicométricas, y con las cuales debe cumplir de forma óptima cualquier test para poder ser utilizado: la confiabilidad y la validez.


Confiabilidad


La confiabilidad de un test se puede definir como la obtención de puntuaciones consistentes y precisas (Bonillo Martín et al., 2014). La confiabilidad indica la consistencia o estabilidad de las medidas que se obtienen en un test cuando el proceso de medición se repite (Prieto y Delgado, 2010). Esto quiere decir que la confiabilidad indica la precisión y consistencia con que un test realmente mide lo que mide, en una población específica y en condiciones normales de aplicación del test (condiciones especificadas en el manual del test) (Aliaga, 2006). En consecuencia, si la medida toma valores consistentes y precisos, se puede decir que los resultados obtenidos cuando se aplica un test son confiables.

Sin embargo, es evidente que cualquier proceso de medida (de un objeto físico o una cualidad psicológica) siempre se asocia a algún grado de error, pues la medida perfecta no existe (Bonillo Martín et al., 2014). El estudio de la confiabilidad de un test psicométrico debe permitir conocer hasta qué punto los resultados obtenidos en su aplicación están afectados por el error que se ha cometido al medir; así bien, si el error es pequeño se puede confiar en el resultado de la prueba, pero si el error es grande, el proceso de medición pierde sentido (Bonillo Martín et al., 2014). Es así como la confiabilidad de un test se presenta por medio de dos elementos: el coeficiente de confiabilidad y el error estándar de medida.


Coeficiente de Confiabilidad


El coeficiente de confiabilidad es un número que indica una correlación entre dos grupos de puntajes, y muestra el grado en que las personas mantienen sus posiciones dentro de un grupo; abarca un valor desde 0 a 1, y entre más se acerca a 1, se dice que la prueba es más confiable (Aliaga, 2006). Por ejemplo, si un coeficiente de confiabilidad en una prueba es de 0,95, quiere decir que en la muestra y las condiciones normales de aplicación del test, el 95% de los puntajes directos se debe a la auténtica medida y sólo el 5% se debe a errores aleatorios (Aliaga, 2006). Si un test tuviera un grado de confiabilidad perfecto, las puntuaciones obtenidas por un individuo en múltiples aplicaciones del test deberían ser idénticas, y por lo tanto la correlación entre las puntuaciones sería 1 (Bonillo Martín et al., 2014). Como no existe un grado de confiabilidad perfecto, se obtienen valores inferiores a 1 y se deben a errores aleatorios.


Según diversos autores el valor mínimo aceptable del coeficiente de confiabilidad estaría en 0,70, principalmente en un contexto de investigación básica; en cambio, en un contexto aplicado, como son el escolar o el clínico, es necesario que la confiabilidad sea más elevada, por encima de 0,80 o 0,90 (Bonillo Martín et al., 2014). Esto ocurre porque en contextos de mayor complejidad, como el escolar y el clínico, las consecuencias de la precisión de los instrumentos de medida utilizados son más decisivas para las personas evaluadas (por ejemplo, tests de diagnóstico clínico o de inteligencia infantil) (Bonillo Martín et al., 2014). En definitiva, en cualquier contexto, un coeficiente de confiabilidad por debajo de 0,60 es absolutamente bajo e inaceptable.


Para obtener el coeficiente de confiabilidad existen cuatro métodos básicos: Método de las formas equivalentes; método del test-retest; método de la división por mitades emparejadas o "split half method"; y método de la equivalencia racional o de Kuder-Richardson.


En primer lugar, el método de las formas equivalentes consiste en aplicar dos formas equivalentes o paralelas del test al mismo grupo de individuos; así, las dos series de puntajes de los resultados se correlacionan con un coeficiente llamado Coeficiente ‘r’ de Pearson (Aliaga, 2006). En segundo lugar, el método del test-retest consiste en aplicar dos veces el mismo test a un mismo grupo de individuos (con un lapso entre las dos aplicaciones); las dos series de puntajes obtenidos en los dos resultados se correlacionan con el coeficiente ‘r’ de Pearson (Aliaga, 2006). En tercer lugar, el método de la división por mitades emparejadas consiste en aplicar una sola vez el test a un grupo de personas, y luego calificar por separado los ítems pares (2,4,6,8…) y los ítems impares (1,3,5,7…); después las dos series de puntajes obtenidos se correlacionan con el coeficiente ‘r’ de Pearson utilizando además una fórmula llamada Spearman-Brown (Aliaga, 2006). En último lugar, el método de la equivalencia racional consiste en considerar un conjunto de ítems como un mismo conjunto de tests paralelos, para luego derivar una ecuación y computar el coeficiente de confiabilidad; actualmente existen varias fórmulas para hacerlo y uno de los coeficientes más utilizado es el coeficiente Alfa de Cronbach (Aliaga, 2006).


Error estándar de medida


Como se ha mencionado anteriormente, la falta de confiabilidad de un test psicométrico está relacionada con la intervención del error (Aliaga, 2006). El error puede ser de dos tipos: error constante (o sistemático) o error causal (al azar o no sistemático). Éste último se produce cuando las medidas son alternativamente mayores o menores de lo que realmente se espera que sean, y este tipo de error interviene cuando se afecta la confiabilidad de una prueba (Aliaga, 2006). El error causal está en relación con elementos del contexto o del evaluado, como por ejemplo, la salud, fatiga, motivación, condiciones externas de luz, calor, distracción, familiaridad con la prueba, entre otros (Aliaga, 2006). Por ello, el esfuerzo de quienes construyen el test debe centrarse en estandarizar el proceso de medición para poder reducir la influencia de aquellas variables externas que pueden producir inconsistencias no deseadas (Prieto y Delgado, 2010). El proceso de estandarización es clave, pues implica obtener las medidas de los tests en todas las ocasiones en condiciones muy semejantes: mismo tiempo de ejecución, mismas instrucciones, dificultad equivalente, similares criterios de calificación de los evaluadores, etc (Aliaga, 2006).


El error estándar de medida (EEM) se define como la desviación típica de los errores: “indica la precisión de las puntuaciones de una persona, es decir, su variabilidad en torno a la puntuación verdadera. (...) refleja el error que puede esperarse en una puntuación observada” (Prieto y Delgado, 2010, p.68). Desde un principio se asume que la puntuación verdadera de una persona no cambia entre ocasiones, así que la variabilidad de las puntuaciones se debe a la influencia del error causal, producido por causas desconocidas e incontrolables (Prieto y Delgado, 2010). Si este error de medida es grande, implica que las puntuaciones obtenidas no reflejan adecuadamente los fenómenos psicológicos objeto de interés, y así, el test psicométrico no proporciona la confianza necesaria para cumplir su objetivo para la evaluación psicológica (Bonillo Martín et al., 2014).

El error estándar de medida se obtiene a través de la siguiente fórmula:


EEM = S x (1-rxx)^(1/2)


En esta fórmula, ‘S’ corresponde a la desviación estándar de los puntajes de la distribución; ‘’ corresponde al coeficiente de confiabilidad del test; y ‘1’ corresponde a la constante. Una vez obtenido el EEM se escoge un nivel de confianza, que en psicometría el más utilizado es el de 95%, con el cual se puede hacer, por ejemplo, la siguiente afirmación: “se puede concluir, con un 95% de confianza, que el puntaje verdadero de un sujeto se encuentra en el intervalo comprendido entre su puntaje directo (PD) y ± 2 EEM (más-menos dos errores estándar de medida)" (Aliaga, 2006).


Validez


La validez de un test se puede definir como el grado en que la evidencia empírica y la teoría sostiene la interpretación de las puntuaciones de los tests (Prieto y Delgado, 2010). Se considera que la validez es la propiedad psicométrica más importante, y a diferencia de la confiabilidad, la validez no se puede reducir en un sólo indicador numérico pues esta cualidad se asegura a través de la acumulación de evidencia teórica, empírica y conceptual del uso del test y la interpretación de sus puntuaciones (Aliaga, 2006). Algunas preguntas que responde la validez de una prueba son: “¿a qué hacen referencia los puntajes obtenidos en ésta?, ¿es válido el uso o la interpretación de las puntuaciones de este test?, ¿qué generalizaciones se pueden hacer apropiadamente a partir de la puntuación en esta prueba?” (Aliaga, 2006). Por lo tanto, el objeto de validación no es el test, sino la interpretación de sus puntuaciones, las inferencias realizadas a partir del test; es así como en la actualidad, no se considera la validez como una propiedad misma de los tests, sino más bien el producto del análisis de su uso al propósito al que sirve (Bonillo Martín et al., 2014).


El objetivo de la validez es poder afirmar que las interpretaciones realizadas por los resultados de una prueba están justificadas científicamente; así, un test psicométrico tiene una alta validez cuando existen amplios y claros supuestos teóricos que respaldan las interpretaciones y afirmaciones que se formulan con base en los puntajes obtenidos en la prueba. Es importante tener presente que mientras la confiabilidad se relaciona con la calidad de los datos, la validez se refiere a la calidad de la inferencia (Prieto y Delgado, 2010); de igual forma, mientras la confiabilidad se interesa en los tipos de error aleatorios o no sistemáticos, la validez se interesa en los errores constantes o sistemáticos, relacionados con la construcción del test (Aliaga, 2006).


Ante la construcción de un test psicométrico, éste necesita de una indagación profunda y compleja que en psicometría se conoce como proceso de validación (Aliaga, 2006). Es importante resaltar que este proceso no se establece de una vez por todas, sino que es el resultado de la acumulación continua de evidencias, conceptos y supuestos teóricos que se van dando en un proceso de evolución y transformación, por medio del cual se evalúan las hipótesis y teorías científicas, y se van modificando o transformando según el desarrollo de la prueba. Este proceso de validación se basa principalmente en la evaluación de expertos acerca de la pertinencia y suficiencia de los ítems en relación con la teoría científica, así como la adecuación de otros elementos de la prueba, como las instrucciones o el tiempo de ejecución (Prieto y Delgado, 2010).


Categorías de validez


En el estudio de la validez de las pruebas psicométricas se ha evidenciado que esta cualidad está relacionada a seis aspectos: primero, al contenido del test (la relevancia y representatividad del test); segundo, al sustantivo (las razones teóricas de la consistencia de las respuestas); tercero, el aspecto estructural (la configuración interna del test y dimensionalidad); cuarto, la generalización (el grado en que las inferencias se pueden generalizar a otras poblaciones o situaciones; quinto, el aspecto externo (relación del test con otros tests y otros constructos); y por último, la consecuencia (consecuencias éticas y sociales de la prueba) (Aliaga, 2006).


Teniendo en cuenta lo anterior, la validez ha llegado a ser diferenciada entre cuatro tipos: validez de contenido, validez predictiva, validez concurrente, y validez de constructo. El tipo de validez más importante es la de constructo pues es considerada la validez científica de un test psicométrico (Aliaga, 2006). Sin embargo, en la actualidad la tendencia ya no es hablar de cuatro tipos diferentes de validez, sino hablar de categorías de validez, en la que cada una constituye una estrategia de validación diferente (Aliaga, 2006).


En primer lugar, la validez de contenido responde a la pregunta: ¿los ítems que constituyen el test son realmente una muestra representativa del contenido que interesa? (Aliaga, 2006). Por lo tanto, este tipo de validez se refiere a la evidencia del contenido, validando de forma objetiva los reactivos o ítems del test. Para ello, quien construye la prueba, define primero el dominio de contenido por medio de una descripción delimitada, y luego, con ayuda de jueces expertos, determinan si los ítems pertenecen o no al dominio especificado (Aliaga, 2006). Por ejemplo, se quiere construir un test para evaluar la tendencia a la impulsividad de una persona. Para ello, se define primero el dominio del contenido relacionado con la teoría psicológica sobre la impulsividad, estableciendo subcategorías, como por ejemplo: toma de decisiones, inhibición conductual, inhibición cognitiva, emocionalidad, etc. Después de definir y describir ampliamente estas categorías, se construyen ítems que correspondan a una u otra categoría; por ejemplo, un ítem: “Cuando tengo que tomar una decisión tiendo a escoger la primera opción que se me ocurre” correspondería a la subcategoría de toma de decisiones. Finalmente, con ayuda de jueces expertos, evalúan si ese ítem corresponde realmente a ese dominio de la impulsividad, y se hace lo mismo con todos los otros ítems del test.


En segundo lugar, la validez predictiva responde a la pregunta: ¿las puntuaciones del test predicen una conducta futura? (Aliaga, 2006). Este tipo de validez se expresa mediante un coeficiente de correlación, el cual tiene la función de relacionar los puntajes obtenidos en una prueba y los correspondientes criterios; un criterio es cualquier desempeño o rendimiento de los individuos en la vida real (Aliaga, 2006). En este sentido, la labor del psicólogo se centra en indagar si el test permite predecir algún criterio determinado. Siguiendo el ejemplo de la construcción de un test que evalúe la impulsividad, para evaluar la validez predictiva, se debe establecer primero un criterio que se quiera relacionar con el contenido del test para determinar una conducta futura. Por ejemplo, surge el interés por indagar si una alta puntuación en este test que evalúa la impulsividad puede predecir un inadecuado desempeño del individuo en el área laboral. Para ello se establecería un coeficiente de correlación (mediante procedimientos estadísticos) que permita relacionar; que un alto puntaje en el test de impulsividad indicaría un inadecuado desempeño futuro en la esfera laboral de la persona evaluada.


En tercer lugar, la validez concurrente responde a la pregunta: ¿las puntuaciones del test permiten valorar hechos del presente? (Aliaga, 2006). Para estimar esta categoría de validez, se administra el test y luego se correlaciona con un criterio determinado que permita establecer un hecho del presente. Siguiendo el ejemplo del test de impulsividad, de forma similar a la validez predictiva, en la validez concurrente se establece también un criterio que se quiera relacionar con el test para determinar una conducta presente. Por ejemplo, se quiere determinar si una alta puntuación en este test de impulsividad estaría relacionada con dificultades para concentrarse en tareas cotidianas. De esta forma, se establece también un coeficiente de correlación que podría evidenciar si el alto puntaje en el test de impulsividad indica o no, dificultad para concentrarse en tareas cotidianas.


En último lugar, la validez de constructo responde a la pregunta: ¿el test permite reflejar el constructo que dice medir? (Aliaga, 2006). Un constructo se puede definir como un concepto que forma parte de las teorías de la psicología que intentan explicar el comportamiento humano (Aliaga, 2006); ejemplos de constructos son: inteligencia, autoconcepto, impulsividad, extroversión, etc. El proceso para determinar la validez de constructo implica: primero, establecer deducciones de la teoría; segundo, formular hipótesis y relaciones entre elementos del constructo; tercero, seleccionar ítems, tests o indicadores que representen de forma concreta al constructo; cuarto, recoger datos; quinto, establecer consistencias entre los datos y las hipótesis, y así, examinar el grado en que los datos se pueden explicar mediante las hipótesis (Aliaga, 2006). Con el ejemplo que se ha seguido hasta ahora, la validez de constructo permitiría responder a la pregunta si la construcción de este test permite reflejar realmente el constructo que dice medir, el cual, en este ejemplo es la impulsividad. Para ello, se haría una profunda y amplia revisión de teoría científica sobre el concepto de impulsividad y los estudios que ha tenido en el campo de la psicología, estableciendo así una definición para el constructo de impulsividad, construyendo diversas hipótesis, recogiendo datos, y relacionándolo entre sí.


Conclusión


Finalmente, la confiabilidad y validez se han convertido en dos conceptos esenciales a la hora de hablar de psicometría y para la construcción de los tests en la disciplina psicológica. En definitiva en la actualidad el proceso de construcción de un test psicométrico no es un proceso sencillo, rápido o subjetivo, sino que cada vez más, gracias a procedimientos propios del método científico, construir un test psicométrico se ha convertido en un proceso realmente sofisticado que permite crear instrumentos de medición psicológica basados en la objetividad y la evaluación científica. Una alta confiabilidad y validez se han convertido en requisitos de cualquier test psicométrico, y es en definitiva lo que permite a los psicólogos tomar decisiones con certeza sobre aspectos que trascienden en la vida de las personas.






Referencias


Aliaga, J. (2006). Psicometría: Test psicométricos, confiabilidad y validez.

Bonillo Martín, A., Cosculluela Mas, A., Turbany Oset, J., Meneses Naranjo, J., Lozano Fernández, L., Barrios Cerrejón, M. y Valero Ventura, S. (2014). Psicometría. Editorial UOC: Barcelona.

Morales, M. (1990). Psicometría Aplicada. Editorial Trillas: México.

Prieto, G., y Delgado, A. (2010). Fiabilidad y validez. Papeles del Psicólogo, 31(1), 67-74.

320 visualizaciones0 comentarios

Entradas Recientes

Ver todo