Hace mucho que no escribo nada sobre estadística, y últimamente estoy utilizando bastante la correlación intraclase para evaluar el grado de acuerdo entre evaluadores. Algo con ese nombre no parece que tenga nada que ver con la lectura o la comprensión, pero tiene su utilidad si queremos investigar o, simplemente, evaluar con ciertas garantías.
Pongo algunos ejemplos concretos: quiero saber cuántos errores cometen los alumnos al leer, quiero saber el número de palabras correctamente leídas por los alumnos en un minuto, quiero valorar la comprensión con preguntas de respuesta corta con una prueba como el Prolec-R, o quiero saber el número de errores de escritura que cometen los alumnos en un dictado. Cualquiera de estas valoraciones parece sencilla, basta con aplicar los criterios para saber cuando algo es correcto o no y contar el número de aciertos o de errores.
Lo curioso, es que tengo la experiencia repetida de que cuando otra persona valora la misma prueba que yo con los mismos criterios, el resultado que obtiene suele ser diferente al que obtengo yo. Incluso en algo tan evidente como los errores de escritura a veces es difícil saber si el alumno pone un punto o un acento, hay alumnos que escriben casi igual letras como «a, o» o «r, n», si la escritura no es ligada puede ser difícil determinar si ha separado incorrectamente una palabra, o si ha unido dos palabras, y todo eso sin contar los posibles despistes del corrector, porque, a veces, vemos o escuchamos lo que creemos que hay que ver o escuchar, no lo que los alumnos ponen o dicen.
El caso es que para valorar las mejoras en lectura o en comprensión tenemos que evaluar a los alumnos, y esas valoraciones pueden ser poco fiables. Una forma de medir su fiabilidad es hacer que la evaluación la realice más de una persona y calcular en qué medida se ponen de acuerdo. Para complicar más las cosas, hay que tener en cuenta que dos observadores se pueden obtener la misma puntuación por azar. Aunque parezca que eso afecta poco en este campo, pensemos en una prueba de comprensión lectora con preguntas que se valoran con 0 o 1. En esa situación, cuando dos personas corrigen la prueba sin mirar la respuesta, tenderían a dar la misma puntuación en la mitad de las preguntas (una tasa de acuerdo del 50%).
En una entrada anterior hablé sobre la kappa de Cohen. Esta medida es útil para valorar el acuerdo entre evaluadores cuando las variables son categóricas, por ejemplo valoramos si la lectura de un alumno es silábica (1), entrecortada (2) o fluida (3). En cambio, el coeficiente de correlación intraclase se utiliza cuando la variable que se está evaluando es numérica, como la puntuación en un test de comprensión o el número de errores de lectura.
Existen distintas modalidades de correlación intraclase
No hay un único coeficiente de correlación intraclase, puesto que su cálculo es diferente dependiendo del número de evaluadores, de si son elegidos aleatoriamente o no o de si se busca un acuerdo perfecto (que diferentes evaluadores den la misma puntuación) o consistencia en las puntuaciones (que si una puntuación es alta todos le den una valoración alta, aunque no coincida exactamente).
Interpretación del coeficiente de correlación intraclase
Es bastante común citar como guía para interpretar el coeficiente de correlación intraclase unas referencias propuestas por Dominic V. Cichetti, en su libro Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Estas referencias son:
- < 0,40 – Pobre.
- 0,40 – 0,59 – Suficiente.
- 0,60 – 0,74 – Bueno.
- 0,75 – 1 – Excelente.
Hay que tener en cuenta que este coeficiente es una forma de correlación, y podría tener valores negativos, por ejemplo, si las valoraciones que hacen los observadores tienden a ser opuestas.
Una calculadora
Esta calculadora se puede encontrar en la web del departamento de obstetricia y ginecología de la universidad china de Hong-Kong. Su autor es Allan Chang. Para llegar a ella hay que ir al menú «statistics tool box» en la lista que aparece a la izquierda de la pantalla, en la nueva lista que aparece ir a «concordance» y seleccionar «intraclass correlation».
La herramienta permite trabajar con los datos de varios observadores y calcular el coeficiente de seis formas distintas. Tal como se explica en la propia página, la forma más habitual es la forma individual del modelo 2, en la que se da por supuesto que los evaluadores están valorando los mismos casos y que estos evaluadores son parte de un conjunto mayor de evaluadores.
Deja una respuesta