Dos advertencias importantes:
- Ésta no es una entrada sobre comprensión lectora sino sobre análisis estadístico. Leer su contenido puede producir daños cerebrales irreversibles.
- Yo sé muy poco de estadística. Mi formación más avanzada consistió en un curso de introducción al análisis estadístico, así que no hay que tomarse muy en serio lo que digo porque puede haber errores de todo tipo.
Ahora paso a lo que voy a contar:
Una situación muy común en investigación educativa es que una persona, a la que llamamos el juez, tenga que valorar algo. Podemos poner como ejemplo una prueba de comprensión lectora con preguntas de respuesta libre en la que el alumno tiene 0 puntos si la respuesta es incorrecta, 1 punto si es correcta pero incompleta y 2 puntos si es correcta y completa. Eso lo tiene que valorar un juez. Pero, ¿sabemos si el juez es fiable? Una forma habitual de comprobarlo es que otro juez (o varios jueces) evalúen las mismas pruebas para ver si lo hacen igual. Después se analiza hasta qué punto son iguales o diferentes las valoraciones y así se mide la fiabilidad de los jueces.
Una forma muy sencilla de valorar la fiabilidad es contar las veces que los dos jueces están de acuerdo, las veces en que dan puntuaciones diferentes y obtener el porcentaje de acuerdo. Una crítica que suele hacerse a este sistema es que no tienen en cuenta las veces que los observadores se podrían poner de acuerdo por azar.
La kappa de Cohen tiene en cuenta el porcentaje de acuerdo entre los jueces, y también el porcentaje de acuerdo que obtendrían contestando al azar. Al final de la entrada dejo algunos enlaces donde se puede encontrar más información sobre esta medida, su uso, las fórmulas para calcularla, etc. Solo añadiré aquí que la kappa de Cohen se suele emplear para valorar la fiabilidad entre jueces que miden variables cualitativas (clasifican a los sujetos en grupos excluyentes) como el color, suspenso – suficiente – bien – notable – sobresaliente, existe – no existe…
Las calculadoras
Pero mi intención no es enseñar a usar la kappa de Cohen, sino advertir a las personas que necesiten calcularla que, además del cálculo a mano, o en una hoja de cálculo, existen varias calculadoras online muy útiles. Aquí dejo los enlaces a algunas de ellas:
· Kappa de Cohen para 2 jueces y 2 categorías (2*2), en español.
· Online kappa calculator. Aplicación java para calcular la kappa con dos o más jueces.
Y mi favorita que es la siguiente:
· ReCal2: reliability for 2 coders.
Ésta última tiene una versión para tres o más jueces, pero lo que más me gusta es que además de la kappa de Cohen calcula otras medidas. Todo lo que tienes que hacer es preparar una hoja de cálculo con dos columnas, cada una con los datos de un evaluador (sin que queden casillas vacías), guardarla en formato .csv y subirla a la web. La calculadora ofrecerá el porcentaje de acuerdo entre los evaluadores, la kappa de Cohen, la pi de Scott y la alfa de Krippendorff. Esas dos últimas medidas son muy similares a la kappa, y cuando lo he usado las diferencias entre unas y otras suelen ser de milésimas.
Información general
Dejo aquí algunos enlaces en los que se ofrece más información sobre esta medida, su utilidad, la forma de calcularla y orientaciones para interpretar sus valores:
Evaluación de la concordancia inter-observador en investigación pediátrica: coeficiente de kappa.
Deja una respuesta