Archivo de la categoría: Tamaño del efecto

Evidencias para la ESSA

Los lectores más familiarizados con la educación especial de Estados Unidos ya habrán tenido noticias de la existencia de una ley llamada No Child Left Behind (NCLB). Esa ley fue reemplazada en diciembre de 2015 por Every Student Succeeds Act (ESSA). Al igual que sucedía en la NCLB, la ESSA promueve la aplicación de programas basados en evidencias en educación.

La aplicación seria de esta directriz requiere que las personas que diseñan los programas escolares y el profesorado tengan acceso a información sobre la eficacia de los distintos métodos educativos. Por eso son muy importantes las agencias que revisan y analizan la información procedente de la investigación para transformarla en informes o guías para el profesorado.

Evidence for ESSA es una web que ofrece información de este tipo. Está vinculada al Center for Research and Reform in Education (CRRE) de la Universidad Johns Hopkins. No se trata, por tanto, de una agencia oficial, es decir, dependiente del estado. Tampoco se trata de ninguna novedad, porque el CRRE ya mantenía una web sobre evidencias en educación llamada Best Evidence Encyclopedia que sigue estando accesible.

Actualmente, la web tiene dos secciones principales: los programas para la enseñanza de matemáticas y los programas de lectura. En cada uno de ellos se distingue entre la educación elemental (infantil y primaria) y la media y superior (secundaria y bachillerato).

Los programas de lectura

Mientras escribo esta entrada, se ofrece información sobre 54 programas de lectura destinados a la educación infantil y primaria y 19 programas para educación secundaria y bachillerato.

Los programas se pueden clasificar según:

  • Destinatarios: toda la clase, lectores con dificultad, alumnos con lengua materna distinta del inglés.
  • Nivel de evidencia: fuerte, moderado, prometedor (son tres de los cuatro niveles propuestos en la ESSA).
  • Cursos de aplicación.
  • Tipo de centro: urbano, suburbano, rural, sin especificar.
  • Grupos de destinatarios.
  • Características del programa.

De cada programa se proporcionan datos prácticos como el contacto con sus editores o promotores, el precio y una descripción. También se da información sobre el número de estudios con que ha sido evaluado, el número de participantes y el tamaño del efecto que produce. Los visitantes de la web pueden introducir comentarios sobre los distintos programas.

Deja un comentario

Archivado bajo Bases de datos, Intervención basada en evidencias, Niveles de evidencia, Revisión sistemática, Tamaño del efecto

La d de Cohen como tamaño del efecto

La d de Cohen es una medida del tamaño del efecto como diferencia de medias estandarizada. Es decir, nos informa de cuántas desviaciones típicas de diferencia hay entre los resultados de los dos grupos que se comparan (grupo experimental y grupo de control, o el mismo grupo antes y después de la intervención).

En una entrada anterior sobre la g de Hedges (otra diferencia de medias estandarizada) se puede encontrar una explicación sobre qué es lo que se está midiendo que se puede aplicar a la d de Cohen. En otra entrada anterior sobre el tamaño del efecto se pueden encontrar algunas referencias para juzgar si ese resultado es pequeño, moderado o grande.

El cálculo de la d es sencillo cuando se dispone de la media de los resultados y la desviación típica de cada grupo. Pero cuando uno comienza a informarse se encuentra con que, incluso para ese caso elemental, distintos autores proponen distintas fórmulas, y entonces es cuándo comienza la incertidumbre.

En algo están todos de acuerdo: para calcular la d de Cohen restamos las medias, la del grupo que recibe el tratamiento menos la del grupo de control, o si en el diseño sólo hay un grupo, la de después del tratamiento menos la de antes. Una vez que se tiene el resultado de la diferencia de medias, hay que dividirlo entre  la desviación típica de ese resultado en la población. Aquí es donde empiezan las diferencias.

Lo normal es que desconozcamos cuál es la desviación típica en la población de una medida como los resultados de una prueba de comprensión lectora, así que ese dato desconocido tiene que ser inferido de a partir de los datos que tenemos (la desviación típica de las muestras que han participado en la investigación).

Imagen tomada de Wikipedia

(1) Fórmula de la d si las desviaciones típicas son iguales

Un caso poco habitual, pero posible, es que los resultados del grupo experimental y del grupo de control tengan la misma desviación típica. En ese caso, se divide la diferencia de medias entre esa desviación típica, y ya está calculada la d. Cuando la desviación típica de los dos grupos es distinta existe la posibilidad de elegir la de uno de ellos. En ese caso se suele elegir la del grupo de control, ya que se asume que como no recibe ninguna intervención será más parecido a la población general que el grupo experimental.

(2) d de Cohen para grupos iguales

Pero lo más habitual es utilizar la desviación típica combinada de los dos grupos, y eso se puede hacer mediante distintas fórmulas. En la que apompaña a este párrafo se calcula la raíz cuadrada de la media de las dos desviaciones típicas. Esta forma se reserva solo para el caso en que los dos grupos tengan el mismo número de sujetos.

(3) Desviación típica combinada con grupos de tamaño diferente

Quizá la fórmula más conocida para calcular la d de Cohen es la que calcula la desviación típica combinada tal como aparece a la izquierda de este párrafo. Según Hunter y Schmidt (2004), la particularidad de esta forma de cálculo es que el peso de cada desviación típica no se da según el tamaño de cada grupo (n), sino según los grados de libertad (n-1). Por tanto, se puede plantear una alternativa en la que desaparezcan los -1 y el -2. Hunter y Schmidt consideran que la diferencia entre ambos planteamientos es mínima.

Quien tenga conocimientos sobre  el tema o, simplemente sea observador, se habrá dado cuenta de que al calcular la d de Cohen con una desviación típica combinada en la que se asignan los pesos según los grados de libertad (n-1) en realidad estamos calculando la g de Hedges.

Es evidente que hace falta alguien que explique esto mejor que yo, pero por ahora no he encontrado una explicación clara y razonada del por qué de todas estas sutiles diferencias. Por lo menos sí he encontrado indicaciones de que las diferencias entre unas y otras formas de calcular la d se minimizan cuando se emplean muestras grandes, y la preocupación surge cuando las muestras son pequeñas. Estos últimos días me ha tocado calcular la d de varios estudios con muestras pequeñas (entre 12 y 30 participantes por grupo) y las diferencias que se obtienen con distintas fórmulas son de unas centésimas.

Otra forma de calcular la desviación típica combinada

(4) Otra forma de calcular la desviación típica combinada

Wikipedia, en su entrada sobre el tamaño del efecto propone otra forma de calcular la desviación típica combinada. Es muy parecida a la de la g de Hedges, pero no se utiliza el “- 2” en el denominador. En la discusión que acompaña a la entrada se expone que esta forma de calcular la desviación típica combinada está extraída de un libro de Hartung, Knapp and Sinha.

¿Qué he hecho yo? Mi primer impulso fue utilizar la fórmula en la que la desviación típica se calcula tomando como peso el tamaño de cada grupo (esa que mencionan Hunter y Schmidt y no está representada en ninguno de los gráficos de la entrada) ya que si tengo que calcular muchas ds, cuanto más sencillo sea el cálculo más tiempo ahorraré. Mientras preparaba la entrada anterior sobre la lectura dialógica vi que las autoras habían empleado la calculadora de Wilson para hallar los tamaños del efecto, así que busqué información sobre eso y me encontré con una herramienta muy interesante:

Calculadora de tamaños del efecto de David B. Wilson.

No solo calcula varios tamaños del efecto, sino que tiene varias posibilidades para calcular la d de Cohen a partir de distintos estadísticos como pruebas T, chi-cuadrado, o pruebas F (cuando la prueba F compara dos grupos equivale al cuadrado de T, pero si se comparan más de dos grupos uno debería tener muy claro qué está haciendo y cómo va a interpretar la d que se obtenga). No están colgadas las fórmulas que se utilizan para calcular los tamaños del efecto, pero es posible encontrarlas en otros sitios, como en esta presentación sobre el tamaño del efecto. La forma de calcular la desviación típica combinada es la que aparece en la fórmula (3).

Para terminar: una curiosidad. El doctor Wilson es profesor de… Criminología.

Información adicional

· Un vídeo (en inglés) sobre el tamaño del efecto que utiliza como ejemplo un supuesto programa de mejora de la lectura. Ilustra muy bien cómo una intervención puede producir resultados significativos, pero tener un efecto tan pequeño que no merezca la pena el esfuerzo para desarrollarla.

12 comentarios

Archivado bajo Software para revisiones sistemáticas, Tamaño del efecto

El coeficiente de correlación como tamaño del efecto

Hasta ahora, la mayor parte de las revisiones comentadas utilizaban como medida del tamaño del efecto una diferencia de medias estandarizada, como la d de Cohen o la g de Hedges. Estas medidas informan acerca de cuánta mejora produce una intervención, medida como cantidad de desviaciones típicas de diferencia entre el grupo experimental y el grupo de control, o entre un mismo grupo antes y después de la intervención.

En la entrada anterior, sobre la relación entre afición a la lectura y comprensión lectora, se presentaba una revisión de estudios en los que no se ha realizado ninguna intervención, sino que ofrecen datos sobre la relación que hay entre la cantidad de lectura a la que están expuestos los alumnos y su habilidad lectora. En este caso, el tamaño del efecto se mide con el coeficiente de correlación, que se representa mediante la letra r, y que es una medida muy adecuada para este propósito.

El coeficiente de correlación informa sobre la fuerza de la relación entre dos variables. Por ejemplo, existe una relación entre consumo de alcohol y accidentes, ya que a mayor consumo mayor probabilidad de sufrir un accidente. Son, por tanto, dos variables relacionadas.

El coeficiente de correlación es un número, casi siempre decimal, que va desde -1 hasta 1. Los coeficientes negativos indican que hay una relación, pero que es inversa: cuando el valor de una variable aumenta, el otro tiende a disminuir. El número 0 indica que no existe relación entre esas variables, y el 1 que la relación es perfecta: los cambios en una variable son idénticos a los cambios en la otra.

Un coeficiente de correlación entre 0,10 y 0,30 se suele considerar un tamaño del efecto pequeño. Entre 0,30 y 0,50 se considera un tamaño del efecto medio, y si es mayor que 0,50 un tamaño del efecto grande.

Al hacer un metanálisis, algunos autores convierten los coeficientes de correlación  mediante la transformación de Fisher, para obtener puntuaciones con una distribución normal. Es una práctica sobre la que aún existe debate, y no todos los métodos de metanálisis la emplean.

Otra transformación común es elevar la correlación al cuadrado para convertirla en R2, también conocido como coeficiente de determinación. Es lo que han hecho en el vídeo que acompaña esta entrada de forma un poco confusa, ya que al hablar del coeficiente de correlación de Pearson hubieran debido referirse a r, no a su transformación. Al hacer esta operación se impide que haya valores negativos, y los valores obtenidos estarán entre 0 y 1. Multiplicando el coeficiente de determinación por 100 se halla la proporción de varianza compartida por las dos variables estudiadas. En cierto modo,  R2 se puede leer como el tanto por ciento de varianza compartida o solapamiento. Si es igual a 1, las dos variables comparten el 100%. Si es igual a 0,5, conociendo los resultados en una variable podríamos predecir el 50% del resultado de la otra variable.

Información adicional

· El coeficiente de correlación.

2 comentarios

Archivado bajo Tamaño del efecto

Medida del tamaño del efecto con la g de Hedges

En la entrada anterior se comentaba una revisión que utilizaba como medida del tamaño del efecto la g de Hedges en lugar de otras más comunes como la d de Cohen o el coeficiente de correlación r. What Works Clearinghouse ha adoptado la g de Hedges (corregida para eliminar el sesgo positivo) como medida del tamaño del efecto en variables continuas.

Larry Hedges (de su web en la Universidad Northwestern)

Al igual que las otras medidas que se acaban de citar, la g de Hedges es una medida estandarizada del tamaño del efecto.  Para entender esta característica se puede imaginar que evaluamos la eficacia de un método mejora de la comprensión lectora. Este método produce en un grupo de alumnos un incremento de 3 puntos en la prueba de comprensión lectora del test Prolec. Otro método de mejora produce un incremente de 3 puntos en el test de comprensión ACL. ¿Quiere decir esto que ambos métodos son igual de eficaces? Es difícil que sea así porque los alumnos se han evaluado con pruebas difierentes. Los 3 puntos de diferencia podrían ser irrelevantes en una de ellas y suponer un cambio notable en la otra.

El incremento en la puntuación directa de un test sería una medida del tamaño del efecto no estandarizada. Las medidas estandarizadas hacen que se puedan comparar evaluaciones realizadas con distintas pruebas y escalas. La forma como lo hacen la d de  Cohen y la g de Hedges es basándose en la media. Estas medidas del tamaño del efecto nos dicen cuántas desviaciones típicas mide el efecto.

He encontrado unos datos que dicen que la estatura media en una muestra de mujeres españolas es 163 centímetros, y  la desviación típica 6,5 cm. Imaginemos ahora que un cambio en la dieta produce un cambio en la altura con un tamaño del efecto de 0,20. Entonces la estatura media pasaría a ser 164,3. Un tamaño del efecto de 0,5 conduciría a una estatura media de 166,25 y un tamaño del efecto de 1 aumentaría la estatura media una desviación típica:6,5 cm. haciendo que sea de 169,5 centímetros.

La pregunta que uno se puede hacer es: si la d y la g miden lo mismo, ¿por qué son distintas? La razón de que existan varias medidas del tamaño del efecto basadas en la media (hay alguna más como la delta de Glass) es que la forma básica de calcularlas es averiguar la diferencia entre el grupo experimental y el grupo de control y dividirla entre la desviación típica de la población. Pues bien: habitualmente desconocemos el último dato. Cuando “la mili” era obligatoria se tallaba a todos los varones y podíamos conocer la desviación típica de la altura de la población masculina española. En la actualidad no la sabemos, y mucho menos la desviación típica de la comprensión lectora de la población de alumnos españoles. Las distintas medidas del tamaño del efecto tratan de solventar ese problema siguiendo distintos caminos.

La g de Hedges calcula la desviación típica según la siguiente fórmula

en la que  n es el tamaño de la muestra de los grupos y s la desviación típica de los resultados obtenidos. Esta medida del tamaño del efecto presenta un sesgo positivo (da resultados mayores que los reales) que resulta irrelevante cuando las muestras son grandes. El propio Hedges propuso una fórmula para corregir el sesgo.

Información adicional

· Effect size, en Wikipedia.
· Estimadores del tamaño del efecto en metanálisis: un estudio Monte Carlo del sesgo y la eficiencia.
· Larry Hedges.

3 comentarios

Archivado bajo Tamaño del efecto