Archivo | Herramientas para evaluación / investigación RSS feed for this section

MAVIS, una aplicación para meta-análisis

23 Ago

Advierto desde el principio que esta entrada no trata sobre lectura ni sobre comprensión. Simplemente, escribo para compartir una herramienta que me ha resultado útil y que quizá pueda servir a otros.

El meta-análisis es un conjunto de cálculos que se utilizan para combinar los resultados de distintas investigaciones sobre un tema. Es decir, se trata de una herramienta útil para revisar y sintetizar, por ejemplo, la eficacia de un método o la relación entre dos variables, cuando se han realizado distintos estudios que ofrecen resultados diversos.

Hace tiempo ya escribí sobre algunos programas para realizar meta-análisis y, recientemente, he utilizado uno sencillo pero con bastantes funcionalidades. Este programa es MAVIS (Meta-analysis via Shiny).

R es un lenguaje y entorno de programación para estadística muy flexible. Existen varias aplicaciones para realizar meta-análisis en R, pero R es un entorno para especialistas bastante difícil de utilizar para gente sin formación.

Por otra parte, Shiny es una librería que permite el desarrollo de aplicaciones web con lenguaje R y MAVIS es una web que hace funcionar algunas aplicaciones de R para meta-análisis de una forma bastante fácil, en la que solo es necesario pegar los datos y seleccionar los parámetros en distintos menús.

MAVIS realiza meta-análisis según los modelos de efectos fijos y aleatorios, trabaja con la d de Cohen, con el coeficiente de correlación y con modelos dicotómicos, cuenta con distintas formas de estimar la heterogeneidad y realiza análisis de moderadores

Entre los resultados que ofrece están: el tamaño del efecto combinado, distintos indicadores de heterogeneidad y algunos cálculos sobre el riesgo de sesgo de publicación. Proporciona un diagrama de bosque con los tamaños del efecto y un diagrama de embudo.

Además, cuenta con una herramienta con distintas medidas para valorar el acuerdo entre distintos codificadores.

W. Kyle Hamilton

Distintas personas han intervenido en el desarrollo de esta herramienta, pero su versión actual se debe, fundamentalmente, a Kyle Hamilton, que actualmente es un alumno de doctorado de la universidad de California Merced. Además de MAVIS, ha desarrollado otras aplicaciones web para análisis de variables latentes, análisis de ítems de tests o análisis de TRI

Anuncio publicitario

El marco lexile

17 May

Un profesor quiere recomendar un libro a cada alumno de su clase. Su intención es que la dificultad del libro esté pareja con el nivel de lectura del alumnos. Para eso necesita conocer dos datos que, lógicamente, son la dificultad del libro y el nivel de lectura de cada alumno. ¿Cómo obtiene esta información?

Cuando hablo con profesores me suelen indicar tres cosas:

  1. Que no suelen recomendar libros intentando que su dificultad sea equiparable al nivel de lectura del alumno, sino que hacen otras propuestas (libros que creen que pueden gustar a los alumnos o el mismo libro para toda la clase).
  2. Que para estimar la dificultad del libro tomarían como referencia la edad para la que está recomendado.
  3. Que para conocer el nivel de lectura de los alumnos utilizan la impresión que se forman a partir de sus respuestas y resultados en pruebas de evaluación de la comprensión.

Dejo que cada uno reflexione sobre las ventajas y los problemas que pueden tener estos planteamientos porque mi intención es presentar una alternativa muy extendida, especialmente en Estados Unidos de América, pero poco conocida en el ámbito hispanoamericano. Se trata del marco lexile.

Lexile es un intento de crear una escala de medición que sirva tanto para valorar la dificultad de los textos como el nivel de los alumnos, de manera que se puedan hacer predicciones precisas sobre los textos que un alumno concreto comprenderá con facilidad, los textos en los que necesitará ayuda y los textos que están claramente fuera de su nivel. Una escala de este tipo permite, además, conocer la evolución de la competencia lectora del alumno.

Los creadores

Metametrics es una empresa especializada en la medición de resultados educativos, fundada en 1984. Ha desarrollado distintos productos, pero el más extendido es lexile. La idea de realizar esta escala de medición surgió a principios de los años 8o, cuando los fundadores de la empresa, Alfred J. Stenner y Malbert Smith trabajaban en la evaluación del programa Head Start.

La escala

La escala lexile no tiene unos límites claros. Una puntuación de 200 se considera una lectura inicial. Una puntuación de 1600 indicaría una lectura avanzada. Además, los libros suelen recibir un código de dos letras según su uso o características especiales. Estas letras indican que se trata de una obra

  • AD – dirigida a adultos. Pueden ser libros infantiles pensados para ser leídos en voz alta por un adulto a un niño, no por el niño.
  • NC – que no cumple la norma: la valoración lexile es desproporcionadamente alta respecto al grupo al que va dirigido el texto.
  • HL – de alto interés, baja dificultad. Al contrario que el anterior, la dificultad es sensiblemente menor a la que correspondería al grupo para el que va dirigido.
  • IG – guía ilustrada. Textos discontinuos con imágenes, como enciclopedias infantiles.
  • GN – novela gráfica.
  • BR – de iniciación a la lectura. Las puntuaciones negativas no se señalan como tales, sino que se indican con este código. Una puntuación de -50 lexiles se indicaría como BR50L
  • NP – no redactada en prosa.

La evaluación del nivel de lectura

Metametrics no ofrece pruebas para evaluar el nivel de lectura de los alumnos. Su idea es que las evaluaciones de competencia lectora que se realizan habitualmente se puedan transformar a puntuaciones lexile. Numerosas pruebas diagnósticas estatales y tests estandarizados de lectura ofrecen puntuaciones en la escala lexile.

Existen pruebas de lectura en español que ofrecen puntuaciones lexile, pero no estoy familiarizado con ninguna de ellas, puesto que están dirigidas, generalmente, a población de Estados Unidos que utiliza o aprende el español, aunque alguna de ellas también se emplea en países hispanoamericanos.

La evaluación de la dificultad de los textos

Distribuidoras como Amazon o Barnes & Noble, bibliotecas, webs de contenidos y varias plataformas de lectura han incorporado la escala lexile como referencia para valorar la dificultad de los textos.

La dificultad es medida mediante una fórmula en la que se tienen en cuenta la longitud de las oraciones y la frecuencia de las palabras que componen el texto.

Investigación

El marco lexile ha sido bastante productivo en investigación. Se han realizado estudios sobre la propia escala, para determinar su validez y su fiabilidad y también hay estudios en los que la escala lexile se emplea como herramienta para valorar el nivel y los progresos de los alumnos en la lectura. Metametrics ofrece una pequeña base de datos de las investigaciones relacionadas con lexile.

Herramientas

Metametrics ofrece algunas herramientas relacionadas con lexile. Estas son:

  1. Un buscador de lecturas: introduciendo una puntuación lexile, el buscador localiza libros que se encuentren en un nivel similar. Cuando escribo la entrada, el sistema tiene información sobre más de  270 000 libros.
  2. Un analizador que valora la dificultad de los textos en la escala lexile. La empresa ofrece, previo registro, una versión gratuita que analiza hasta 1000 palabras de texto. No obstante, los profesores pueden utilizar, también de forma gratuita, la versión profesional. La herramienta no es adecuada para textos como posía, recetas o letras de canciones, en los que ha puntuación de las oraciones puede ser bastante peculiar. Este analizador se puede emplear para textos escritos en español.

Críticas

El marco lexile ha recibido algunas críticas que apunto sin desarrollarlas mucho para no alargar más la entrada:

  • La valoración de la dificultad del texto se suele realizar analizando una porción del mismo, no el texto entero, esto hace que la longitud del texto no sea tenida en cuenta: un libro de 17 páginas podria tener la misma puntuación que uno de 1800 páginas.
  • Uno de los factores que se consideran para valorar la dificultad de un texto es la longitud de las oraciones. Algunas modificaciones en los signos de puntuación parecen afectar notablemente a la puntuación lexile de un fragmento de texto.
  • Dentro de un mismo libro puede haber partes que, al valorarlas, tienen calificaciones lexile muy dispares.

Hay otras críticas que se relacionan más con el uso que se hace de lexile que con el marco en sí:

  • Lexile es un sistema de pago, mientras que hay otras alternativas gratuitas para estimar la dificultad de los textos (eso sí, falta algún tipo de comparación sobre cuáles ofrecen datos más realistas).
  • Aunque existen muchos libros que han sido valorados con el sistema lexile, también los hay que no, de modo que limitarse a la escala lexile para buscar o recomendar lecturas haría que se ignorasen muchas obras.
  • En lugares donde es muy común que las escuelas implanten planes de lectura en los que se utilizan las puntuaciones lexile, los editores tienden a manipular los textos para que se ajusten bien a la fórmula y obtener la puntuación que más les convenga.

Test PROLEC-SE-R

5 Abr

He vuelto a actualizar la página de tests estandarizados de comprensión lectora con la revisión del test PROLEC de secundaria, el PROLEC-SE-R. Este test es notablemente distinto al anterior. Las diferencias más importantes son:

  1. Cuenta con dos partes: prueba de screening y batería completa. La prueba de screening se puede utilizar de forma colectiva, mientras que las escalas que quedarían (batería completa) son individuales.
  2. Se amplía la cantidad de escalas. Concretamente, en lo referente a comprensión hay cuatro medidas de comprensión lectora: texto expositivo, texto narrativo, pura y mnemónica; una prueba de comprensión oral y dos pruebas de comprensión de estructuras gramaticales.
  3. La corrección se realiza online. El usuario del test ya no dispone de los baremos para interpretarlo, sino que debe comprar usos a la empresa que lo edita.
  4. Las puntuaciones que se ofrecen ya no son percentiles. Ahora se proporcionan unas puntuaciones globales similares a las de cociente intelectual (media de 100 y desviación típica de 15) y para cada una de las subescalas se proporciona un rango: alto, medio, bajo, dificultades y claras dificultades.
  5. Algunos resultados se desglosan y se ofrecen referencias de lectura de palabras y pseudopalabras largas y cortas, palabras frecuentes e infrecuentes. También se ofrecen referencias desglosadas en comprensión de estructuras gramaticales (objeto focalizado, sujeto escindido, objeto escindido, relativo de sujeto y relativo de objeto).

Portada del PROLEC-SE-R

La introducción de datos me ha parecido aún más lenta que la corrección «a mano» de la versión antigua (PROLEC-SE), aunque también es cierto que el PROLEC-SE-R tiene más escalas. Por otra parte, tampoco me gusta no disponer del baremo.

Ejemplo de un informe realizado con el PROLEC-SE-R

Ejemplo de un informe

Test Dialect

15 Mar

Una alumna del MIEP me ha señalado la existencia de un test llamado Dialect y de origen chileno, así que tras buscar alguna información lo he incluido en la página de tests estandarizados de comprensión lectora.

Logotipo de DialectEl test Dialect está creado por las profesoras Pelusa Orellana y Carolina Melo, de la Universidad de Los Andes. Tiene algunas particularidades interesantes. La primera es que se trata de una prueba electrónica, que los alumnos realizan en Ipads. La segunda es que la prueba de comprensión ha sido validada por Metametrics, una empresa especializada en la medición del rendimiento académico. Metametrics ha desarrollado una herramienta llamada Lexile que se utiliza para medir tanto el rendimiento en lectura como la dificultad de los textos. Se trata de una herramienta interesantísima, de la que creo que escribiré en el futuro.

Dialect tiene dos partes. La primera, Dialect 1, es una evaluación de la comprensión en lectura silenciosa, que se utiliza como prueba de screening o tamizaje. En esta parte los alumnos son valorados en lexiles.

La segunda parte, Dialect 2, tiene varias pruebas que tratan de identificar dificultades en comprensión oral, lectura de palabras, vocabulario, conciencia fonológica, conocimientos sobre la lectura e identificación de letras, aunque no se realizan las mismas pruebas en todos los cursos. La tercera peculiaridad de Dialect es que la evaluación transcurre en dos sesiones. En la primera se realiza el tamizaje y aquellos alumnos que han obtenido un nivel inferior al que les correspondería por edad realizan la segunda parte.

Esta forma de evaluación encaja bastante bien con las propuestas de la concepción simple de la lectura ya que, en los casos en los que se observan dificultades de comprensión, explora las habilidades de comprensión oral y de descodificación de los alumnos.

 

Calculadoras estadísticas online

1 Jun

Hace mucho que no escribo sobre estadística. Advierto que no sé casi nada sobre el tema pero, en mis pequeñas investigaciones, tengo que realizar cálculos y eso me obliga a buscarme la vida. Dado que el presupuesto del equipo se reduce a mis recursos personales no queda otra que emplear programas libres o gratuitos.

Por tanto, la intención de esta entrada es presentar algunas herramientas que se pueden encontrar en Internet para realizar distintos cálculos de la forma más sencilla que sea posible. El punto débil de todas ellas es la fiabilidad. No digo que sus cálculos no sean correctos, sino que nadie nos lo garantiza. Por eso no es una mala idea comparar los resultados que se obtienen con estos recursos con los de otras herramientas, teniendo en cuenta que, en estadística, puede haber distintos ajustes o métodos de cálculo del mismo parámetro que dan resultados distintos. En las herramientas más sofisticadas podremos seleccionar el método que nos interese, mientras que en herramientas más sencillas, a veces se ofrece solo uno por defecto.

Algo que tienen en común las tres calculadoras es que,en varias de las pruebas, los datos se pueden introducir copiando y pegándolos desde una tabla. Se trata de una característica muy útil para mí porque suelo tener los datos en una tabla de Open Office Calc (o Excel) y así me resulta más cómodo organizarlos, usarlos en distintas calculadoras y, sobre todo, conservarlos. Sin embargo, es un procedimiento más laborioso que trabajar con una tabla en el propio programa.

Statistics to use

Esta página permite calcular estadísticos descriptivos (media, desviación típica, mediana) y otros como la T de Student, ANOVA o la prueba de Kolmogorov-Smirnov. Además, incluye herramientas para realizar gráficos y diagramas a partir de los datos.

De esta página he utilizado la ANOVA ya que permite establecer el número que grupos que quieres comparar, mientra que en otras calculadoras que he visto no es posible trabajar con más de 5.

Según las indicaciones que da la propia web, se creó en 1996. Su diseño corresponde con esa época. Las páginas tienen texto y cuadros para introducir los datos.

AI Therapy Statistics

Esta página calcula estadísticos descriptivos, realiza comparaciones entre dos grupos con la T de Student para muestras independientes y para muestras pareadas, la U de Mann-Whitney y el test de Wilcoxon, compara las diferencias entre 3, 4 o 5 grupos con ANOVA de un factor, para medidas repetidas, test de Kurskal-Wallis o test de Friedman.

Además cuenta con otras herramientas como calculadoras del tamaño de la muestra, de poder estadístico o del tamaño del efecto.

Social Science Statistics

Cuenta con varias calculadoras: ANOVA de un factor, T de Student (para muestras independientes, pareadas o para una muestra), U de Mann-Whitney, test de Wilcoxon, correlación (Pearson y Spearman) o tamaños del efecto.

 

ICLAU: una prueba para evaluar la comprensión lectora de estudiantes universitarios

13 Abr

Me suelen llegar bastantes consultas sobre pruebas para evaluar la comprensión lectora de estudiantes universitarios. En la página de tests se pueden encontrar las pruebas de Tapia, de González y de Difabio, que se han utilizado con este grupo.

Aquí presento otra prueba, desarrollada en México por Jorge Guerra y Yolanda Guevara. Se trata del ICLAU (Instrumento para valorar la Comprensión Lectora de Alumnos Universitarios). El ICLAU valora cinco niveles de comprensión: literal, de reorganización, inferencial, crítico y apreciativo. La evaluación se basa en un texto sobre la evolución, de 965 palabras y en 7 actividades. Las dos primeras actividades son preguntas de elección múltiple. Otra actividad es hacer un esquema y, las restantes, son preguntas abiertas. El esquema y las respuestas a las preguntas se valoran mediante una rúbrica.

En este artículo se pueden encontrar: el texto, las actividades, la rúbrica de evaluación para las actividades y un estudio de validez de la herramienta.

Este otro artículo describe la aplicación de la herramienta a 570 estudiantes de psicología y proporciona una referencia sobre su rendimiento.

 

Herramientas para medir la dificultad de los textos

10 Dic

En Hispanoamérica tenemos muy poca tradición de medir la dificultad de los textos. Las editoriales o las bibliotecas sí que suelen hacer una propuesta de lecturas por edad. Al decidir si un libro es más adecuado para lectores con 6 o con 9 años, se consideran cuestiones como la extensión, las ilustraciones, el tamaño de la letra, o el tema que trate.

Sin duda, una persona con suficiente experiencia puede intuir con acierto qué libro puede ser asequible para niños de una edad o, si lo conoce bien, para un lector concreto. La cosa se complica si queremos elegir textos más fáciles o difíciles dentro de un mismo nivel ya que no todos los libros recomendados para niños de 8 años tienen la misma dificultad.

Se me ocurren tres situaciones en las que puede ser relevante conocer de forma precisa la dificultad de los textos:

  1. Evaluación: por ejemplo, queremos saber si los alumnos de una clase de 5º tienen un nivel adecuado de comprensión lectora. Para eso preparamos una prueba en la que leen un texto, obtenido de un libro de texto 5º y responden a unas preguntas. Sin entrar en la dificultad de las preguntas, resulta que entre los libros de texto de 5º encontraremos desde pasajes sencillos hasta pasajes muy difíciles de leer. Elegir uno u otro influirá bastante en la conclusión que obtengamos sobre su nivel de lectura.
  2. Adecuación: cuando los alumnos tienen que estudiar o consultar en un libro nos podemos encontrar con el caso de alumnos que no comprenden el texto. Estos alumnos necesitarían una ayuda para entenderlo, o trabajar con un texto más sencillo. Si optamos por la segunda vía, necesitamos alguna forma de asegurarnos de que el texto es comprensible para el alumno, pero no tan fácil como para que no progrese trabajando con él.
  3. Investigación: muchas veces necesitamos textos con una dificultad equivalente para poder comparar intervenciones o para medir el progreso de los alumnos en la lectura.

Curiosamente, informándome sobre este tema, he encontrado una cuarta razón que no tiene que ver con la educación sino con la medicina. Los documentos de consentimiento informado deben ser redactados de forma que puedan ser fácilmente comprendidos, de modo que es necesario medir si son comprensibles o no.

Algunas herramientas

No me voy a detener en explicar cómo funciona cada una de ellas, ya que la entrada se volvería bastante larga y compleja.

Para textos en español

  • Gallito API: es una herramienta basada en análisis semántico latente, que ofrece numerosas informaciones sobre los textos. Se trata de un producto comercial de la empresa Semantia Lab, vinculada a la UNED. Los resultados que ofrece son más difíciles de interpretar que los de las otras herramientas basadas en indicadores más tradicionales.
  • INFLESZ: se trata de un programa gratuito que calcula la dificultad de los textos mediante la fórmula de perspicuidad de Flesch-Szigriszt y mediante la fórmula de lecturabilidad de Fernández-Huerta. Desafortunadamente, mientras escribía esta entrada, la web que alojaba el programa ha dejado de funcionar. Actualmente estoy utilizando esta ya que ofrece referencias a partir de textos escritos en español.
  • Word: algunas versiones de Microsoft Word ofrecen la posibilidad de calcular la legibilidad de un documento mediante las fórmulas de Flesch y Flesch-Kincaid.
Inflesz
Captura de pantalla de INFLESZ

Otra alternativa pueden ser las rúbricas de evaluación, en las que se juzgan distintos parámetros del texto. A diferencia de lo que sucede con las tres anteriores, en este caso, la medición no es automática. Tenemos un ejemplo en esta evaluación de la legibilidad de Felipe Alliende.

Para textos en inglés

  • Readability-Score: una herramienta en línea para medir la dificultad de los textos mediante el índice de Flesch-Kincaid. También informa sobre el curso para el que estaría destinado el texto según diferentes sistemas.
  • Readability Formulas: otra herramienta en línea para medir la dificultad de los textos según diferentes fórmulas. Es, también, una buena fuente de información para conocer cómo se calculan distintos índices de legibilidad.
  • Medidas Lexile: se trata de una marca registrada por la empresa Metametrics. Se pueden utilizar para medir la habilidad de los lectores y para medir la dificultad de los textos. Se puede consultar el nivel de dificultad de numerosos libros (en inglés) o analizar un texto en concreto. Registrándose se pueden analizar textos con menos de 1000 palabras. Para mayor extensión es necesario utilizar la versión profesional. Metametrics ofrece la versión profesional de forma gratuita a los educadores.
  • Reading Maturity Metric: otra marca registrada, esta vez por la editorial Pearson. Requiere registro.

 

 

Test para la detección temprana de las dificultades fonológicas

29 Jul

Las habilidades fonológicas son un conjunto de conocimientos y procedimientos que permiten distinguir los sonidos de la lengua y operarlos. Estas habilidades nos permiten saber, por ejemplo, que la palabra «remo» tiene dos sílabas, que se compone de cuatro sonidos diferentes o que comporte un sonido con la palabra «rana».

Obviamente, estas habilidades son muy importantes para el aprendizaje de la lectura, en la que una serie de signos gráficos llamados letras se tienen que transformar en sonidos para constituir palabras. Existe bastante investigación que ha documentado:

  • La estrecha relación entre habilidades fonológicas y lectura.
  • La posibilidad de utilizar las habilidades fonológicas como unos de los predictores del aprendizaje de la lectura.
  • Las dificultades en las habilidades fonológicas en las personas con dislexia.
  • Los efectos positivos del trabajo de las habilidades fonológicas en el aprendizaje de la lectura, sobre todo en niños pequeños.

Un test de habilidades fonológicas para niños de 4 años

El pasado mes de junio se publicó, en la Revista Pediatría Atención Primaria, un test para valorar la habilidad fonológica. Resulta curioso que el test esté publicado en una revista de pediatría y no de psicología o pedagogía. El objetivo es contar con una herramienta de cribado, que permita detectar en las consultas de pediatría a los niños que pueden tener dificultades de lectura. El artículo indica que la intención es poder hacer un diagnóstico precoz de la dislexia antes de que los niños hayan comenzado a leer.

El título del artículo es test para la detección temprana de las dificultades en el aprendizaje de la lectura y la escritura, y los autores son Cuetos y Suárez-Coalla, del departamento de Psicología de la Universidad de Oviedo y Molina y Llenderrozas, pediatra y enfermera pediátrica del centro de salud de Durango.

El test cuenta con seis pruebas breves:

  • Discriminación de fonemas: decir si dos palabras formadas por consonante-vocal-consonante (por ejemplo: dar – bar) son iguales o diferentes.
  • Segmentación de sílabas: separar palabras en sílabas.
  • Identificación de fonema: distinguir si el sonido /R/ está o no está en las palabras que se presentan.
  • Repetición de pseudopalabras: repetir palabras inventadas.
  • Repetición de dígitos: repetir series de números que se alargan progresivamente.
  • Fluidez verbal: decir en un minuto todos los nombres de animales que se le ocurran al niño.

Se pasa aproximadamente entre 6 y 10 minutos y no requiere materiales especiales.

Estudio psicométrico

El test fue utilizado con 298 niños y, con los datos obtenidos, se calcularon su fiabilidad, validez y se construyó una tabla de percentiles para valorar el resultado global del test.

Comentarios

En primer lugar, es de agradecer que hayan puesto a disposición de todo el mundo esta herramienta, con todo lo necesario para aplicarla: items, instrucciones y baremos.

No obstante, me gustaría señalar algunas cuestiones importantes para aplicarla con precaución:

  1. No se dan datos sobre su valor discriminativo. Aunque se presenta como una herramienta para la detección temprana de las dificultades de lectura, en el estudio publicado no se recogen datos sobre si los niños valorados presentan posteriormente dificultades de lectura. Por ese motivo, el título de esta entrada hace referencia a la detección de dificultades fonológicas, no en la lectura.
  2. Los análisis de validez son «internos», es decir se calcula la validez de constructo, entendida como correlación que tienen entre sí las distintas subpruebas del test. No se hace una comparación con otras pruebas que midan las habilidades fonológicas.
  3. Los baremos son globales. Los percentiles o los puntos de corte que indican la presencia de dificultades se refieren a la escala global, en la que se suman las puntuaciones de las 6 pruebas, que aportan 5 puntos cada una. Conviene tener en cuenta la posibilidad de que haya perfiles distintos. Al menos en teoría se podrían obtener 12 puntos (una puntuación que indica dificultades severas) obteniendo 4 puntos en tres pruebas y 0 puntos en las otras tres, o con 2 puntos en cada una de las seis pruebas.
  4. Las diferencias de edad, a pesar de que todos los alumnos tenían 4 años podrían ser importantes ya que en niños tan pequeños unos meses de diferencia podrían suponer una diferencia considerable en la realización de las pruebas.
  5. Antes de lanzarse a hacer «detecciones precoces de la dislexia» (recordemos que aún no se ha valorado realmente si la prueba permite detectar la dislexia) convendría tener en cuenta qué orientación se va a ofrecer a los padres de los niños que obtengan resultados muy bajos. Los anexos de este trabajo sobre estimulación de la conciencia fonológica en preescolares con TEL pueden dar ideas de qué hacer con estos niños.

A pesar de estas observaciones, la prueba tiene un contenido similar al de otras pruebas para valorar el desarrollo de las habilidades fonológicas y, como se indicó al principio, la relación entre habilidades fonológicas y aprendizaje de la lectura está documentada. No obstante, hay un interesante campo de trabajo en la comprobación del valor discriminativo del test. Tal vez los autore estén trabajando en eso, si no, puede ser un proyecto bonito y útil.

La prueba de comprensión de Canals

14 Ene

CanalsVuelvo a hacer un poco de arqueología: en 1988 se publicaron en la editorial Onda unas Pruebas Psicopedagógicas de Aprendizajes Instrumentales, para los ciclos inicial y medio. Estos ciclos abarcaban los cinco primeros cursos de EGB, que corresponderían con los cursos de 1º a 5º de primaria (en otros países 1º a 5º grados de elemental).  Estas pruebas tenían una escala de lectura, además de pruebas de ortografía, resolución de problemas y cálculo aritmético.

La escala de lectura evaluaba la velocidad y la comprensión lectora. En la velocidad lectora se consideraban las palabras leídas en un minuto y los errores cometidos al leer, y en la comprensión había una prueba para cada curso, con ejercicios de identificar palabras y frases, realizar instrucciones, ordenar fragmentos, completar frases o textos o reconocer su parte esencial, dependiendo del curso al que fueran destinados.

Las pruebas fueron baremadas con una muestra de 6.000 alumnos de Cataluña, Navarra, Galicia, Murcia y Castilla, y llegó a publicarse una versión en catalán de la batería. En la actualidad estas pruebas son muy poco conocidas. Fueron reeditadas en 1991 y la editorial Onda aún existe, pero ya no se comercializan. Perviven en catálogos y listas de pruebas psicopedagógicas, siendo bastante recomendadas para la detección de dificultades de aprendizaje ya que, salvo la prueba de rapidez lectora, todas las demás se pueden aplicar de forma colectiva. También han sido utilizadas en investigaciones sobre lectura, incluso en algunas relativamente recientes como ésta.

Por último, recuerdo que el blog tiene una página en con un serio intento de recoger información sobre todos los tests estandarizados de comprensión lectora en español, donde se pueden encontrar otras pruebas.

Cuestiones prácticas sobre la correlación intraclase

30 Dic

Hace mucho que no escribo nada sobre estadística, y últimamente estoy utilizando bastante la correlación intraclase para evaluar el grado de acuerdo entre evaluadores. Algo con ese nombre no parece que tenga nada que ver con la lectura o la comprensión, pero tiene su utilidad si queremos investigar o, simplemente, evaluar con ciertas garantías.

Pongo algunos ejemplos concretos: quiero saber cuántos errores cometen los alumnos al leer, quiero saber el número de palabras correctamente leídas por los alumnos en un minuto, quiero valorar la comprensión con preguntas de respuesta corta con una prueba como el Prolec-R, o quiero saber el número de errores de escritura que cometen los alumnos en un dictado. Cualquiera de estas valoraciones parece sencilla, basta con aplicar los criterios para saber cuando algo es correcto o no y contar el número de aciertos o de errores.

Lo curioso, es que tengo la experiencia repetida de que cuando otra persona valora la misma prueba que yo con los mismos criterios, el resultado que obtiene suele ser diferente al que obtengo yo. Incluso en algo tan evidente como los errores de escritura a veces es difícil saber si el alumno pone un punto o un acento, hay alumnos que escriben casi igual letras como «a, o» o «r, n», si la escritura no es ligada puede ser difícil determinar si ha separado incorrectamente una palabra, o si ha unido dos palabras, y todo eso sin contar los posibles despistes del corrector, porque, a veces, vemos o escuchamos lo que creemos que hay que ver o escuchar, no lo que los alumnos ponen o dicen.

El caso es que para valorar las mejoras en lectura o en comprensión tenemos que evaluar a los alumnos, y esas valoraciones pueden ser poco fiables. Una forma de medir su fiabilidad es hacer que la evaluación la realice más de una persona y calcular en qué medida se ponen de acuerdo. Para complicar más las cosas, hay que tener en cuenta que dos observadores se pueden obtener la misma puntuación por azar. Aunque parezca que eso afecta poco en este campo, pensemos en una prueba de comprensión lectora con preguntas que se valoran con 0 o 1. En esa situación, cuando dos personas corrigen la prueba sin mirar la respuesta, tenderían a dar la misma puntuación en la mitad de las preguntas (una tasa de acuerdo del 50%).

En una entrada anterior hablé sobre la kappa de Cohen. Esta medida es útil para valorar el acuerdo entre evaluadores cuando las variables son categóricas, por ejemplo valoramos si la lectura de un alumno es silábica (1), entrecortada (2) o fluida (3). En cambio, el coeficiente de correlación intraclase se utiliza cuando la variable que se está evaluando es numérica, como la puntuación en un test de comprensión o el número de errores de lectura.

Existen distintas modalidades de correlación intraclase

No hay un único coeficiente de correlación intraclase, puesto que su cálculo es diferente dependiendo del número de evaluadores, de si son elegidos aleatoriamente o no o de si se busca un acuerdo perfecto (que diferentes evaluadores den la misma puntuación) o consistencia en las puntuaciones (que si una puntuación es alta todos le den una valoración alta, aunque no coincida exactamente).

Interpretación del coeficiente de correlación intraclase

Es bastante común citar como guía para interpretar el coeficiente de correlación intraclase unas referencias propuestas por Dominic V. Cichetti, en su libro Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Estas referencias  son:

  • < 0,40 – Pobre.
  • 0,40 – 0,59 – Suficiente.
  • 0,60 – 0,74 – Bueno.
  • 0,75 – 1 – Excelente.

Hay que tener en cuenta que este coeficiente es una forma de correlación, y podría tener valores negativos, por ejemplo, si las valoraciones que hacen los observadores tienden a ser opuestas.

Una calculadora

Esta calculadora se puede encontrar en la web del departamento de obstetricia y ginecología de la universidad china de Hong-Kong. Su autor es Allan Chang. Para llegar a ella hay que ir al menú «statistics tool box» en la lista que aparece a la izquierda de la pantalla, en la nueva lista que aparece ir a «concordance» y seleccionar «intraclass correlation».

La herramienta permite trabajar con los datos de varios observadores y calcular el coeficiente de seis formas distintas. Tal como se explica en la propia página, la forma más habitual es la forma individual del modelo 2, en la que se  da por supuesto que los evaluadores están valorando los mismos casos y que estos evaluadores son parte de un conjunto mayor de evaluadores.