Frecuencia de las palabras en el español

Estoy preparando una investigación sobre lectura y necesito comprobar que dos textos son similares, algo más complicado de lo que parece porque dos textos pueden ser similares o diferentes en muchas cosas: tema, número de palabras, número de oraciones, complejidad de las sílabas que aparecen… Una de las medidas que quiero tener en cuenta es si las palabras que contienen los textos son muy frecuentes o poco frecuentes en el español.

En otras ocasiones he utilizado para comprobar la frecuencia con que aparece una palabra el diccionario de frecuencias de Alameda y Cuetos (1995). Pero esta vez estoy utilizando otra herramienta muy interesante: las medidas de frecuencia del corpus del español de la Real Academia Española, que pone a nuestra disposición un listado con las frecuencias con que aparecen las palabras del Corpus de Referencia del Español Actual (CREA). Podemos acceder a las 1.000 palabras más frecuentes, a las 5.000 más frecuentes, a las 10.000 más frecuentes o a todo el corpus, que tiene más de 70.000 palabras. Con la herramienta de búsqueda que tenga el programa con el que estemos viendo el documento se puede buscar la palabra que nos interese.

Para quien tenga un interés especial en el estudio del léxico es recomendable que miren base de datos completa, el CREA que permite operaciones bastante más complejas que consultar la frecuencia con que aparece una palabra.

Interfaz de consulta del corpus CREA

En bachillerato tuve un profesor de latín que nos hizo aprender la máxima “ex abundantia cordis os loquitur” (o algo parecido) que se traduce como “la boca habla de lo que abunda en el corazón”. Por eso siempre que me encuentro una herramienta de este tipo me gusta comprobar cuáles son las palabras más frecuentes pensando que eso es lo que abunda en nuestro corazón. Evidentemente buena parte de las palabras más frecuentes tienen función gramatical más que significado. En los 10 primeros puestos encontramos “de, la, que, el, en, y, a, los, se, del”. Pero las que me interesan son otras. Por ejemplo, en el puesto 47 encontramos “años” que me parece la primera palabra con contenido semántico. En el puesto 64 está “parte” y en el 70 “tiempo”. En el 76 encontramos “vida”, en el 86 “gobierno”, en el 90 “día”, y en el 98 “país”. Ya a partir de la 100 hay palabras como “mundo (101)”, “año (102)”, “presidente (115)”, “casa (122)”, “España (134)”, “Madrid (140)”, “nacional (141)”, “trabajo (142)”, “política (152)”, “poder (166)”, “partido (171)”, “personas (172)”, “grupo (173)”, “mujer (181), “José (183)”,…

¿Solo nos interesa el fútbol? Si nos saltamos “partido” que puede relacionarse con el deporte y con la política, “fútbol” aparece en el puesto 839, y palabras como “deporte”, “balón”, “portería” o “gol” no aparecen entre las 1.000 más frecuentes del corpus.

Anuncios

2 comentarios

Archivado bajo Bases de datos, Curiosidades, Herramientas para evaluación / investigación

2 Respuestas a “Frecuencia de las palabras en el español

  1. Hola Juan,
    El link de Alameda y Cuetos descarga un Zip de 500k que no puedo descomprimir. ¿Es problema mío o lo han desactivado?
    Gracias

    • Hola Daniel:
      Creo que puede ser un problema tuyo. Yo he probado a descargarlo y al descomprimirlo obtengo un fichero .DBF que se abre con Excel (en mi caso con Open Office Calc).

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s