Consumer Corpus Linguistikoa

Presentación

Un corpus es una recopilación de textos que se utiliza como muestra real para la descripción y el análisis de la lengua. Suele tener diversos usos: en lingüística, lexicografía, terminología, traducción, enseñanza de idiomas... Hay corpus de muchos tipos, puesto que se pueden clasificar según diversos criterios. Así, un corpus puede ser monolingüe o multilingüe, general o especializado... Hoy en día, los corpus se presentan, por lo general, en formato digital y suelen disponer de información lingüística, a fin de facilitar las búsquedas y análisis que en ellos se realicen.

La revista Consumer reúne varias características (se edita en cuatro lenguas, trata temas de actualidad, tanto sociales como relacionados con el consumo...) que lo convierten en un recurso muy valioso para usos lingüísticos, por lo que la Fundación Eroski decidió crear el Corpus Consumer. Mediante una interfaz web, dicho corpus permite consultar todo el contenido de la revista Consumer en el modo de consulta habitual en los corpus (por medio del lema, la forma o la categoría de una palabra) y ver los resultados tal y como se hace en aquellos (con contextos y cantidades de las palabras buscadas). Además, al tratarse de un corpus multilingüe, permite ver cómo se ha utilizado la palabra buscada en otros idiomas.

La versión del Corpus Consumer que está online en este momento incluye los números de la revista publicados entre 1998 y 2023, es decir, 281 números, con un total de 6.839 artículos. Véase en el cuadro adjunto el número de frases y palabras en cada uno de los idiomas (téngase en cuenta que las versiones de cada idioma empezaron en épocas distintas y que algunos idiomas son más asociativos que otros):

Idioma Frases Palabras
Vasco 556.280 5.464.503
Castellano 656.582 8.498.619
Catalán 545.014 6.876.142
Gallego 549.605 6.640.962

Los documentos han sido alineados por frases, para así poder ver más fácilmente cómo se han traducido las palabras a los otros idiomas. Este alineamiento se ha realizado de forma automática, por lo que dista de ser perfecto. El nivel de corrección del alineamiento entre el euskera y las otras lenguas es de entre un 82 y un 84 %, y de entre un 89 y un 93 % entre el resto.

El Corpus Consumer es una creación de la Fundación Elhuyar y de Eleka Ingeniería Lingüística.

Queremos mostrar nuestro agradecimiento a Asier Alcázar de la University of Southern California, por la realización de la anterior versión del corpus.