La lingüística de corpus

Por: Linier Escobar* | Publicado el: 16 mayo 2024

La lingüística de corpus (LC) ha realizado importantes contribuciones a los estudios del lenguaje al proporcionar una metodología que permite analizar de manera sistemática y cuantitativa gran cantidad de datos lingüísticos extraídos de textos reales (Gallego, 2022) y de la oralidad.

Esta disciplina ha contribuido, significativamente, a comprender patrones y regularidades en el uso del lenguaje (Parodi, 2008). Al utilizar corpus lingüísticos, se pueden identificar regularidades en el lenguaje que, de otra manera, podrían pasar desapercibidas y que enriquecen tanto la comprensión de la estructura como del funcionamiento de las lenguas naturales (Gallego, 2022).

Además de su relevancia en el análisis lingüístico, la lingüística de corpus ha impactado fundamentalmente en el desarrollo de la lingüística computacional. Esta sinergia ha permitido no solo preservar lenguas en peligro de extinción, sino también avanzar en la comprensión de la diversidad lingüística y cultural a través del análisis de gran cantidad de datos lingüísticos (Caballero y Salazar, 2020). La combinación de la tecnología del lenguaje, con la documentación lingüística, ha demostrado ser rentable tanto para investigaciones teóricas basadas en corpus como para la planificación lingüística (Caballero y Salazar, 2020).

Uno de los aportes más significativos de la LC ha sido el análisis de colocaciones, el cual ha revelado la importancia de estudiar las combinaciones de palabras en contextos específicos, destacando cómo los hablantes nativos y no nativos utilizan estas colocaciones en sus producciones lingüísticas (Ballance, 2020; Durrant y Schmitt, 2009). Esta perspectiva ha sido igualmente valiosa en el análisis crítico del discurso, facilitando investigaciones que examinan discursos dominantes y alternativos (Fajri, 2017).

En este panorama, es esencial reconocer la influencia de la obra de Sinclair (1991). Su enfoque basado en corpus, aplicado especialmente al estudio de concordancias y colocaciones, ha establecido un precedente para el análisis lingüístico fundamentado en datos reales y cuantitativos (Baker et al., 2008). Hoy, es justo reconocer que el uso de corpus ha permitido identificar y examinar patrones lingüísticos de forma sistemática, enriqueciendo así nuestra comprensión de las estructuras lingüísticas y el uso del lenguaje en diversos contextos (Laufer y Waldman, 2011).

Al mismo tiempo, la lingüística de corpus ha impulsado el progreso en el análisis gramatical, tanto en entornos formales como en diálogos cotidianos. Se ha investigado la creatividad gramatical (Hoey, 2007) y se ha profundizado en la gramática del inglés en contextos conversacionales (Leech, 1998).

También se ha enfatizado la relevancia de las estadísticas de frecuencia de palabras y términos claves en la lingüística de corpus histórica (Baron, Rayson y Archer, 2009). Investigaciones recientes han adoptado enfoques basados en corpus para identificar elementos esenciales de la creatividad lingüística (Jordanous y Keller, 2016). Por último, la integración de la lingüística de corpus en la enseñanza gramatical ha demostrado ser una herramienta eficaz para mejorar el conocimiento gramatical de los estudiantes.

En este contexto, el Corpus Brown, también conocido como el Corpus Estándar de la Universidad Brown del Inglés Americano Contemporáneo, ha sido una herramienta fundamental para la lingüística de corpus.

Se trata de una recopilación electrónica de textos representativos del inglés hablado en Estados Unidos, cuyos responsables fueron Henry Ku?era y W. Nelson Francis (1979), de la Universidad de Brown, en Rhode Island. Este corpus es pionero en su estructuración y diversidad de géneros, incluyendo 500 textos que suman alrededor de un millón de palabras, todas seleccionadas de publicaciones estadounidenses del año 1961.

El Corpus Brown se ha convertido en un referente en la lingüística computacional, al ser el primero en clasificar textos según las partes del discurso, lo que ha posibilitado análisis estadísticos avanzados y ha establecido un precedente para investigaciones lingüísticas posteriores. Originalmente, el corpus se limitaba a las palabras y su localización, pero con el tiempo se le añadieron etiquetas gramaticales que permitieron un análisis más minucioso y complejo. Así, este corpus ha servido de modelo ampliamente reconocido en la lingüística computacional y ha inspirado la creación de otras bases de datos lingüísticas importantes, como el Corpus Lancaster-Oslo-Bergen (LOB), enfocado en el inglés británico de los años noventa (Johansson, 1978).

Por otro lado, en la lengua española, también existen contribuciones significativas a los estudios de corpus lingüísticos. Por ejemplo, el Corpus de Referencia del Español Actual (CREA) es un conjunto de textos almacenados en soporte informático que permite estudiar palabras, significados y contextos en español. Representa todas las variedades relevantes del español desde 1975 hasta 2004 y se utiliza en investigaciones lingüísticas, así como en la elaboración de diccionarios y gramáticas. Además, en el discurso oral, el trabajo de Antonio Briz en los proyectos Val.Es.Co. y Ameresco, del cual Panamá forma parte, han profundizado en el estudio de la variedad coloquial del español en diferentes geolectos europeos (2020a) y americanos (Briz, 2002b). En Hispanoamérica, particularmente, Giovani Parodi investigó los géneros académicos y profesionales a través de corpus especializados, proporcionando una base empírica para estrategias didácticas en la enseñanza de la lectura y la escritura en la educación superior (Parodi, 2008).

Tomando en cuenta este breve repaso reflexivo, es innegable que la lingüística de corpus ha revolucionado los estudios del lenguaje al proporcionar herramientas y metodologías que permiten analizar de manera sistemática y objetiva el lenguaje en uso. Esto ha enriquecido nuestra comprensión de la estructura lingüística, las variaciones en el uso del lenguaje y los fenómenos lingüísticos en diferentes contextos.

Referencias:

- Baker, P., Gabrielatos, C., KhosraviNik, M., Krzy?anowski, M., McEnery, T., & Wodak, R. (2008). A useful methodological synergy? combining critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the uk press. Discourse & Society, 19(3), 273-306. https://doi.org/10.1177/0957926508088962
- Ballance, O. (2020). Narrow reading, vocabulary load and collocations in context: exploring lexical repetition in concordances from a pedagogical perspective. Recall, 33(1), 4-17. https://doi.org/10.1017/s0958344020000117
- Baron, A., Rayson, P., & Archer, D. (2009). Word frequency and key word statistics in historical corpus linguistics. Anglistik: International Journal of English Studies, 20(1), 41-67.
- Briz, A. (2002b). Corpus de conversaciones coloquiales. Anejos de la revista Oralia, 1, 1-383.
- Briz, Antonio y Grupo Val.Es.Co. (2002a). Corpus de conversaciones coloquiales. Arco/Libros.
- Caballero, L. and Salazar, R. (2020). Lingüística computacional para la revitalización y el poliglotismo. Letras (Lima), 91(134), 184-198. https://doi.org/10.30920/letras.91.134.9
- CREA: Corpus de referencia del español actual (http://rae.es/recursos/banco-de-datos/crea).
- Durrant, P. and Schmitt, N. (2009). To what extent do native and non-native writers make use of collocations?. Iral - International Review of Applied Linguistics in Language Teaching, 47(2). https://doi.org/10.1515/iral.2009.007
- Fajri, M. (2017). Hegemonic and minority discourses around immigrants: a corpus-based critical discourse analysis. Indonesian Journal of Applied Linguistics, 7(2), 143. https://doi.org/10.17509/ijal.v7i2.8349
- Francis, W.N., and Kucera, H. 1979. Brown Corpus Manual. www.hit.uib.no/icame/brown/bcm.html.
- Gallego, J. (2022). Lingüística de corpus: de los datos textuales a la teoría lingüística. Estudios de Lingüística del Español, 45, 11-42. https://doi.org/10.36950/elies.2022.45.8848
- Hoey, M. (2007). Grammatical creativity: A corpus perspective. Text, discourse and corpora: Theory and analysis, 31-56.
- Johansson, S. (1978). Lancaster-oslo-bergen corpus of modern english (lob):[tagged, horizontal format]. Oxford Text Archive Legacy Collection.
- Jordanous, A., & Keller, B. (2016). Modelling creativity: Identifying key components through a corpus-based approach. PloS one, 11(10), e0162959.
- Leech, G. (1998, February). English grammar in conversation. In Language Learning and Computers: Proceedings of the Chemnitz Symposium (pp. 20-21).
- LOB: The Lancaster-Oslo/Bergen Corpus (http://www.helsinki.fi/varieng/CoRD/corpora/LOB).

Parodi, G. (2008). Lingüística de corpus: una introducción al ámbito. RLA. Revista de lingüística teórica y aplicada, 46(1), 93-119.

Parodi, Giovanni 2010. Lingüística de corpus: De la teoría a la empiria. Madrid: Iberoamericana Vervuert.
Sinclair, John 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press

*El autor es profesor en la Facultad de Humanidades.

La responsabilidad de las opiniones expresadas y la publicación de los artículos, estudios y otras colaboraciones firmadas, corresponde exclusivamente a sus autores, y no la posición del medio.

Tamaño de Texto:

Buscador

Ingresa y escucha nuestros PODCAST

Tweets por el @DiarioDigitalUP.

Click y Descarga Logo Oficial