La lingüÃstica de corpus
La lingüÃstica de corpus (LC) ha realizado importantes contribuciones a los estudios del lenguaje al proporcionar una metodologÃa que permite analizar de manera sistemática y cuantitativa gran cantidad de datos lingüÃsticos extraÃdos de textos reales (Gallego, 2022) y de la oralidad.
Esta disciplina ha contribuido, significativamente, a comprender patrones y regularidades en el uso del lenguaje (Parodi, 2008). Al utilizar corpus lingüÃsticos, se pueden identificar regularidades en el lenguaje que, de otra manera, podrÃan pasar desapercibidas y que enriquecen tanto la comprensión de la estructura como del funcionamiento de las lenguas naturales (Gallego, 2022).
Además de su relevancia en el análisis lingüÃstico, la lingüÃstica de corpus ha impactado fundamentalmente en el desarrollo de la lingüÃstica computacional. Esta sinergia ha permitido no solo preservar lenguas en peligro de extinción, sino también avanzar en la comprensión de la diversidad lingüÃstica y cultural a través del análisis de gran cantidad de datos lingüÃsticos (Caballero y Salazar, 2020). La combinación de la tecnologÃa del lenguaje, con la documentación lingüÃstica, ha demostrado ser rentable tanto para investigaciones teóricas basadas en corpus como para la planificación lingüÃstica (Caballero y Salazar, 2020).
Uno de los aportes más significativos de la LC ha sido el análisis de colocaciones, el cual ha revelado la importancia de estudiar las combinaciones de palabras en contextos especÃficos, destacando cómo los hablantes nativos y no nativos utilizan estas colocaciones en sus producciones lingüÃsticas (Ballance, 2020; Durrant y Schmitt, 2009). Esta perspectiva ha sido igualmente valiosa en el análisis crÃtico del discurso, facilitando investigaciones que examinan discursos dominantes y alternativos (Fajri, 2017).
En este panorama, es esencial reconocer la influencia de la obra de Sinclair (1991). Su enfoque basado en corpus, aplicado especialmente al estudio de concordancias y colocaciones, ha establecido un precedente para el análisis lingüÃstico fundamentado en datos reales y cuantitativos (Baker et al., 2008). Hoy, es justo reconocer que el uso de corpus ha permitido identificar y examinar patrones lingüÃsticos de forma sistemática, enriqueciendo asà nuestra comprensión de las estructuras lingüÃsticas y el uso del lenguaje en diversos contextos (Laufer y Waldman, 2011).
Al mismo tiempo, la lingüÃstica de corpus ha impulsado el progreso en el análisis gramatical, tanto en entornos formales como en diálogos cotidianos. Se ha investigado la creatividad gramatical (Hoey, 2007) y se ha profundizado en la gramática del inglés en contextos conversacionales (Leech, 1998).
También se ha enfatizado la relevancia de las estadÃsticas de frecuencia de palabras y términos claves en la lingüÃstica de corpus histórica (Baron, Rayson y Archer, 2009). Investigaciones recientes han adoptado enfoques basados en corpus para identificar elementos esenciales de la creatividad lingüÃstica (Jordanous y Keller, 2016). Por último, la integración de la lingüÃstica de corpus en la enseñanza gramatical ha demostrado ser una herramienta eficaz para mejorar el conocimiento gramatical de los estudiantes.
En este contexto, el Corpus Brown, también conocido como el Corpus Estándar de la Universidad Brown del Inglés Americano Contemporáneo, ha sido una herramienta fundamental para la lingüÃstica de corpus.
Se trata de una recopilación electrónica de textos representativos del inglés hablado en Estados Unidos, cuyos responsables fueron Henry Ku?era y W. Nelson Francis (1979), de la Universidad de Brown, en Rhode Island. Este corpus es pionero en su estructuración y diversidad de géneros, incluyendo 500 textos que suman alrededor de un millón de palabras, todas seleccionadas de publicaciones estadounidenses del año 1961.
El Corpus Brown se ha convertido en un referente en la lingüÃstica computacional, al ser el primero en clasificar textos según las partes del discurso, lo que ha posibilitado análisis estadÃsticos avanzados y ha establecido un precedente para investigaciones lingüÃsticas posteriores. Originalmente, el corpus se limitaba a las palabras y su localización, pero con el tiempo se le añadieron etiquetas gramaticales que permitieron un análisis más minucioso y complejo. AsÃ, este corpus ha servido de modelo ampliamente reconocido en la lingüÃstica computacional y ha inspirado la creación de otras bases de datos lingüÃsticas importantes, como el Corpus Lancaster-Oslo-Bergen (LOB), enfocado en el inglés británico de los años noventa (Johansson, 1978).Â
Por otro lado, en la lengua española, también existen contribuciones significativas a los estudios de corpus lingüÃsticos. Por ejemplo, el Corpus de Referencia del Español Actual (CREA) es un conjunto de textos almacenados en soporte informático que permite estudiar palabras, significados y contextos en español. Representa todas las variedades relevantes del español desde 1975 hasta 2004 y se utiliza en investigaciones lingüÃsticas, asà como en la elaboración de diccionarios y gramáticas. Además, en el discurso oral, el trabajo de Antonio Briz en los proyectos Val.Es.Co. y Ameresco, del cual Panamá forma parte, han profundizado en el estudio de la variedad coloquial del español en diferentes geolectos europeos (2020a) y americanos (Briz, 2002b). En Hispanoamérica, particularmente, Giovani Parodi investigó los géneros académicos y profesionales a través de corpus especializados, proporcionando una base empÃrica para estrategias didácticas en la enseñanza de la lectura y la escritura en la educación superior (Parodi, 2008).
Tomando en cuenta este breve repaso reflexivo, es innegable que la lingüÃstica de corpus ha revolucionado los estudios del lenguaje al proporcionar herramientas y metodologÃas que permiten analizar de manera sistemática y objetiva el lenguaje en uso. Esto ha enriquecido nuestra comprensión de la estructura lingüÃstica, las variaciones en el uso del lenguaje y los fenómenos lingüÃsticos en diferentes contextos.
Referencias:
-
- Baker, P., Gabrielatos, C., KhosraviNik, M., Krzy?anowski, M., McEnery, T., & Wodak, R. (2008). A useful methodological synergy? combining critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the uk press. Discourse & Society, 19(3), 273-306. https://doi.org/10.1177/0957926508088962
- Ballance, O. (2020). Narrow reading, vocabulary load and collocations in context: exploring lexical repetition in concordances from a pedagogical perspective. Recall, 33(1), 4-17. https://doi.org/10.1017/s0958344020000117
- Baron, A., Rayson, P., & Archer, D. (2009). Word frequency and key word statistics in historical corpus linguistics. Anglistik: International Journal of English Studies, 20(1), 41-67.
- Briz, A. (2002b). Corpus de conversaciones coloquiales. Anejos de la revista Oralia, 1, 1-383.
- Briz, Antonio y Grupo Val.Es.Co. (2002a). Corpus de conversaciones coloquiales. Arco/Libros.
- Caballero, L. and Salazar, R. (2020). LingüÃstica computacional para la revitalización y el poliglotismo. Letras (Lima), 91(134), 184-198. https://doi.org/10.30920/letras.91.134.9
- CREA: Corpus de referencia del español actual (http://rae.es/recursos/banco-de-datos/crea).
- Durrant, P. and Schmitt, N. (2009). To what extent do native and non-native writers make use of collocations?. Iral - International Review of Applied Linguistics in Language Teaching, 47(2). https://doi.org/10.1515/iral.2009.007
- Fajri, M. (2017). Hegemonic and minority discourses around immigrants: a corpus-based critical discourse analysis. Indonesian Journal of Applied Linguistics, 7(2), 143. https://doi.org/10.17509/ijal.v7i2.8349
- Francis, W.N., and Kucera, H. 1979. Brown Corpus Manual. www.hit.uib.no/icame/brown/bcm.html.
- Gallego, J. (2022). LingüÃstica de corpus: de los datos textuales a la teorÃa lingüÃstica. Estudios de LingüÃstica del Español, 45, 11-42. https://doi.org/10.36950/elies.2022.45.8848
- Hoey, M. (2007). Grammatical creativity: A corpus perspective. Text, discourse and corpora: Theory and analysis, 31-56.
- Johansson, S. (1978). Lancaster-oslo-bergen corpus of modern english (lob):[tagged, horizontal format]. Oxford Text Archive Legacy Collection.
- Jordanous, A., & Keller, B. (2016). Modelling creativity: Identifying key components through a corpus-based approach. PloS one, 11(10), e0162959.
- Leech, G. (1998, February). English grammar in conversation. In Language Learning and Computers: Proceedings of the Chemnitz Symposium (pp. 20-21).
- LOB: The Lancaster-Oslo/Bergen Corpus (http://www.helsinki.fi/varieng/CoRD/corpora/LOB).
Â
- Parodi, G. (2008). LingüÃstica de corpus: una introducción al ámbito. RLA. Revista de lingüÃstica teórica y aplicada, 46(1), 93-119.
Â
- Parodi, Giovanni 2010. LingüÃstica de corpus: De la teorÃa a la empiria. Madrid: Iberoamericana Vervuert.
- Sinclair, John 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press
*El autor es profesor en la Facultad de Humanidades.


