Extracción automática de colocaciones terminológicas en un corpus extenso de lengua general

  1. Santana Suárez, Octavio
  2. Pérez Aguiar, José Rafael
  3. Sánchez Berriel, Isabel
  4. Gutiérrez Rodríguez, Virginia
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2011

Número: 47

Páginas: 145-152

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Los sistemas automáticos de extracción de términos constituyen una herramienta fundamental cuando se afronta la tarea de compilación del léxico restringido a un campo de especialidad. Los análisis textuales llevados a cabo por este tipo de software deben incorporar estrategias que permitan detectar las colocaciones en la especialidad que se trabaje. En este trabajo se estudia la viabilidad del uso de corpus textuales extensos, sin información lingüística, como sucede con los que se pueden compilar a través de Internet, como fuente de información para la recopilación de colocaciones terminológicas. Con este propósito se analiza el comportamiento de distintos indicadores basados en las frecuencias registradas para una colección de términos económicos en un corpus del español de 300.000 palabras.

Referencias bibliográficas

  • Alonso Ramos, M. (1 994-1 995) “Hacia una definición del concepto de colocación: De J. R. Firth a I. A. Mel’cuk”. Revista de Lexicografía 1: 9-28.
  • Bosque, I. 2 001. “Sobre el concepto de colocación y sus límites”, Lingüística Española Actual XXIII/1: 9-40.
  • Corpas Pastor, G. 1 996. Manual de Fraseología española, Madrid, Gredos.
  • Corpas Pastor, G. 2 001. “Apuntes para el estudio de la colocación”. Lingüística Española Actual XXIII/1: 41-56.
  • Church, K. W.; Hanks, P. 1990. “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16, 1:22-29.
  • Dunning, T. 1 993. “Accurate Methods for the Statistics of Surprise and Coincidence”. Comput. Linguist. 19: 61-74.
  • Evert, S.; Krenn, B. 2001. “Methods for the Qualitative Evaluation of Lexical Association Measures”. Proceedings of the 39th Annual Meeting on Association For Computational Linguistics: 188-195.
  • Koike, K. 2001. Colocaciones léxicas en español. Universidad de Alcalá, Takushoku University.
  • Manning, C.; Schütze, D. 1 999. “Foundations of Statistical Natural Language Processing”. MIT Press: 141-177.
  • Pamies Bertrán, A; Pazos Bretaña, J. M. 2003. “Acceso automatizado a fraseologismos y colocaciones en corpus no etiquetado”. Language Desing: 39-50.
  • Santana, O.; Pérez, J. y otros. 2007. “Development of Support Services for Linguistic Research over the Internet TIN2004-03988”. Jornadas de Seguimiento de Proyectos en Tecnologías Informáticas: 167-174.
  • Santana, O.; Pérez, J. y otros. 1999. “FLANOM: Flexionador y lematizador automático de formas nominales”. Lingüística Española Actual XXI, 2, Ed. Arco/Libros, S.L.: 253/297.
  • Santana, O.; Pérez, J. y otros. 1997. “FLAVER: Flexionador y lematizador automático de formas verbales”. Lingüística Española Actual XIX, 2, Ed. Arco/Libros, S.L.: 229/282.
  • Seco, M.; Andrés, O.; Ramos, G. 1 999. Diccionario del Español Actual (DEA), Aguilar.
  • Varela, F.; Kubarth, H. 1 994. Diccionario Fraseológico del Español Moderno (DFEM) Gredos, Madrid.
  • Zuluaga, A. 2 002. “Los «enlaces frecuentes » de María Moliner. Observaciones sobre las llamadas colocaciones”. Lingüística Española Actual XXIV/1: 97-114.