Extracción automática de colocaciones terminológicas en un corpus extenso de lengua general

  1. Santana Suárez, Octavio
  2. Pérez Aguiar, José Rafael
  3. Sánchez Berriel, Isabel
  4. Gutiérrez Rodríguez, Virginia
Revue:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Année de publication: 2011

Número: 47

Pages: 145-152

Type: Article

D'autres publications dans: Procesamiento del lenguaje natural

Résumé

The automatic systems which deal with term’s extractions constitute an important tool when they make reference to the labor of compilation of lexemes, which is restricted to a specific field or specialty. The textual analysis that are realized for this type of software must include strategies that could detect collocations in the field in which is done. In this topic is studied the viability of the use from extensive textual’s corpus, that have not contain linguistic information, as happen with those textual’s corpus that could be compiled from internet. The internet is used like a source of information for the recompilation of terminology’s collocations. With that purpose is analyzed the behavior of different indicators based on the frequencies registered for a collection of economic terms in a Spanish corpus of 300.000 words.

Références bibliographiques

  • Alonso Ramos, M. (1 994-1 995) “Hacia una definición del concepto de colocación: De J. R. Firth a I. A. Mel’cuk”. Revista de Lexicografía 1: 9-28.
  • Bosque, I. 2 001. “Sobre el concepto de colocación y sus límites”, Lingüística Española Actual XXIII/1: 9-40.
  • Corpas Pastor, G. 1 996. Manual de Fraseología española, Madrid, Gredos.
  • Corpas Pastor, G. 2 001. “Apuntes para el estudio de la colocación”. Lingüística Española Actual XXIII/1: 41-56.
  • Church, K. W.; Hanks, P. 1990. “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16, 1:22-29.
  • Dunning, T. 1 993. “Accurate Methods for the Statistics of Surprise and Coincidence”. Comput. Linguist. 19: 61-74.
  • Evert, S.; Krenn, B. 2001. “Methods for the Qualitative Evaluation of Lexical Association Measures”. Proceedings of the 39th Annual Meeting on Association For Computational Linguistics: 188-195.
  • Koike, K. 2001. Colocaciones léxicas en español. Universidad de Alcalá, Takushoku University.
  • Manning, C.; Schütze, D. 1 999. “Foundations of Statistical Natural Language Processing”. MIT Press: 141-177.
  • Pamies Bertrán, A; Pazos Bretaña, J. M. 2003. “Acceso automatizado a fraseologismos y colocaciones en corpus no etiquetado”. Language Desing: 39-50.
  • Santana, O.; Pérez, J. y otros. 2007. “Development of Support Services for Linguistic Research over the Internet TIN2004-03988”. Jornadas de Seguimiento de Proyectos en Tecnologías Informáticas: 167-174.
  • Santana, O.; Pérez, J. y otros. 1999. “FLANOM: Flexionador y lematizador automático de formas nominales”. Lingüística Española Actual XXI, 2, Ed. Arco/Libros, S.L.: 253/297.
  • Santana, O.; Pérez, J. y otros. 1997. “FLAVER: Flexionador y lematizador automático de formas verbales”. Lingüística Española Actual XIX, 2, Ed. Arco/Libros, S.L.: 229/282.
  • Seco, M.; Andrés, O.; Ramos, G. 1 999. Diccionario del Español Actual (DEA), Aguilar.
  • Varela, F.; Kubarth, H. 1 994. Diccionario Fraseológico del Español Moderno (DFEM) Gredos, Madrid.
  • Zuluaga, A. 2 002. “Los «enlaces frecuentes » de María Moliner. Observaciones sobre las llamadas colocaciones”. Lingüística Española Actual XXIV/1: 97-114.