Conferencias

Curso de verano
Terminología e Ingeniería Lingüística

Terminología y tecnologías del lenguaje: un valor añadido de la formación universitaria de traductores e intérpretes


Purificación Fernández Nistal, Universidad de Valladolid
10 de julio, 10.30h. (Aula Magna)

Desde la convicción del sentir generalizado respecto a la importancia que en la sociedad del conocimiento y la comunicación multilingüe juegan la terminología y las nuevas tecnologías, se exploran algunas carencias de la formación de traductores en este sentido y se aboga por un mayor énfasis en los componentes cognitivos de la misma, como garante del valor añadido de estos profesionales en un mercado laboral globalizado, competitivo, cambiante, de difícil definición a veces, y siempre multilingüe.

Panorama actual de la Ingeniería Lingüística


Antonio Moreno Sandoval, Universidad Autónoma de Madrid
10 de julio, 12h. (Aula Magna)

La Ingeniería Lingüística es la disciplina que desarrolla sistemas informáticos que puedan emular a los seres humanos en su uso de la lengua: comprender y generar emisiones lingüísticas, tanto por escrito como en forma sonora. Estos programas informáticos se construyen sobre la aplicación de conocimientos sólidos sobre lengua en forma de técnicas y recursos lingüísticos. Dentro de las aplicaciones podemos destacar fundamentalmente el reconocimiento y síntesis del habla, por una parte, y la comprensión del lenguaje natural, por otra. Hasta la fecha, la mayoría de los sistemas y recursos se han aplicado a tareas como la traducción automática, la gestión de información, la creación de documentos o interfaces hombre-máquina.

La conferencia se dividirá en tres secciones. En la primera, delimitaremos el campo de la Ingeniería Lingüística y se ofrecerá una perspectiva histórica del campo. A continuación, trataremos las principales aplicaciones que están en uso en la actualidad. Terminaremos con una proyección sobre el futuro cercano de la disciplina.

Extracción automática de terminología a partir de textos: logros y escollos


Rosa Estopà, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra
11 de julio, 10.15h. (Aula Magna)

En este conferencia nos proponemos en primer lugar definir que es un extractor de terminología y cuales son sus usos; en segundo lugar haremos un repaso del planteamiento general de estos programas para finalizar mostrando por un lado sus logros y por el otro su principales puntos débiles.

En esta última parte, objetivo principal de la intervención, mostraremos con distintos experimentos realizados en 2000, 2005 y 2006 dificultad que plantea un vaciado terminológico de un texto especializado, analizaremos como los vaciados manual y automático de un mismo texto no coinciden, aunque pueden ser complementarios, y platearemos el tema de la no correlación entre los intereses de los usuarios y los resultados de los extractores. La conclusión de nuestros trabajos es que las aplicaciones no se pueden construir sin definir las necesidades terminológicas de uso real, afirmación que nos llevará a reclamar descripciones y análisis de las necesidades terminológicas que se generan en el contexto de las actividades profesionales que trabajan con textos especializados antes de diseñar un extractor de terminología.

Extracción y representación de conocimiento a partir de corpus


Clara Inés López Rodríguez, Universidad de Granada
11 de julio, 12h. (Aula Magna)

Desde la lingüística computacional, en concreto, en el campo de la traducción automática, se percibe la labor del traductor humano como la de un sistema experto (Nirenburg (1987: 10ss). Teniendo en cuenta que un sistema experto consta básicamente de dos componentes, un repositorio de conocimiento y un mecanismo para hacer inferencias, es importante definir qué tipo de conocimiento debe incluir, cómo se organiza y cómo se puede acceder a dicho conocimiento de forma rápida.

Frente a una visión más mecanicista de la traducción por parte de informáticos e ingenieros, quizá entendida como equivalencia palabra por palabra u oración por oración, desde los Estudios de Traducción hace mucho que se viene resaltando las importancia del contexto y la necesidad de incluir en las herramientas generadas en ingeniería lingüística información textual, retórica, pragmática y cultural. Sólo a partir de un repositorio de conocimiento más rico, el ordenador podrá realizar operaciones similares a las que desempeñan los humanos.

Por este motivo, la ingeniería lingüística debe intentar simular las operaciones del traductor a la hora de tratar y recuperar la información y de contextualizarlas cuando desarrolla herramientas e interfaces.

Igualmente, el traductor se sirve cada vez más de estos instrumentos informáticos en su labor diaria. Son especialmente útiles los programas de análisis de corpus, que permiten acceder a información léxica, sintáctica, textual y cultural en muy poco tiempo. Los corpus se vienen recopilando y analizando desde la década de los setenta y han sido la base para la lingüística de corpus, que es una metodología que se sirve de la utilización de corpus para estudiar la lengua y para el desarrollo de programas informáticos para el procesamiento del lenguaje natural.

En esta conferencia, se hará una aproximación a sistemas de representación conceptual y terminográfica, y se estudiarán formas de extraer conocimiento especializado desde la utilización de distintas técnicas de análisis de corpus. En concreto, se darán algunas nociones básicas sobre lingüística de corpus y programas de análisis de corpus, se verán puntos de contacto entre la extracción de términos y la extracción de conocimiento y se plantearán bases metodológicas para la extracción y la representación de conocimiento a partir de corpus, desde la experiencia adquirida en dos proyectos I+D: OncoTerm (Sistema Bilingüe Información) y Recursos Oncológicos Ingeniería de puertos y costas (estructuración del conocimiento y generación de recursos terminológicos).

Técnicas estadísticas para la extracción de términos en un corpus


Jordi Porta, Real Academia Española de la Lengua
12 de julio, 10.15h. (Aula Magna)

La extracción automática de terminología es, en general, el proceso asistido por ordenador para la confección de listas de candidatos a término a partir una selección de textos electrónicos.

La norma ISO 1087 (1990) define término como «La designación de un concepto definido en una lenguaje especializado mediante una expresión lingüística.» Además, añade como nota que «Un término puede estar compuesto por una sola palabra o por dos o más palabras.» Ni la definición de término de ISO, ni cualquiera de las propuestas en terminología, definen criterios operacionales que, sin una representación del conocimiento del mundo y del dominio, permitan su identificación.

A pesar de ello, es posible caracterizar un término, con independencia del dominio y de la lengua, tomando como base sus distribuciones estadísticas esperables en distintas dimensiones independientes. Estas dimensiones no correlacionadas son la unidad (en el caso de términos multipalabra), la adscripción a un dominio y el uso especializado. La combinación de medidas estadísticas con métodos de aprendizaje automático proporciona, junto con un análisis morfosintáctico, un mecanismo útil y flexible para la extracción de candidatos a término.

Anotación morfo-sintáctica de corpus. Obtención y uso


Horacio Rodríguez, Universidad Politécnica de Cataluña
12 de julio, 12h. (Aula Magna)

El uso de corpus lingüísticos como recursos para aplicaciones del procesamiento de la lengua ha experimentado un auge notable en los últimos años. Ello es debido a dos factores: Por un lado a una mayor disponibilidad de tales corpus (tanto en tamaño como en lenguas cubiertas y en riqueza de la información disponible) y por otra parte una orientación de los procesadores al uso de técnicas empíricas (como el Aprendizaje Automático o los Métodos Estadísticos) que hacen uso extensivo de tales recursos.

Los corpus lingüísticos presentan diferentes niveles de anotación. Para los corpus monolingües el nivel de anotación varía desde los más sencillos que se limitan a filtrar y limpiar los contenidos no textuales de los documentos, a otros progresivamente más ricos (con etiquetado morfológico, lematización, segmentado y eventualmente etiquetado de entidades con nombre propio, marcado de información sintáctica, constituyentes, dependencias, funciones sintácticas, etiquetado semántico, roles semánticos, relaciones de correferencia, relaciones discursivas, …). Los corpus multilingües añaden información de alineación a diferentes niveles (párrafo, oración, palabra, …).

Obviamente cuanto más complejo es el nivel de anotación más costoso es el proceso y más útil puede ser el recurso.

El contenido de la conferencia versa sobre dos temas: (1) Los diferentes niveles de anotación de corpus, haciendo especial hincapié en la anotación morfológica (POS tagged corpora) y sintáctica (treebanks) y en los procedimientos para llevarla a cabo y (2) los usos posibles de los corpus etiquetados.

Respecto al primer tema se presentarán ejemplos de corpus disponibles para varias lenguas, se estudiarán los métodos manuales, semi-automáticos o automáticos de anotación y las herramientas más habituales para llevar a cabo estas tareas.

Respecto al segundo tema veremos varios ejemplos de uso de corpus voluminosos para el aprendizaje de los métodos o la estimación de los modelos estadísticos necesarios para diferentes tareas de procesamiento de la lengua.

Extracción de información conceptual basada en ontologías


Jordi Vivaldi, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra
13 de julio, 10.15h. (Aula Magna)

El objetivo de esta presentación es, en primer lugar, revisar los conceptos fundamentales relacionados con las ontologías, a continuación examinar algunas de las ontologías más conocidas, evaluar las posibilidades de automatizar su construcción y finalmente describir su utilización en tareas del PLN.

Para ello se revisarán los aspectos mas relevantes de las ontologías MicroKosmos/OntoTerm, UMLS, CYC y (Euro)WordNet. A continuación, se revisarán aspectos relativos a la construcción de estos recursos y a la problemática que conlleva. En relación con este último aspecto analizaremos la posibilidad de obtener, mediante el análisis de texto especializado, información que facilite su construcción.

Para finalizar, se analizará la problemática asociada con la utilización de ontologías en el tareas de PLN. En relación con este último aspecto se analizarán con cierto detalle la aplicación de las ontologías a la extracción de términos.

FrameNet Español. Un análisis cognitivo del léxico del español


Carlos Subirats, Universidad Autónoma de Barcelona
13 de julio, 12h. (Aula Magna)

El objetivo del proyecto FrameNet Español(1) es la creación de una base de datos online de oraciones anotadas semántica y sintácticamente, partiendo de la teoría de la semántica de marcos de Fillmore. Las oraciones anotadas se extraen automáticamente de un corpus español de 350 millones de palabras, en función de las características de las proyecciones sintácticas de sus argumentos sintácticos.

La base de datos del proyecto FrameNet Español será de dominio público a partir de julio de 2007, se podrá consultar libremente vía web, mediante las aplicaciones FNDesktop y Spanish FrameNet SQL. Posteriormente, tanto el contenido de la base de datos, es decir, el corpus de oraciones anotadas semántica y sintácticamente, como el software para su gestión y consulta, se podrá descargar libremente desde la web del proyecto (http://gemini.uab.es/SFN) tras solicitar una licencia gratuita.

La base de datos de FrameNet Español permitirá desarrollar nuevas aplicaciones en el ámbito del tratamiento automático de la información textual en español, que posibilitarán el desarrollo de nuevas tecnologías para: el procesamiento semántico automático y las nuevas formas de tratamiento de la información textual que va a requerir el futuro desarrollo de la web semántica en español.

La visualización vía web de la reorganización automática de la información de la base de datos de FrameNet español mediante FNDesktop y FrameSQL, en función de las clases semánticas y sus argumentos, la combinatoria de argumentos, etc., proporcionará un diccionario semántico online, que abrirá nuevas perspectivas para el análisis cognitivo de las características semánticas de los predicados del léxico español.

Finalmente, la posibilidad que ofrece Spanish FrameSQL de realizar consultas cruzadas y simultáneas sobre FrameNet Español e inglés permitirá que nuestra base de datos se pueda utilizar como un diccionario semántico bilingüe online inglés-español y español-inglés, el cual, además de tener aplicaciones para la consulta humana, tendrá sin duda repercusiones en el desarrollo de sistemas de traducción automática basados en el análisis cognitivo del léxico.

(1) Quisiera darles las gracias a Collin Baker, Michael Ellsworth, Charles Fillmore, Marc Ortega, Miriam Petruck y Josef Ruppenhofer por toda la ayuda que me han brindado en el desarrollo de este proyecto. También quisiera agradecerle al Ministerio de Educación las ayudas que me ha concedido para desarrollar esta investigación en el International Computer Science Institute (Berkeley, California). Este proyecto se desarrolla con financiación del Ministerio de Educación (TSI2005-1200).