MultiComb

Home / MultiComb
logo_multicomb

English version
Versión en galego

Generador multilingüe de estructuras argumentales del sustantivo con aplicación en la producción en lenguas extranjeras

MultiComb es un proyecto financiado por FEDER / Ministerio de Ciencia e Innovación– Agencia Estatal de Investigación (Proyecto FFI2017-82454-P) que tiene como principal objetivo diseñar un simulador para la generación de contextos frasales y oracionales lingüísticamente aceptables para frases nominales en alemán, español y francés.

La idea de diseñar una herramienta como MultiComb nace en estrecha relación con los resultados de un experimento preliminar sobre el sustantivo ‘muerte’ (Valcárcel / Domínguez 2016), en el que participantes anónimos evaluaron la aceptabilidad de frases nominales generadas automáticamente. El análisis nos llevó a concluir que la evaluación de la aceptabilidad semántica de las frases nominales generadas automáticamente tal vez podría mejorarse proporcionando un contexto de frase compleja así como un contexto oracional.

MultiComb se asienta en el método combinado para la recogida y análisis de datos sobre la combinatoria sintagmática y paradigmática del nombre empleado en el proyecto MultiGenera, aplicándose este, a su vez, para la generación de contextos oracionales coherentes y aceptables, a la vez que más familiares para un hablante humano. Para este fin, resulta imprescindible generar contexto a nivel frasal, por un lado, y a nivel oracional, por otro.

Con la finalidad de formalizar el contexto de la frase  y facilitar su tratamiento informático, aplicamos una selección de funciones léxicas (FL) básicas siguiendo la propuesta de Mel’čuk (2013, 2015). El procedimiento de selección de los diferentes representantes de las FLs sigue, en primer lugar, un criterio de frecuencia. A partir de esta selección inicial se lleva a cabo un procedimiento de expansión de prototipos, depuración y su posterior empaquetado paradigmático. Evidentemente, estos conjuntos paradigmáticos asociados a LF dependerán no sólo de cada sustantivo, sino también de las restricciones léxicas específicas de cada uno de los tres idiomas.

La generación del contexto oracional, en el que se generan las frases nominales, atiende en MultiComb a cuatro estructuras sintácticas centrales que responden a funciones léxicas básicas Func, Fact, Oper, Real y Pred:

Sujeto (NP) + Verbo: el olor a tabaco de la casa se disipó
Sujeto (NP) + Cópula + Atributo: el olor a tabaco de la casa resultaba insoportable
Sujeto + Verbo + Complemento Objeto (NP): el vecindario sentía el olor a tabaco de la casa
Sujeto + Verbo + Complemento prepositivo (Prep + NP): Me enamoré del olor a campo de su ropa

Generamos, por tanto,  contextos de oración, en definitiva, ejemplos con los patrones de valencia más frecuentes.

El simulador MultiComb combina información suficiente, distintiva y orientada al usuario —humano o máquina— en un contexto de lenguas extranjeras en casos de producción. Como resultado final, los usuarios pueden decidir en una interfaz web los tipos de contexto que desean obtener así como filtrar los datos atendiendo a criterios de combinatoria sintáctica y semántica.

Cómo citar:

Domínguez Vázquez, María José & Gouws, Rufus (2023): “The definition, presentation and automatic generation of contextual data in lexicography”, en International Journal of Lexicography, 1-27, https://doi.org/10.1093/ijl/ecac020.

Domínguez Vázquez, María José: “Estructura argumental del nombre: generación automática”, en Signos, vol. 55, n. 110, 732-761.

Domínguez Vázquez, María José & Bardanca Outeiriño, Daniel & Simões, Alberto (2021): “Automatic Lexicographic Content Creation: Automating Multilingual Resources Development for Lexicographers”, en Post-editing Lexicography – Elex 2021. Proceedings of the eLex 2021 conference. 5-7 Julio 2021,  Brno, 269-287.

 

MultiTools
Artículos relacionados

Proyecto FFI2017-82454-P financiado por MCIN/AEI//10.13039/501100011033/ FEDER “Una manera de hacer Europa”