Metodología

El método científico propuesto se combinará con un enfoque de gestión de proyectos ágil, como Scrum (Srivastava, Bhardwaj y Saraswat, 2017), que, si bien se orientó originalmente al desarrollo de software, también resulta apropiado para la investigación (Ota, 2010). Más concretamente, para una entrega eficiente de proyectos, donde los objetivos y las tareas deben cumplirse en el tiempo previsto.

Este enfoque comienza con una fase inicial de planificación y análisis de requisitos, donde se identifican los objetivos de cada módulo, se definen las actividades específicas necesarias para alcanzarlos y se establece un plan maestro con hitos, recursos y cronogramas claros. El trabajo se organiza en ciclos cortos o «sprints» que permiten la implementación y evaluación incremental de los módulos, asegurando resultados tangibles al final de cada iteración y facilitando ajustes continuos en función del progreso. A lo largo del proceso, se mantiene un marco de gestión colaborativa para garantizar la coordinación, el cumplimiento de los plazos y la calidad de los resultados. Las herramientas de gestión de proyectos para supervisar los módulos y sus tareas (por ejemplo, Asana o Trello) o los marcos integrados más generales como Microsoft Teams (suscrito por la Universidad de Alicante y, por lo tanto, gratuito para su personal) podrían ser buenas opciones para utilizar dentro del proyecto, sin descartar el análisis de otras opciones existentes para decidir cuáles se ajustarían mejor a la naturaleza y los objetivos del proyecto.

M1. Representación cuántica del texto

El objetivo de este módulo, relacionado con OB1, es analizar cómo se podría modelar el lenguaje natural bajo la teoría cuántica, identificando los desafíos y las oportunidades para emplear esta teoría en la representación de texto.

Las tareas asociadas a este módulo son:

Tarea 1.1. Análisis de la teoría cuántica y su aplicación a la representación de texto. Como se mencionó anteriormente, trabajos previos han demostrado que la naturaleza del texto se ajusta a la teoría cuántica, por lo que recopilaremos el estado del arte sobre los métodos existentes para representar texto, junto con sus potencialidades y limitaciones.

Hito: Revisión exhaustiva del estado del arte e identificación de las potencialidades y limitaciones del uso de la teoría cuántica para representar texto.

Tarea 1.2. Definición de circuitos cuánticos para tareas de comprensión y generación de lenguaje. En esta tarea, exploraremos en profundidad cómo construir circuitos cuánticos a partir de texto utilizando DisCoCat u otros formalismos matemáticos que puedan modelar la semántica de un texto (Galofaro, Toffano y Doan, 2018). Con el conocimiento adquirido, definiremos la hoja de ruta a seguir para su posterior aplicación en tareas y aplicaciones de PLN.

Hito: Recopilación de circuitos cuánticos para tareas de comprensión y generación de lenguaje.

M2. Algoritmos cuánticos y de inspiración cuántica para el procesamiento del lenguaje natural

El objetivo de este módulo, relacionado con los objetivos específicos OB2 y OB3, es doble. Por un lado, buscamos determinar cómo integrar la teoría cuántica en algoritmos clásicos, por ejemplo, para optimización, dando como resultado algoritmos híbridos clásico-cuánticos. Por otro lado, exploramos nuevos algoritmos cuánticos o inspirados en la mecánica cuántica, o bien mejoramos los existentes. En ambos casos, los algoritmos desarrollados se aplicarían posteriormente para resolver tareas y aplicaciones de PLN, según lo definido en los módulos 3 y 4, respectivamente (M3 y M4).

Las tareas previstas en este módulo son:

Tarea 2.1. Análisis del estado del arte de los algoritmos y marcos cuánticos disponibles para el PLN. Se realizará una revisión exhaustiva de la literatura sobre algoritmos cuánticos. Los diferentes enfoques mostrarán cómo se ha aplicado la teoría cuántica y nos permitirán seleccionar los más viables para nuestro proyecto y mejorarlos, con el objetivo de evaluar y comparar modelos puramente cuánticos, inspirados en la mecánica cuántica o híbridos, así como su nivel de interpretabilidad y transparencia.

Hito: Estado del arte en algoritmos y marcos cuánticos disponibles para el procesamiento del lenguaje natural (PLN).

Tarea 2.2. Exploración del uso de algoritmos cuánticos para la optimización del PLN. En esta tarea, estudiaremos, probaremos y evaluaremos diversos métodos de optimización cuántica (p. ej., optimización aproximada asistida cuánticamente (Ruan et al., 2023), recocido cuántico (Hegde et al., 2022) o computación cuántica adiabática (Zaech et al., 2022)) que podrían contribuir a la eficiencia a largo plazo de las tareas y aplicaciones de PLN. Para ello, se recopilarán y compararán implementaciones comunes de algoritmos conocidos. También se analizarán problemas de PLN similares ya aplicados a la computación cuántica y se adaptarán enfoques eficaces a las tareas, aplicaciones y escenarios propuestos en los módulos M3 y M4. Se definirán problemas de referencia relevantes en diversas clases de tamaño y dificultad. Todos los enfoques se compararán con el estado del arte clásico y las adaptaciones clásicas específicas para cada problema.

Hito: Un informe exhaustivo sobre metodologías y marcos de computación cuántica para la optimización y su impacto potencial.

M3. Integración de la teoría cuántica en tareas y aplicaciones de PLN.

Una vez que hayamos determinado la mejor manera de representar la información contenida en un texto mediante la teoría cuántica (M1) y la forma de integrar algoritmos cuánticos para el procesamiento del lenguaje natural (PLN) (M2), este módulo, relacionado con OB4, analizará los posibles escenarios de aplicación de estos hallazgos. Para ello, es fundamental analizar primero cómo modelar diversos fenómenos lingüísticos, prestando especial atención a las áreas donde los avances cuánticos podrían aportar mejoras significativas, logrando resultados más precisos y exactos que los enfoques actuales.

Se abordarán tres tareas principales, una de ellas relacionada con la comprensión de textos y las otras dos con la producción de textos:

Tarea 3.1. Exploración de enfoques de PLN cuántico para la resolución de fenómenos lingüísticos. Para analizar cómo la teoría cuántica puede contribuir a mejorar las tareas de PLN relacionadas con la comprensión y generación de texto, es necesario analizar aquellos aspectos de dichas tareas en los que los enfoques actuales no ofrecen resultados robustos. Por lo tanto, se investigarán fenómenos como la resolución de anáforas, la desambiguación del sentido de las palabras o la resolución de metáforas.

Hito: Propuesta con un enfoque novedoso que aborda fenómenos lingüísticos complejos utilizando técnicas cuánticas.

Tarea 3.2. Exploración de enfoques de PLN cuántico para realizar resúmenes de texto. Esta tarea tiene como objetivo formalizar el problema de la creación de resúmenes utilizando principios de la teoría cuántica, ofreciendo una perspectiva novedosa sobre cómo se puede ver y optimizar la creación de resúmenes como un problema de selección y generación de información. A partir del conocimiento adquirido en los módulos 1 y 2, y la tarea 3.1, se utilizarán circuitos cuánticos para representar y modelar el proceso de creación de resúmenes, lo que podría conducir a avances en eficiencia y precisión. Luego, se utilizarán procesos de optimización inspirados en la mecánica cuántica para realizar el modelado de resúmenes para la evaluación de la aptitud, tomando como base las ideas ya investigadas utilizando algoritmos de optimización clásicos (Zamuda y Lloret, 2020; Zamuda, Dugonik y Lloret, 2024), así como los avances y las ideas novedosas para el uso de la mecánica cuántica extraídas de la literatura (Niroula et al., 2022; Ulker y Ozer, 2024).

Hito: Análisis y propuesta de un nuevo método de resumen inspirado en la mecánica cuántica.

Tarea 3.3. Exploración de enfoques de PLN cuántica para la simplificación automática de textos. Siguiendo las mismas directrices que la tarea anterior (tarea 3.2), esta tarea tiene como objetivo analizar cómo optimizar el proceso de simplificación automática de textos utilizando el principio de la teoría cuántica. Aunque hasta ahora se han realizado varios estudios sobre la simplificación automática de textos, no todos los aspectos a simplificar se han resuelto en la misma medida. Si bien los obstáculos lingüísticos como números, superlativos, acrónimos, enumeraciones o aposiciones simples tienen soluciones suficientemente robustas (véase, por ejemplo, la herramienta SIMPLE.TEXT en https://simpletext.demos.gplsi.es/), otros tipos de obstáculos, como algunos casos de palabras difíciles o frases complejas, todavía requieren cierto esfuerzo por parte de la comunidad científica para que los resultados obtenidos sean realmente útiles para la sociedad (Saggion, 2024; Martínez, et al., 2024). Por lo tanto, en esta tarea se estudiarán nuevas perspectivas basadas en algoritmos cuánticos para obtener mejoras sustanciales en los procesos de simplificación automática de textos. Esto se basará en estudios realizados hasta ahora sobre el uso de dichos algoritmos en otras tareas complejas de PLN, como la traducción automática (Varmantchaonala, et al. 2024; Abbaszade, et al. 2023) o la generación de resúmenes (Piwowarski, Amini y Llamas, 2012).

Hito: Enfoques novedosos para el análisis y la generación de resúmenes y textos simplificados basados en la teoría cuántica.

M4. Caso de uso: Sistema de generación aumentada de recuperación para el dominio de la innovación.

Este módulo, relacionado con OB5, tiene como objetivo diseñar y desarrollar un sistema especializado de Generación Aumentada por Recuperación (RAG) para recuperar y generar información sobre innovación. Este sistema integrará los avances en tareas de PLN cualitativas desarrolladas en M1, M2 y M3. Este caso de uso servirá como plataforma experimental y campo de pruebas para evaluar intrínseca y extrínsecamente el impacto y la efectividad de los desarrollos en PLN, garantizando un enfoque práctico y orientado a resultados.

Tarea 4.1. Definición, desarrollo y evaluación de un sistema RAG para el ámbito de la innovación. El objetivo de esta tarea es definir, desarrollar y evaluar un sistema RAG para el ámbito de la innovación que utilice e integre los resultados obtenidos en M1, M2 y M3. Además, en la última etapa del sistema RAG relativa a la generación de lenguaje, se evaluará el impacto del LLM en la generación de resúmenes y textos simplificados, y se realizará una comparación entre los enfoques clásicos y los basados en computación cuántica.

Hito: Propuesta y desarrollo de un sistema RAG para el ámbito de la innovación.

M5. Difusión

Los investigadores principales y los miembros del equipo se asegurarán de dedicar suficiente tiempo del proyecto a la difusión de sus resultados. Se creará un sitio web dedicado al proyecto que recopilará todos los conjuntos de datos, corpus, herramientas y publicaciones generados. Se priorizarán las publicaciones en las conferencias de PLN más relevantes y prestigiosas, así como en revistas de alto impacto, como principal medio para comunicar los resultados del proyecto. Se organizarán seminarios internos temáticos anuales dentro del grupo de investigación GPLSI para fortalecer el vínculo entre la investigación realizada y los temas de investigación abordados por el grupo.

M6. Gestión de proyectos

Los investigadores principales serán responsables de la gestión, el seguimiento y la evaluación continuos del progreso del trabajo, así como de su evaluación intermedia y final, garantizando la calidad y el cumplimiento de los plazos y el presupuesto. Se celebrarán reuniones del equipo del proyecto según sea necesario, con una frecuencia mínima de una vez cada dos semanas.