M4. Caso de Uso: Sistema de Generación Aumentada por Recuperación (RAG) para el dominio de la innovación

Este módulo, relacionado con el OB5, tiene como objetivo diseñar y desarrollar un sistema especializado de Generación Aumentada por Recuperación (RAG) para la recuperación y generación de información sobre innovación. Este sistema integrará los avances en las tareas de PLN Cuántico (QNLP) desarrollados en los módulos M1, M2 y M3. Este caso de uso servirá como plataforma experimental y banco de pruebas para evaluar, de forma intrínseca y extrínseca, el impacto y la eficacia de los desarrollos en PLN, garantizando un enfoque práctico y orientado a resultados. Un sistema de búsqueda RAG es una técnica de IA que combina la recuperación de información con la generación de texto (Fan et al., 2024). El proceso implicado en un RAG consta de las siguientes tres etapas:

Recuperación de Información: el sistema recupera la información relevante.
Enriquecimiento: los resultados recuperados se utilizan como contexto adicional para guiar al modelo de lenguaje. Esto permite que el modelo genere respuestas que no solo sean lingüísticamente coherentes, sino que también estén respaldadas por datos o información pertinente.
Generación de Respuestas: una vez que el sistema tiene acceso a los documentos recuperados, un modelo de lenguaje (como GPT o similar) utiliza esta información para producir una respuesta adaptada a la consulta. El resultado es una salida más precisa y contextualizada en comparación con los modelos generativos que no incorporan búsqueda.

Como se puede observar en este contexto, el PLN dentro de un sistema RAG resulta esencial para garantizar que el sistema recupere, procese y genere respuestas relevantes y precisas basadas en información externa. Algunas de las tareas mencionadas pueden ser aptas para el procesamiento mediante QNLP si entendemos que la tarea podría beneficiarse de un enfoque cuántico, debido a la capacidad de los sistemas cuánticos para modelar significados ambiguos, relaciones contextuales complejas y el solapamiento de significados. Esto está en consonancia con las tareas y aplicaciones que se estudiarán en M1, M2 y M3, que incluirán la desambiguación léxica y semántica, la representación semántica (embeddings contextuales y composición semántica), la resolución de la anáfora, así como la detección e interpretación de metáforas.

Tarea 4.1. Definición, desarrollo y evaluación de un sistema RAG para el dominio de la innovación.

El objetivo de esta tarea es definir, desarrollar y evaluar un sistema RAG para el dominio de la innovación que utilice e integre los resultados obtenidos en los módulos M1, M2 y M3. Además, en la última etapa del RAG relativa a la generación de lenguaje, se evaluará el impacto en los modelos de lenguaje de gran tamaño (LLM) en cuanto a la generación de resúmenes y textos simplificados, y se llevará a cabo una comparación entre los enfoques clásicos y los basados en la computación cuántica.

Hito: Propuesta y desarrollo de un sistema RAG para el dominio de la innovación.