M1. Representación cuántica del texto

M1: Representación cuántica del texto

El objetivo de este módulo, relacionado con el OB1, es analizar cómo se podría modelar el lenguaje natural bajo la teoría cuántica, identificando los desafíos y oportunidades de emplear esta teoría en la representación de textos.

Una frase en un texto no es simplemente un «saco de palabras» (bag of words), sino más bien una suerte de red en la que las palabras interactúan de una manera particular, y donde cada idioma posee sus propias peculiaridades en términos de sintaxis, semántica y pragmática. Además, el lenguaje es composicional, en el sentido de que los significados de nuevas frases y oraciones pueden derivarse típicamente de sus partes, incluso cuando la frase en sí no se ha visto antes o describe algo bastante irreal. Según Coecke et al. (2021), el lenguaje es «cuántico nativo» (quantum native), ya que, por ejemplo, el estado de superposición de la mecánica cuántica puede utilizarse para representar los múltiples significados de una palabra. Esta perspectiva se basa principalmente en dos razones:

La teoría cuántica y el PLN (Procesamiento del Lenguaje Natural) utilizan espacios vectoriales para describir estados, lo que implica que el lenguaje natural encaja de forma natural en el hardware cuántico (Peral-García, Cruz-Benito y García-Peñalvo, 2024).
La composición de palabras en una oración se corresponde con la composición de los circuitos que representan dichas palabras. Esto da como resultado un circuito que prepara un estado que codifica el significado de una oración y que podría transformarse directamente en un circuito cuántico (Widdows, et al., 2024).

En 2016, Zeng y Coecke (2016) propusieron la creación de un nuevo paradigma para el PLN en un contexto de computación cuántica. Posteriormente, se propusieron representaciones matemáticas formales como QWIRE (Paykin, Rand y Zdancewic, 2017) o el modelo categórico composicional-distribucional (Distributional Compositional Categorical o DisCoCat) del significado del lenguaje (Coecke y Kissinger, 2018; Coecke, 2021).

Por lo tanto, en este módulo se explorarán en profundidad estas y otras posibles formas de formalizar el lenguaje a través de la teoría cuántica, analizando sus capacidades y limitaciones para las tareas de comprensión y generación del lenguaje. Ya se han probado intentos de representar el lenguaje utilizando estos formalismos para tareas de Comprensión del Lenguaje Natural (NLU) y Generación de Lenguaje Natural (NLG) (Wu et al. 2021; Karamlou, Pfaffhauser y Wootton, 2022), y podrían constituir un punto de partida para nuestro proyecto, ya que actualmente estas tareas están formuladas de manera muy limitada (por ejemplo, la generación de oraciones cortas muy simples en NLG, ya que el modelo DisCoCat no es capaz de modelar el significado de grandes fragmentos de texto).

Tarea 1.1. Análisis de la teoría cuántica y su aplicación a la representación de textos.

Como se ha mencionado anteriormente, trabajos previos han demostrado que la naturaleza del texto encaja dentro de la teoría cuántica, por lo que recopilaremos el estado del arte sobre los métodos existentes para representar texto, junto con sus potencialidades y limitaciones.

Hito: Revisión exhaustiva del estado del arte e identificación de las potencialidades y limitaciones del uso de la teoría cuántica para representar texto.

Tarea 1.2. Definir circuito cuánticos para tareas de comprensión y generación del lenguaje

En esta tarea, exploraremos en profundidad cómo construir circuitos cuánticos a partir de texto utilizando DisCoCat u otros formalismos matemáticos que puedan modelar la semántica de un texto (Galofaro, Toffano y Doan, 2018). Con el conocimiento adquirido, definiremos la hoja de ruta (roadmap) a seguir para su posterior aplicación en tareas y aplicaciones de PLN.

Hito: Colección de circuitos cuánticos para tareas de comprensión y generación del lenguaje.