Probando los límites cognitivos de grandes modelos lingüísticos


Boletín del BIS |No. 83|04 enero 2024

Por: Fernando Pérez-Cruz y Hyun Song Shin

PDF texto completo (652kb)|9 páginas

Conclusiones clave

  • Cuando se les plantea un rompecabezas lógico que exige razonamiento sobre el conocimiento de los demás y sobre contrafactuales, los modelos de lenguaje grande (LLM) muestran un patrón de fracaso distintivo y revelador.
  • El LLM funciona perfectamente cuando se le presenta la redacción original del rompecabezas disponible en Internet, pero funciona mal cuando se cambian detalles incidentales, lo que sugiere una falta de comprensión verdadera de la lógica subyacente.
  • Nuestros hallazgos no restan valor al considerable progreso en las aplicaciones del aprendizaje automático de los bancos centrales a la gestión de datos, el análisis macro y la regulación/supervisión. Sin embargo, sugieren que se debe tener precaución al implementar LLM en contextos que exigen un razonamiento riguroso en el análisis económico.

Poner a prueba los límites cognitivos de los grandes modelos de lenguaje

El deslumbrante virtuosismo de los grandes modelos lingüísticos (LLM) ha despertado la imaginación del público. El transformador generativo pre entrenado (GPT) y los LLM similares han demostrado una impresionante variedad de capacidades, que van desde la generación de código informático e imágenes hasta la resolución de problemas matemáticos complejos. Sin embargo, incluso cuando los usuarios están deslumbrados por el virtuosismo de los grandes modelos lingüísticos, una pregunta que surge a menudo es si «saben» o «entienden» lo que están diciendo, o, como argumentan Bender y Koller (2020), simplemente están repitiendo como loros el texto que encontraron en Internet durante su extensa rutina de entrenamiento. Estas preguntas no solo son importantes en términos de la filosofía del conocimiento, sino que es probable que sean cruciales para evaluar el eventual impacto económico de los LLM.

Diseñar una prueba de autoconciencia no es fácil, pero algunas preguntas solo se pueden responder a través del dominio del razonamiento necesario para la conciencia situacional. Con este espíritu, interrogamos a GPT-4 (Achiam et al (2023)) con el llamado rompecabezas del cumpleaños de Cheryl. Este es un acertijo lógico bien conocido que se volvió viral en 2015 y tiene su propia página de Wikipedia.1 Dada la extensa discusión en línea, los últimos LLM habrán encontrado el acertijo y su solución como parte de su extenso corpus de texto de capacitación. La solución del enigma requiere un razonamiento sobre el conocimiento (tanto sobre el propio conocimiento como sobre el de los demás), así como la sofisticación en el razonamiento contra fáctico de la forma: «p es falso, pero si fuera verdadero, entonces q también sería verdadero».

Es revelador que, si bien el LLM resolvió el rompecabezas a la perfección cuando se le presentó la redacción original del rompecabezas, falló constantemente cuando se cambiaron pequeños detalles incidentales, como los nombres de los personajes o las fechas específicas. La ironía es que una vez que este boletín se publique y esté disponible en Internet, el razonamiento erróneo reportado en este boletín se remediará rápidamente, ya que el análisis correcto formará parte del texto de capacitación para los LLM. Sin embargo, los hallazgos de este boletín sirven para resaltar una clase general de problemas que los LLM pueden encontrar difíciles de manejar, con implicaciones más amplias para el despliegue de los LLM en contextos que exigen rigor en el razonamiento. Antes de discutir las lecciones más amplias, primero presentamos el rompecabezas y su solución.

El rompecabezas de cumpleaños de Cheryl

Cheryl ha puesto a sus dos amigos, Albert y Bernard, la tarea de adivinar su cumpleaños. Es de conocimiento común entre Albert y Bernard que el cumpleaños de Cheryl es una de las 10 fechas posibles: 15, 16 o 19 de mayo; 17 o 18 de junio; 14 o 16 de julio; o el 14, 15 o 17 de agosto. Para ayudar a que las cosas avancen, Cheryl le ha dicho a Albert el mes de su cumpleaños mientras le dice a Bernard el día del mes de su cumpleaños. No se les ha comunicado nada más.

Tal y como están las cosas, ni Albert ni Bernard pueden seguir avanzando. Tampoco pueden consultar para poner en común su información. Pero luego, Albert declara: «No sé cuándo es el cumpleaños de Cheryl, pero sé con certeza que Bernard tampoco lo sabe». Al escuchar esta declaración, Bernard dice: «Basándome en lo que acabas de decir, ahora sé cuándo es el cumpleaños de Cheryl». A su vez, cuando Albert escucha esta declaración de Bernard, declara: «Basándome en lo que acabas de decir, ahora también sé cuándo es el cumpleaños de Cheryl».

Pregunta: según el intercambio anterior, ¿cuándo es el cumpleaños de Cheryl?

Solución al rompecabezas

A primera vista, la primera declaración de Alberto parece simplemente reafirmar la ignorancia tanto de Alberto como de Bernardo. Sin embargo, si se examina más de cerca, la primera declaración de Albert es muy informativa, en particular, la segunda mitad de su declaración: «Sé con certeza que Bernard tampoco lo sabe». Es muy informativo porque revela lo que Cheryl debe haberle dicho a Albert. Si bien el hecho de que Bernard sea ignorante no agrega información nueva, el hecho de que Albert pueda decir que Bernard es ignorante es muy informativo.

Para explicarlo, es útil enumerar las posibles fechas del cumpleaños de Cheryl en formato de cuadrícula, como en el Gráfico 1. En esta cuadrícula, a Albert se le dice el mes del cumpleaños de Cheryl, mientras que a Bernard se le dice el día del mes del cumpleaños de Cheryl. Por lo tanto, si el cumpleaños de Cheryl fuera el 19 de mayo, a Albert se le habría dicho «mayo» y a Bernard se le habría dicho «19». Pero el hecho de que le dijeran «19» le permitiría a Bernard obtener inmediatamente la respuesta correcta, ya que solo hay una fecha posible que cae el día 19 de un mes. Del mismo modo, si el cumpleaños de Cheryl fuera el 18 de junio, Bernard podría haber llegado a la respuesta correcta de inmediato, ya que solo hay una fecha posible que cae el día 18 del mes. La afirmación de Albert «Sé con certeza que Bernard tampoco lo sabe» es entonces muy informativa, porque nos dice que Albert es capaz de descartar el 19 de mayo y el 18 de junio. Si le hubieran dicho «mayo» o «junio», no podría haberlos descartado. Por lo tanto, el hecho de que Albert pueda afirmar que Bernard no lo sabe significa que él (Albert) no fue dicho «mayo» o «junio» por Cheryl.

De esta manera, Bernard puede descartar cualquier fecha de mayo o junio como el cumpleaños de Cheryl. Este primer paso de eliminación se indica en el Gráfico 2.A, donde las celdas sombreadas en gris indican las fechas que se han descartado. La declaración de aspecto inocuo de Albert: «Sé con certeza que Bernard tampoco lo sabe» resulta ser muy informativa. Descarta cinco de las 10 fechas posibles.

Consideremos ahora la afirmación de Bernard: «Basándome en lo que acabas de decir, ahora sé cuándo es el cumpleaños de Cheryl». Esta declaración no podría haber sido hecha por Bernard si se le hubiera dicho «14», ya que tanto el 14 de julio como el 14 de agosto son compatibles con que se le dijera «14». Por lo tanto, el hecho de que Bernard pueda afirmar que conoce la respuesta significa que a él (Bernard) no se le dijo «14». Por lo tanto, tanto el 14 de julio como el 14 de agosto pueden eliminarse, como muestran las celdas grises del gráfico 2.B.

Por último, consideremos la declaración final de Albert: «Basándome en lo que acabas de decir, ahora también sé cuándo es el cumpleaños de Cheryl». Si a Alberto se le hubiera dicho «agosto», no podría haber hecho esta declaración, ya que tanto el 15 de agosto como el 17 de agosto habrían sido compatibles con que se le dijera «agosto». El hecho de que él (Alberto) pudiera hacer esta afirmación significa que no se le dijo «agosto». Por lo tanto, se pueden tachar el 15 de agosto y el 17 de agosto, como se muestra en el gráfico 2.C.

Después de tres rondas de eliminación, solo queda una fecha: el 16 de julio. Esta es la única fecha que es compatible con las tres afirmaciones hechas por Alberto y Bernardo. El cumpleaños de Cheryl es el 16 de julio.

Planteando el rompecabezas a GPT-4

El razonamiento involucrado en el rompecabezas del cumpleaños de Cheryl necesita sofisticación en dos aspectos. En primer lugar, se basa en la conciencia para participar en afirmaciones de conocimiento de orden superior, es decir, conocimiento sobre lo que otros saben o no saben.2 El segundo aspecto en el que el cumpleaños de Cheryl necesita sofisticación en el razonamiento es que apela a nuestra capacidad de razonar utilizando contra fácticos, es decir, afirmaciones de la forma: «p es falso, pero si fuera verdadero, entonces q también sería cierto». Ser capaz de lidiar con contra fácticos depende de que el razonador sea capaz de imponer una estructura a los mundos posibles, tanto a nuestro mundo real, como a otros mundos posibles no realizados.

Tres pruebas con los nombres y fechas originales

Planteamos el rompecabezas del cumpleaños de Cheryl a GPT-4 utilizando la conocida redacción del rompecabezas de 2015. Después de cada ronda, borramos la memoria y comenzamos una nueva sesión. En el anexo se presentan tres pruebas experimentales (Pruebas documentales A1 a A3). GPT-4 funcionó a la perfección en las tres carreras, con gran fluidez y claridad en la exposición. Lo que es particularmente impresionante es la capacidad de paráfrasis en exhibición. GPT-4 da explicaciones que siguen diferentes estilos de exposición sin ningún atisbo de aprendizaje memorístico. Esta diversidad de estilos en las respuestas da credibilidad a la noción de que GPT-4 se involucra en el verdadero razonamiento y comprensión pertinentes para resolver el rompecabezas.

Tres pruebas con cambios incidentales en nombres y fechas

Tras las respuestas impecables a la redacción original, se planteó una versión del rompecabezas a GPT-4 con modificaciones incidentales en los nombres de los personajes y los meses. Al igual que antes, vaciamos la memoria después de cada ronda para que las respuestas posteriores no se vieran afectadas por intercambios anteriores. Las fechas ajustadas del rompecabezas se establecen en el Gráfico 3, donde los días del mes son idénticos, pero los meses son nuevos y han sido revueltos. Dada la estructura idéntica del rompecabezas, la solución es el 16 de abril. Una verdadera comprensión de la lógica detrás del problema no presentaría dificultades para resolver la nueva versión del problema. Sin embargo, este cambio incidental da lugar a un deterioro drástico del rendimiento de GPT-4.

El resultado de la primera tirada con nuevas fechas se presenta en el Anexo A4. En esta primera ejecución, GPT-4 devuelve el resultado:

«Esto significa que el cumpleaños de Jonnie no puede ser mayo o junio, porque si lo fuera, habría una posibilidad de que Jon pudiera saber el cumpleaños (si le dijeran ’18’ o ’19’, días únicos en la lista dada). Por lo tanto, podemos eliminar el 19 de octubre, el 17 de enero y el 18 de enero».

GPT-4 todavía se refiere a «mayo» y «junio», aunque estos meses no figuran en el rompecabezas. Este error parece ser una forma de «memoria muscular» que refleja el entrenamiento al que se sometió GPT-4, como May y June figuraban en la redacción original del rompecabezas. En lugar de abordar el rompecabezas por derecho propio, GPT-4 recurre a la comodidad de una redacción familiar.

Más grave aún, GPT-4 comete varios errores lógicos en su razonamiento. La afirmación «Por lo tanto, podemos eliminar el 19 de octubre, el 17 de enero y el 18 de enero» no elimina los otros días de octubre. Esto sugiere una falla en el razonamiento contra fáctico. Dado este paso en falso, no es posible avanzar más en la resolución del rompecabezas. Sin embargo, GPT-4 carece de la autoconciencia de su propia ignorancia para detenerse en este punto. Continúa a pesar de todo y da una respuesta definitiva de todos modos, dando el 17 de diciembre como la respuesta correcta (lo cual, por supuesto, es incorrecto). Esta prueba pone de manifiesto dos puntos débiles clave. El primero es la falta de un razonamiento contra fáctico adecuado. El segundo es el fracaso de la conciencia de su propia ignorancia. A las versiones anteriores de GPT y otros LLM les fue peor, y su producción no se informa aquí.

En el Anexo A5 se muestra el resultado de la segunda prueba con la nueva redacción (con la memoria vaciada). Una vez más, GPT-4 sucumbe a la memoria muscular al mencionar «mayo» y «junio», a pesar de que estos meses no figuran en el rompecabezas. Además, GPT-4 cae en varios errores lógicos en el razonamiento y no encuentra los pasos necesarios para avanzar. Sin embargo, una vez más carece de la conciencia de sí mismo para darse cuenta de que ha llegado a un callejón sin salida, y con confianza llega a una respuesta (incorrecta). En la última ejecución con la nueva redacción (que se muestra en el Anexo A6), GPT-4 se equivoca en el razonamiento como en las dos primeras ejecuciones con la nueva redacción, pero de alguna manera tropieza con la respuesta correcta (16 de abril) pero sin ofrecer ningún razonamiento.

Llama mucho la atención el contraste entre la lógica impecable frente a la redacción original y el bajo rendimiento frente a cambios incidentales en la redacción. Es difícil disipar la sospecha de que, incluso cuando GPT-4 acierta (con la redacción original), lo hace debido a la familiaridad de la redacción, más que recurriendo a los pasos necesarios en el análisis. En este sentido, el aparente dominio de la lógica parece ser superficial.

Lecciones para casos de uso de bancos centrales

Las actividades de los bancos centrales son adecuadas para la aplicación del aprendizaje automático y la inteligencia artificial (IA), lo que refleja la amplia disponibilidad de datos estructurados y no estructurados, junto con la necesidad de análisis sofisticados para respaldar las políticas. Incluso antes de que la IA se convirtiera en el centro de atención de los comentarios populares y de la fascinación generalizada, los bancos centrales habían sido los primeros en adoptar métodos de aprendizaje automático en estadística, análisis macroeconómico y regulación/supervisión (véase Araujo et al (2022, 2023)). Los hallazgos de este boletín no restan valor a los avances tangibles y rápidos que se están logrando en estas áreas, así como en las aplicaciones científicas de la IA que han experimentado un rápido progreso.

Sin embargo, nuestros hallazgos sugieren que se debe tener precaución al implementar grandes modelos de lenguaje en contextos que requieren un razonamiento económico cuidadoso y riguroso. La evidencia hasta ahora es que la generación actual de LLM no alcanza el rigor y la claridad en el razonamiento requeridos para los análisis de alto riesgo necesarios para las aplicaciones de banca central. Como se explica en el anexo, la ingeniería rápida y otros métodos para persuadir al LLM para que dé la respuesta correcta no vienen al caso en nuestro experimento.

En términos más generales, nuestros hallazgos se suman al debate sobre si las limitaciones de la generación actual de grandes modelos lingüísticos simplemente reflejan los límites contingentes planteados por el tamaño del texto de entrenamiento y el número de parámetros del modelo, o si los límites reflejan límites más fundamentales del conocimiento adquirido solo a través del lenguaje. Por un lado, Wei et al (2022) muestran que los LLM muestran «capacidades emergentes» (nuevas capacidades que no están presentes en modelos más pequeños) a medida que el tamaño de la red neuronal se eleva por encima de un umbral crítico. Los LLM suficientemente grandes son capaces de realizar tareas como la suma de tres dígitos, responder a preguntas intrincadas y exhibir capacidades generalizadas de lenguaje natural, una hazaña inalcanzable por modelos más pequeños con datos limitados. Del mismo modo, en su trabajo seminal, Bubeck et al (2023) exploran las competencias multifacéticas de los LLM. Si bien reconocen las limitaciones, los autores siguen siendo optimistas sobre el potencial del modelo para superar el rendimiento humano en ciertos dominios y argumentan que términos como «razón», «conocimiento», «habilidades», «planificación» y «aprendizaje» se aplican correctamente a dichos modelos.

En el otro lado del debate, algunos autores (por ejemplo, Bender y Koller (2020); Bisk et al (2020); Asher et al (2023)) son más escépticos de que los LLM puedan comprender las complejidades de la verdadera comprensión del mundo. La postura escéptica es compartida incluso por destacados investigadores en inteligencia artificial, como Yann LeCun, quien ha destacado las limitaciones de los LLM en el razonamiento y la planificación.4 Más fundamentalmente, Browning y LeCun (2022) argumentan que la principal limitación de los LLM se deriva de su dependencia exclusiva del lenguaje como medio de conocimiento, sin el conocimiento tácito que va más allá del lenguaje. Como los LLM se limitan a interactuar con el mundo únicamente a través del lenguaje, carecen de la comprensión no lingüística y compartida del mundo que solo se puede adquirir a través de un compromiso activo con el mundo real.

Estas limitaciones pasan a primer plano cuando se razona utilizando contra fácticos. Enunciados de la forma: «p es falso, pero si fuera verdadero, entonces q también sería verdadero» imponen una estructura a los mundos posibles, tanto a nuestro mundo real, como a otros mundos posibles no realizados. Aunque p es falso, el razonador afirma la plausibilidad de la afirmación de que, si p fuera verdadero, entonces q también sería verdadero. Tales afirmaciones se basan en una red de creencias que se basan en el conocimiento tácito, incluido el adquirido a través de las interacciones con el mundo físico.

Sin duda, el impacto económico final de la IA podría ser grande, incluso si la generación actual de LLM no logra alcanzar la inteligencia artificial general. La naturaleza del trabajo y los futuros procesos empresariales podrían experimentar cambios de gran alcance, con posibles efectos dramáticos en la innovación y el ritmo del crecimiento económico. Sin embargo, de la misma manera, la capacidad eventual de los LLM para participar en un razonamiento riguroso seguramente determinará exactamente qué tareas y qué procesos de negocio se verán afectados por el despliegue generalizado de los LLM. Los experimentos reportados en este boletín sugieren que los LLM no pueden, hasta ahora, actuar como un sustituto de las habilidades de razonamiento rigurosas necesarias para algunas actividades analíticas básicas.


Referencias

Achiam, J et al (2023): «Informe técnico de GPT-4», arxiv.org/abs/2303.08774

Araujo, D, G Bruno, J Marcucci, R Schmidt y B Tissot (2022): «Aplicaciones de aprendizaje automático en la banca central: una visión general», Boletín IFC, n.º 57, noviembre.

——— (2023): «Data science in central banking: applications and tools», IFC Bulletin, No. 59, octubre.

Asher, N, S Bhar, A Chaturvedi, J Hunter y S Paul (2023): «Límites para el aprendizaje con modelos lingüísticos», en A Palmer y J Camacho-Collados (eds), Actas de la 12ª conferencia conjunta sobre semántica léxica y computacional, Asociación de Lingüística Computacional, pp. 236-48.

Bender, E y A Koller (2020): «Climbing towards NLU: on meaning, form, and understanding in the age of data», en D Jurafsky, J Chai, N Schluter y J Tetreault (eds), Actas de la 58ª reunión anual de la Asociación de Lingüística Computacional, Asociación de Lingüística Computacional, pp 5185-98.

Bisk, Y, A Holtzman, J Thomason, J Andreas, Y Bengio, J Chai, M Lapata, A Lazaridou, J May, A Nisnevich, N Pinto y J Turian (2020): «La experiencia fundamenta el lenguaje», en B Webber, T Cohn, Y He, Y Liu (eds), Actas de la conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), Asociación de Lingüística Computacional, págs. 8718-35.

Browning, J e Y LeCun (2022): «La IA y los límites del lenguaje», Noema, 23 de agosto.

Bubeck, S, V Chandrasekaran, R Eldan, J Gehrke, E Horvitz, E Kamar, P Lee, Y T Lee, Y Li, S Lundberg, H Nori, H Palangi, M Ribeiro e Y Zhang (2023): «Chispas de inteligencia artificial general: primeros experimentos con GPT-4», arxiv.org/abs/2303.12712.

Shin, H.S. (1993): «Estructura lógica del conocimiento común», Journal of Economic Theory, vol. 60, n.º 1, pp. 1-13.

Wei, J, Y Tay, R Bommasani, C Raffel, B Zoph, S Borgeaud, D Yogatama, M Bosma, D Zhou, D Metzler, E Chi, T Hashimoto, O Vinyals, P Liang, J Dean y W Fedus (2022): «Habilidades emergentes de los grandes modelos de lenguaje», Transactions on Machine Learning Research, agosto.

Williamson, T (2000): El conocimiento y sus límites, Oxford University Press.


Publicado originalmente: https://www.bis.org/publ/bisbull83.pdf

Deja una respuesta