Las actividades de los bancos centrales son adecuadas para la aplicación del aprendizaje automático y la inteligencia artificial (IA), lo que refleja la amplia disponibilidad de datos estructurados y no estructurados, junto con la necesidad de análisis sofisticados para respaldar las políticas. Incluso antes de que la IA se convirtiera en el centro de atención de los comentarios populares y de la fascinación generalizada, los bancos centrales habían sido los primeros en adoptar métodos de aprendizaje automático en estadística, análisis macroeconómico y regulación/supervisión (véase Araujo et al (2022, 2023)). Los hallazgos de este boletín no restan valor a los avances tangibles y rápidos que se están logrando en estas áreas, así como en las aplicaciones científicas de la IA que han experimentado un rápido progreso.
Sin embargo, nuestros hallazgos sugieren que se debe tener precaución al implementar grandes modelos de lenguaje en contextos que requieren un razonamiento económico cuidadoso y riguroso. La evidencia hasta ahora es que la generación actual de LLM no alcanza el rigor y la claridad en el razonamiento requeridos para los análisis de alto riesgo necesarios para las aplicaciones de banca central. Como se explica en el anexo, la ingeniería rápida y otros métodos para persuadir al LLM para que dé la respuesta correcta no vienen al caso en nuestro experimento.
En términos más generales, nuestros hallazgos se suman al debate sobre si las limitaciones de la generación actual de grandes modelos lingüísticos simplemente reflejan los límites contingentes planteados por el tamaño del texto de entrenamiento y el número de parámetros del modelo, o si los límites reflejan límites más fundamentales del conocimiento adquirido solo a través del lenguaje. Por un lado, Wei et al (2022) muestran que los LLM muestran «capacidades emergentes» (nuevas capacidades que no están presentes en modelos más pequeños) a medida que el tamaño de la red neuronal se eleva por encima de un umbral crítico. Los LLM suficientemente grandes son capaces de realizar tareas como la suma de tres dígitos, responder a preguntas intrincadas y exhibir capacidades generalizadas de lenguaje natural, una hazaña inalcanzable por modelos más pequeños con datos limitados. Del mismo modo, en su trabajo seminal, Bubeck et al (2023) exploran las competencias multifacéticas de los LLM. Si bien reconocen las limitaciones, los autores siguen siendo optimistas sobre el potencial del modelo para superar el rendimiento humano en ciertos dominios y argumentan que términos como «razón», «conocimiento», «habilidades», «planificación» y «aprendizaje» se aplican correctamente a dichos modelos.