Los datos estructurados podrían desbloquear el potencial de la IA en las finanzas


Publicado el 7 de enero de 2024 por Editor

Un elemento en particular durante las vacaciones nos llamó la atención. La investigación de Patronus AI destacó los aparentes desafíos que enfrentan los grandes modelos de lenguaje (LLM), como el GPT-4 de OpenAI, al analizar los datos financieros contenidos en las presentaciones de la Comisión de Bolsa y Valores de EE. UU. (SEC).

El estudio, centrado en consultas financieras, encontró que incluso con acceso a archivos extensos, el modelo de mejor rendimiento, GPT-4-Turbo, logró solo una tasa de precisión del 79%. Pero espera… ¡esta es una de las informaciones mejor estructuradas del planeta! ¡Todo ha sido etiquetado con Inline XBRL! ¿Qué salió mal en su investigación? Oh. Lo adivinaste. Los investigadores pasaron por alto la información estructurada y utilizaron {Ed: ¡Whimpers!} versiones en PDF de estos archivos de estados financieros contenidos en sitios web corporativos.

Así que ayer hicimos nuestro pequeño experimento para comprender si el rendimiento de la IA mejoraría cuando se alimentaran con datos estructurados en Inline XBRL mantenidos en la SEC en lugar de archivos PDF. Cuando el equipo de XII profundizó en los datos, descubrimos que los sistemas de inteligencia artificial como el GPT-4 de OpenAI demuestran un rendimiento enormemente mejorado al responder consultas financieras cuando se alimentan con xBRL-JSON convertido a partir de los informes 10K Inline XBRL de la SEC. Aprovechar el análisis de datos estructurados con IA ofreció resultados de consultas en lenguaje natural mucho más precisos en todas las áreas que analizamos, incluidas:

  • Estimación del porcentaje del costo de bienes vendidos (COGS)
  • Determinación de los dividendos pagados a los accionistas comunes.
  • Analizando la concentración de clientes
  • Evaluación del crecimiento de las ganancias
  • Evaluación de gastos de capital

Los investigadores sugieren (como era de esperar) que los modelos de lenguaje grandes puedan tener problemas con datos no estructurados, a menudo proporcionando respuestas incorrectas o incluso negándose a responder. Aprovechar los datos estructurados existentes, como en el caso de las presentaciones ante la SEC, es clave para un análisis más confiable mediante modelos de IA.

Las presentaciones presentadas a la SEC ya están meticulosamente estructuradas por empresas, con datos XBRL incorporados obligatoriamente por la dirección corporativa en sus divulgaciones. Como extraer información financiera relevante con IA es más eficaz cuando esa información está estructurada, sería prudente utilizar estos datos pre-estructurados.

{Ed: Respetuosamente, comenzar el análisis con versiones PDF de archivos de 10K es ridículo. Es como imprimir fotografías digitales de algunos fuegos artificiales y luego recortar letras individuales con unas tijeras sin punta y pegarlas en la página para deletrear las palabras «Feliz Año Nuevo» en el papel. ¡Es 2024! ¡Despierta y huele los datos estructurados!}

A pesar de las limitaciones actuales, los investigadores creen en el potencial a largo plazo de modelos de lenguaje como Chat-GPT para ayudar a los profesionales de la industria financiera. Sin embargo, subrayan la necesidad de una mejora continua en los modelos de IA.

Desde nuestra perspectiva, agregaríamos algo extremadamente obvio: las mejoras se acelerarán significativamente al aprovechar XBRL para mejorar la precisión y confiabilidad en el análisis financiero basado en IA. Apenas arañamos la superficie, más de una hora o dos… y estamos seguros de que nuestros lectores podrían hacerlo mejor. Comience por convertir Inline XBRL en xBRL-JSON (la mayoría de los procesadores XBRL ahora le permiten hacer esto extremadamente rápido), brinde a la IA algunas sugerencias sobre la estructura y continúe desde allí. Si tenemos tiempo, profundizaremos un poco más e informaremos la próxima semana.

Lea el artículo que describe esta investigación aquí.

AI ML SEC


TECNOLOGÍA

Los investigadores encuentran que GPT y otros modelos de IA no pueden analizar una presentación ante la SEC

PUBLICADO EL MARTES 19 DE DICIEMBRE DE 2023

Kif Leswing

PUNTOS CLAVE

  • Los grandes modelos de lenguaje, similares al que se encuentra en el corazón de ChatGPT, con frecuencia no responden a las preguntas derivadas de las presentaciones de la Comisión de Bolsa y Valores, según una nueva investigación.
  • Los hallazgos resaltan algunos de los desafíos que enfrentan los modelos de inteligencia artificial a medida que las grandes empresas, especialmente en industrias reguladas como las financieras, buscan incorporar tecnología de punta en sus operaciones, ya sea para servicio al cliente o investigación.
  • “Ese tipo de tasa de rendimiento es absolutamente inaceptable”, dijo el cofundador de Patronus AI, Anand Kannappan. “Tiene que ser mucho más alto para que realmente funcione de forma automatizada y lista para la producción”.

Los investigadores de un startup llamado Patronus AI descubrieron que los modelos de lenguaje grandes, similares al que se encuentra en el corazón de ChatGPT, con frecuencia no responden a las preguntas derivadas de las presentaciones de la Comisión de Bolsa y Valores.

Incluso la configuración del modelo de inteligencia artificial de mejor rendimiento que probaron, el GPT-4-Turbo de OpenAI, cuando estaba armado con la capacidad de leer casi un archivo completo junto con la pregunta, solo obtuvo el 79% de las respuestas correctas en la nueva prueba de Patronus AI, dijeron los fundadores de la compañía. dijo a CNBC.

A menudo, los llamados modelos de lenguaje grande se negaban a responder o “alucinaban” cifras y hechos que no estaban en los documentos de la SEC.

“Ese tipo de tasa de rendimiento es absolutamente inaceptable”, dijo el cofundador de Patronus AI, Anand Kannappan. “Tiene que ser mucho más alto para que realmente funcione de forma automatizada y lista para la producción”.

Los hallazgos resaltan algunos de los desafíos que enfrentan los modelos de IA a medida que las grandes empresas, especialmente en industrias reguladas como las financieras, buscan incorporar tecnología de punta en sus operaciones, ya sea para servicio al cliente o investigación.

La capacidad de extraer números importantes rápidamente y realizar análisis de narrativas financieras se ha considerado una de las aplicaciones más prometedoras para los chatbots desde que se lanzó ChatGPT a fines del año pasado. Los documentos presentados ante la SEC están llenos de datos importantes, y si un robot pudiera resumirlos con precisión o responder rápidamente preguntas sobre su contenido, podría darle al usuario una ventaja en la competitiva industria financiera.

El año pasado, Bloomberg LP desarrolló su propio modelo de inteligencia artificial para datos financieros, profesores de escuelas de negocios investigaron si ChatGPT puede analizar titulares financieros y JPMorgan está trabajando en una herramienta de inversión automatizada impulsada por IA, informó anteriormente CNBC. La IA generativa podría impulsar la industria bancaria en billones de dólares al año, según un pronóstico reciente de McKinsey.

Pero la entrada de GPT en la industria no ha sido fácil. Cuando Microsoft lanzó por primera vez su Bing Chat utilizando GPT de OpenAI, uno de sus principales ejemplos fue el uso del chatbot para resumir rápidamente un comunicado de prensa de ganancias. Los observadores rápidamente se dieron cuenta de que los números en el ejemplo de Microsoft estaban equivocados y que algunos números estaban completamente inventados.

‘Controles de vibraciones’

Parte del desafío al incorporar LLM en productos reales, dicen los cofundadores de Patronus AI, es que los LLM no son deterministas: no se garantiza que produzcan el mismo resultado cada vez con la misma entrada. Eso significa que las empresas necesitarán realizar pruebas más rigurosas para asegurarse de que estén funcionando correctamente, sin salirse del tema y proporcionando resultados confiables.

Los fundadores se reunieron en Meta , la empresa matriz de Facebook., donde trabajaron en problemas de IA relacionados con comprender cómo los modelos obtienen sus respuestas y hacerlos más “responsables”. Fundaron Patronus AI, que recibió financiación inicial de Lightspeed Venture Partners, para automatizar las pruebas de LLM con software, de modo que las empresas puedan sentirse cómodas de que sus robots de IA no sorprenderán a los clientes o trabajadores con respuestas incorrectas o fuera de tema.

“En este momento la evaluación es en gran medida manual. Se siente como simplemente probar mediante inspección”, dijo Rebecca Qian, cofundadora de Patronus AI. “Una empresa nos dijo que se trataba de ‘controles de vibraciones’”.

Patronus AI trabajó para escribir un conjunto de más de 10.000 preguntas y respuestas extraídas de presentaciones ante la SEC de importantes empresas que cotizan en bolsa, a las que llama Finance Bench. El conjunto de datos incluye las respuestas correctas y también dónde encontrarlas exactamente en un archivo determinado. No todas las respuestas se pueden extraer directamente del texto y algunas preguntas requieren cálculos o razonamiento ligeros.

Qian y Kannappan dicen que es una prueba que proporciona un “estándar mínimo de rendimiento” para la IA del lenguaje en el sector financiero.

A continuación, se muestran algunos ejemplos de preguntas en el conjunto de datos, proporcionado por Patronus AI:

  • ¿CVS Health pagó dividendos a los accionistas comunes en el segundo trimestre del año fiscal 2022?
  • ¿AMD informó concentración de clientes en el año fiscal 22?
  • ¿Cuál es el margen% de COGS del año fiscal 2021 de Coca Cola? Calcule lo que se pidió utilizando las partidas que se muestran claramente en el estado de resultados.

Cómo les fue a los modelos de IA en la prueba

Patronus AI probó cuatro modelos de lenguaje: GPT-4 y GPT-4-Turbo de OpenAI, Claude 2 de Anthropic y Llama 2 de Meta, utilizando un subconjunto de 150 de las preguntas que había producido.

También probó diferentes configuraciones e indicaciones, como una configuración en la que a los modelos OpenAI se les daba el texto fuente relevante exacto en la pregunta, al que llamó modo “Oracle”. En otras pruebas, a los modelos se les dijo dónde se almacenarían los documentos subyacentes de la SEC, o se les dio un “contexto extenso”, lo que significó incluir casi una presentación completa de la SEC junto con la pregunta en el mensaje.

GPT-4-Turbo falló en la prueba de “libro cerrado” del startup, donde no se le dio acceso a ningún documento fuente de la SEC. No respondió al 88% de las 150 preguntas que se le hicieron y solo dio una respuesta correcta 14 veces.

Pudo mejorar significativamente cuando se le dio acceso a las presentaciones subyacentes. En el modo “Oracle”, donde se señalaba el texto exacto de la respuesta, GPT-4-Turbo respondió la pregunta correctamente el 85% de las veces, pero aun así produjo una respuesta incorrecta el 15% de las veces.

Pero esa es una prueba poco realista porque requiere intervención humana para encontrar el lugar exacto y pertinente en el archivo, la tarea exacta que muchos esperan que los modelos de lenguaje puedan abordar.

Llama 2, un modelo de inteligencia artificial de código abierto desarrollado por Meta, tuvo algunas de las peores “alucinaciones”, produciendo respuestas incorrectas hasta el 70% de las veces y respuestas correctas solo el 19% de las veces, cuando se le daba acceso a una matriz. de los documentos subyacentes.

Claude 2 de Anthropic tuvo un buen desempeño cuando se le dio un “contexto extenso”, donde se incluyó casi toda la presentación relevante de la SEC junto con la pregunta. Pudo responder el 75% de las preguntas que le formularon, dio una respuesta incorrecta al 21% y no respondió solo al 3%. A GPT-4-Turbo también le fue bien con el contexto largo, respondiendo correctamente el 79% de las preguntas y dando la respuesta incorrecta en el 17% de ellas.

Después de realizar las pruebas, los cofundadores se sorprendieron de lo mal que funcionaron los modelos, incluso cuando se les indicó dónde estaban las respuestas.

“Una cosa sorprendente fue la frecuencia con la que los modelos se negaron a responder”, dijo Qian. “La tasa de rechazo es realmente alta, incluso cuando la respuesta está dentro del contexto y un humano podría responderla”.

Sin embargo, incluso cuando los modelos funcionaron bien, simplemente no fueron lo suficientemente buenos, descubrió Patronus AI.

“Simplemente no hay un margen de error que sea aceptable porque, especialmente en industrias reguladas, incluso si el modelo obtiene la respuesta incorrecta 1 de cada 20 veces, todavía no es una precisión suficientemente alta”, dijo Qian.

Pero los cofundadores de Patronus AI creen que existe un enorme potencial para que los modelos de lenguaje como GPT ayuden a las personas en la industria financiera (ya sean analistas o inversores) si la IA continúa mejorando.

“Definitivamente pensamos que los resultados pueden ser bastante prometedores”, dijo Kannappan. “Los modelos seguirán mejorando con el tiempo. Tenemos muchas esperanzas de que, a largo plazo, mucho de esto pueda automatizarse. Pero hoy en día, definitivamente necesitarás tener al menos un ser humano al tanto para ayudar a respaldar y guiar cualquier flujo de trabajo que tengas”.

Un representante de OpenAI señaló las pautas de uso de la compañía, que prohíben ofrecer asesoramiento financiero personalizado utilizando un modelo OpenAI sin que una persona calificada revise la información, y requieren que cualquier persona que utilice un modelo OpenAI en la industria financiera proporcione un descargo de responsabilidad informándoles que se está utilizando IA. y sus limitaciones. Las políticas de uso de OpenAI también dicen que los modelos de OpenAI no están ajustados para brindar asesoramiento financiero.

Meta no respondió de inmediato a una solicitud de comentarios y Anthropic no hizo comentarios de inmediato.

No te pierdas estas historias de CNBC PRO:


Publicada originalmente: https://www.xbrl.org/news/structured-data-could-unlock-ais-potential-in-finance/

Deja una respuesta