En el artículo más reciente de una serie de investigaciones sobre XBRL e IA, UBPartner (proveedor y miembro de software XBRL desde hace mucho tiempo) ha explorado el potencial del procesamiento del lenguaje natural (PLN) para automatizar la identificación y el etiquetado de información clave en los informes anuales.
La investigación realizada por el propio Revathy Ramanan de XII mostró que los LLM, cuando se alimentaban con archivos xBRL-JSON estructurados de los informes 10K iXBRL de la SEC, obtenían buenos resultados al responder consultas financieras. Esto sugiere la importancia de utilizar etiquetas semánticas proporcionadas por las empresas para mejorar el análisis de datos. Sin embargo, el proceso inverso (usar IA para etiquetar informes financieros con XBRL) presenta un conjunto diferente de desafíos.
Kapil Verma y Martin DeVille, de UBPartner, han estado probando el potencial de utilizar la IA de procesamiento del lenguaje natural para simplificar el proceso de etiquetado XBRL. Se propusieron ver si el procesamiento del lenguaje natural puede identificar elementos relevantes (números y textos) en los documentos que necesitan ser etiquetados, y si el procesamiento del lenguaje natural puede seleccionar las etiquetas XBRL correctas para el elemento.
Los resultados iniciales muestran una calidad inconsistente, generalmente alrededor del 70-80%, pero con algunos valores atípicos. El enfoque de NLP etiquetó correctamente los elementos estándar de los estados financieros, sin embargo, tuvo dificultades con el análisis HTML de estructuras de tablas complejas y el modelo necesita mucho más desarrollo antes de que sea útil. El uso de LLM como GPT-4 podría mejorar el proceso, aprovechando la comprensión profunda del lenguaje para digerir mejor los elementos textuales.
Sin embargo, fundamentalmente, Verma y DeVille señalan un movimiento hacia los informes «digitales primero» -que comienzan con la publicación en HTML, manteniendo la estructura subyacente del informe más legible- como el mayor cambio que permitirá el análisis de IA en los próximos años.
La capacidad de “copilotar” el etiquetado XBRL con IA podría mejorar los informes financieros digitales, reduciendo el esfuerzo manual y mejorando la coherencia, al tiempo que deja las decisiones donde corresponde: en manos de la dirección.
Etiqueta: GPT-4
Los datos estructurados podrían desbloquear el potencial de la IA en las finanzas
Un elemento en particular durante las vacaciones nos llamó la atención. La investigación de Patronus AI destacó los aparentes desafíos que enfrentan los grandes modelos de lenguaje (LLM), como el GPT-4 de OpenAI, al analizar los datos financieros contenidos en las presentaciones de la Comisión de Bolsa y Valores de EE. UU. (SEC).
El estudio, centrado en consultas financieras, encontró que incluso con acceso a archivos extensos, el modelo de mejor rendimiento, GPT-4-Turbo, logró solo una tasa de precisión del 79%. Pero espera… ¡esta es una de las informaciones mejor estructuradas del planeta! ¡Todo ha sido etiquetado con Inline XBRL! ¿Qué salió mal en su investigación? Oh. Lo adivinaste. Los investigadores pasaron por alto la información estructurada y utilizaron {Ed: ¡Whimpers!} versiones en PDF de estos archivos de estados financieros contenidos en sitios web corporativos.
Así que ayer hicimos nuestro pequeño experimento para comprender si el rendimiento de la IA mejoraría cuando se alimentaran con datos estructurados en Inline XBRL mantenidos en la SEC en lugar de archivos PDF. Cuando el equipo de XII profundizó en los datos, descubrimos que los sistemas de inteligencia artificial como el GPT-4 de OpenAI demuestran un rendimiento enormemente mejorado al responder consultas financieras cuando se alimentan con xBRL-JSON convertido a partir de los informes 10K Inline XBRL de la SEC. Aprovechar el análisis de datos estructurados con IA ofreció resultados de consultas en lenguaje natural mucho más precisos en todas las áreas que analizamos, incluidas:
• Estimación del porcentaje del costo de bienes vendidos (COGS)
• Determinación de los dividendos pagados a los accionistas comunes.
• Analizando la concentración de clientes
• Evaluación del crecimiento de las ganancias
• Evaluación de gastos de capital
Los investigadores sugieren (como era de esperar) que los modelos de lenguaje grandes puedan tener problemas con datos no estructurados, a menudo proporcionando respuestas incorrectas o incluso negándose a responder. Aprovechar los datos estructurados existentes, como en el caso de las presentaciones ante la SEC, es clave para un análisis más confiable mediante modelos de IA.
Las presentaciones presentadas a la SEC ya están meticulosamente estructuradas por empresas, con datos XBRL incorporados obligatoriamente por la dirección corporativa en sus divulgaciones. Como extraer información financiera relevante con IA es más eficaz cuando esa información está estructurada, sería prudente utilizar estos datos pre-estructurados.
{Ed: Respetuosamente, comenzar el análisis con versiones PDF de archivos de 10K es ridículo. Es como imprimir fotografías digitales de algunos fuegos artificiales y luego recortar letras individuales con unas tijeras sin punta y pegarlas en la página para deletrear las palabras «Feliz Año Nuevo» en el papel. ¡Es 2024! ¡Despierta y huele los datos estructurados!}
A pesar de las limitaciones actuales, los investigadores creen en el potencial a largo plazo de modelos de lenguaje como Chat-GPT para ayudar a los profesionales de la industria financiera. Sin embargo, subrayan la necesidad de una mejora continua en los modelos de IA.
Desde nuestra perspectiva, agregaríamos algo extremadamente obvio: las mejoras se acelerarán significativamente al aprovechar XBRL para mejorar la precisión y confiabilidad en el análisis financiero basado en IA. Apenas arañamos la superficie, más de una hora o dos… y estamos seguros de que nuestros lectores podrían hacerlo mejor. Comience por convertir Inline XBRL en xBRL-JSON (la mayoría de los procesadores XBRL ahora le permiten hacer esto extremadamente rápido), brinde a la IA algunas sugerencias sobre la estructura y continúe desde allí. Si tenemos tiempo, profundizaremos un poco más e informaremos la próxima semana.
¿Qué tan bien entienden los modelos de IA como GPT-4 los datos XBRL?
Hace un par de semanas comentamos desfavorablemente sobre el uso de versiones PDF de presentaciones de la SEC como entradas para modelos de lenguaje grande (LLM). Estamos mucho más interesados en cómo se pueden aprovechar estas herramientas para examinar datos estructurados.
Los ejemplos incluyen las presentaciones estructuradas con formato Inline XBRL proporcionadas a la SEC por todas las empresas que cotizan en bolsa en los Estados Unidos.
Así que pensamos que deberíamos hacer algunos experimentos por nuestra cuenta. En un nuevo blog, nuestro director de orientación, Revathy Ramanan, profundiza en lo que es posible con algunos enfoques muy simples para el análisis basado en LLM que se basa en estados financieros XBRL estructurados en lugar de archivos PDF no estructurados.
Este blog explica nuestro proceso y establece algunos hallazgos iniciales tentativos. Usamos Chat GPT 4 para este trabajo (incluso XBRL International puede permitírselo). Para ser honesto, estamos mucho más interesados en lo que se puede hacer con estas herramientas. Parece que se está abriendo un capítulo completamente nuevo, pero será necesaria una amplia gama de experimentación, utilizando LLM personalizados.
En pocas palabras, cuanto más hacemos en este espacio, más nos convencemos de que la divulgación de datos estructurados y confiables en XBRL (de los cuales la administración es responsable) produce una única fuente de verdad y una mina de oro analítica para la inteligencia artificial. Los datos están en todas partes. Los datos confiables no tienen precio. Por supuesto, el hecho de que la IA pueda consumirlo fácilmente es muy positivo, pero todavía estamos en el punto más temprano de este viaje.