Concluimos que:
• Existe un uso significativo por parte de los inversores de los datos estructurados de los informes en formato digital en el extranjero
• Nueva Zelanda es un caso atípico al no exigir la presentación de informes financieros digitales para las entidades que participan en los mercados financieros.
Acogeríamos con beneplácito la consulta del Gobierno sobre la posible introducción de información financiera digital obligatoria para las entidades que participan en los mercados financieros y, potencialmente, para otras clases de entidades declarantes. Entre los temas que pueden ser útiles para formar parte de la consulta se encuentran:
• los costes puntuales y continuos de la presentación de informes digitales y quién incurrirá en esos costes
• Los beneficios de los informes digitales y quién los obtendrá
• cómo se pueden financiar de manera sostenible los costos de la presentación de informes digitales al Gobierno
• Las implicaciones para los preparadores y auditores en relación con la información etiquetada digitalmente, como los plazos legales para la presentación de estados financieros auditados.
Etiqueta: XBRL
IA y XBRL – Etiquetado automático acaso
En el artículo más reciente de una serie de investigaciones sobre XBRL e IA, UBPartner (proveedor y miembro de software XBRL desde hace mucho tiempo) ha explorado el potencial del procesamiento del lenguaje natural (PLN) para automatizar la identificación y el etiquetado de información clave en los informes anuales.
La investigación realizada por el propio Revathy Ramanan de XII mostró que los LLM, cuando se alimentaban con archivos xBRL-JSON estructurados de los informes 10K iXBRL de la SEC, obtenían buenos resultados al responder consultas financieras. Esto sugiere la importancia de utilizar etiquetas semánticas proporcionadas por las empresas para mejorar el análisis de datos. Sin embargo, el proceso inverso (usar IA para etiquetar informes financieros con XBRL) presenta un conjunto diferente de desafíos.
Kapil Verma y Martin DeVille, de UBPartner, han estado probando el potencial de utilizar la IA de procesamiento del lenguaje natural para simplificar el proceso de etiquetado XBRL. Se propusieron ver si el procesamiento del lenguaje natural puede identificar elementos relevantes (números y textos) en los documentos que necesitan ser etiquetados, y si el procesamiento del lenguaje natural puede seleccionar las etiquetas XBRL correctas para el elemento.
Los resultados iniciales muestran una calidad inconsistente, generalmente alrededor del 70-80%, pero con algunos valores atípicos. El enfoque de NLP etiquetó correctamente los elementos estándar de los estados financieros, sin embargo, tuvo dificultades con el análisis HTML de estructuras de tablas complejas y el modelo necesita mucho más desarrollo antes de que sea útil. El uso de LLM como GPT-4 podría mejorar el proceso, aprovechando la comprensión profunda del lenguaje para digerir mejor los elementos textuales.
Sin embargo, fundamentalmente, Verma y DeVille señalan un movimiento hacia los informes «digitales primero» -que comienzan con la publicación en HTML, manteniendo la estructura subyacente del informe más legible- como el mayor cambio que permitirá el análisis de IA en los próximos años.
La capacidad de “copilotar” el etiquetado XBRL con IA podría mejorar los informes financieros digitales, reduciendo el esfuerzo manual y mejorando la coherencia, al tiempo que deja las decisiones donde corresponde: en manos de la dirección.
El informe de la SEC arroja más luz sobre los beneficios de las divulgaciones legibles por máquina
De conformidad con la Ley de Transparencia de Datos Financieros (FDTA) de 2022, la Comisión de Bolsa y Valores de EE. UU. (SEC) ha publicado su segundo informe semestral que proporciona información sobre el uso y el valor de los datos legibles por máquina. El informe cubre un espectro de beneficios, incluida una lista actualizada de qué divulgaciones corporativas son legibles por máquina. Describe los datos más recientes sobre costos y beneficios asociados, resume las acciones de cumplimiento y proporciona un análisis del uso que hace la SEC de estos datos.
Desde su último informe, la SEC ha introducido requisitos de etiquetado de datos estructurados para varios formularios, ampliando el alcance de los datos legibles por máquina a un total de 54 formularios, anexos y declaraciones.
En un área de particular interés, el informe profundiza en los costos y beneficios más recientes asociados con las divulgaciones legibles por máquina. Los estudios indican que los inversores, los mercados y los emisores obtienen importantes beneficios de la reducción de los costos de procesamiento de la información, el aumento de la liquidez, los menores costos de capital y la mejora de la evaluación comparativa. El informe destaca la importancia de las reglas de validación para agilizar el proceso y reducir el tiempo que el personal dedica a comprobar errores técnicos. Si bien los emisores incurren en costos de cumplimiento asociados con los requisitos de etiquetado, la SEC enfatiza el impacto positivo general en la protección de los inversores, la reducción de la asimetría de la información y la supervisión simplificada.
Al explorar la propia aplicación de datos legibles por máquina por parte de la SEC, el informe destaca un aumento en la eficiencia de las acciones de cumplimiento. La SEC utiliza varias aplicaciones internas para analizar datos Inline XBRL, lo que permite un fácil acceso y comparación.
Los datos estructurados podrían desbloquear el potencial de la IA en las finanzas
Un elemento en particular durante las vacaciones nos llamó la atención. La investigación de Patronus AI destacó los aparentes desafíos que enfrentan los grandes modelos de lenguaje (LLM), como el GPT-4 de OpenAI, al analizar los datos financieros contenidos en las presentaciones de la Comisión de Bolsa y Valores de EE. UU. (SEC).
El estudio, centrado en consultas financieras, encontró que incluso con acceso a archivos extensos, el modelo de mejor rendimiento, GPT-4-Turbo, logró solo una tasa de precisión del 79%. Pero espera… ¡esta es una de las informaciones mejor estructuradas del planeta! ¡Todo ha sido etiquetado con Inline XBRL! ¿Qué salió mal en su investigación? Oh. Lo adivinaste. Los investigadores pasaron por alto la información estructurada y utilizaron {Ed: ¡Whimpers!} versiones en PDF de estos archivos de estados financieros contenidos en sitios web corporativos.
Así que ayer hicimos nuestro pequeño experimento para comprender si el rendimiento de la IA mejoraría cuando se alimentaran con datos estructurados en Inline XBRL mantenidos en la SEC en lugar de archivos PDF. Cuando el equipo de XII profundizó en los datos, descubrimos que los sistemas de inteligencia artificial como el GPT-4 de OpenAI demuestran un rendimiento enormemente mejorado al responder consultas financieras cuando se alimentan con xBRL-JSON convertido a partir de los informes 10K Inline XBRL de la SEC. Aprovechar el análisis de datos estructurados con IA ofreció resultados de consultas en lenguaje natural mucho más precisos en todas las áreas que analizamos, incluidas:
• Estimación del porcentaje del costo de bienes vendidos (COGS)
• Determinación de los dividendos pagados a los accionistas comunes.
• Analizando la concentración de clientes
• Evaluación del crecimiento de las ganancias
• Evaluación de gastos de capital
Los investigadores sugieren (como era de esperar) que los modelos de lenguaje grandes puedan tener problemas con datos no estructurados, a menudo proporcionando respuestas incorrectas o incluso negándose a responder. Aprovechar los datos estructurados existentes, como en el caso de las presentaciones ante la SEC, es clave para un análisis más confiable mediante modelos de IA.
Las presentaciones presentadas a la SEC ya están meticulosamente estructuradas por empresas, con datos XBRL incorporados obligatoriamente por la dirección corporativa en sus divulgaciones. Como extraer información financiera relevante con IA es más eficaz cuando esa información está estructurada, sería prudente utilizar estos datos pre-estructurados.
{Ed: Respetuosamente, comenzar el análisis con versiones PDF de archivos de 10K es ridículo. Es como imprimir fotografías digitales de algunos fuegos artificiales y luego recortar letras individuales con unas tijeras sin punta y pegarlas en la página para deletrear las palabras «Feliz Año Nuevo» en el papel. ¡Es 2024! ¡Despierta y huele los datos estructurados!}
A pesar de las limitaciones actuales, los investigadores creen en el potencial a largo plazo de modelos de lenguaje como Chat-GPT para ayudar a los profesionales de la industria financiera. Sin embargo, subrayan la necesidad de una mejora continua en los modelos de IA.
Desde nuestra perspectiva, agregaríamos algo extremadamente obvio: las mejoras se acelerarán significativamente al aprovechar XBRL para mejorar la precisión y confiabilidad en el análisis financiero basado en IA. Apenas arañamos la superficie, más de una hora o dos… y estamos seguros de que nuestros lectores podrían hacerlo mejor. Comience por convertir Inline XBRL en xBRL-JSON (la mayoría de los procesadores XBRL ahora le permiten hacer esto extremadamente rápido), brinde a la IA algunas sugerencias sobre la estructura y continúe desde allí. Si tenemos tiempo, profundizaremos un poco más e informaremos la próxima semana.
La SEC actualiza el conjunto de pruebas de datos interactivos
La Comisión de Bolsa y Valores de EE. UU. (SEC) ha lanzado una actualización de su Interactive Data Test Suite, accesible aquí.
El objetivo principal de Interactive Data Test Suite es ayudar a los desarrolladores de software a validar los datos interactivos antes de enviarlos a EDGAR. Esta suite comprende numerosas instancias pequeñas de datos interactivos, esquemas y bases de enlaces.
En la última versión (23.4), el sistema EDGAR ahora admitirá la nueva taxonomía FND con las versiones 2022 y 2023. Además, nuevos tipos de envío, a saber, S-6, S-6/A, N-8B-2, N-8B. -2/A y 487 se han añadido a la lista de documentos Inline XBRL aceptados.
Se anima a los desarrolladores y declarantes a explorar estas actualizaciones y utilizar Interactive Data Test Suite para identificar y corregir oportunamente posibles errores antes del envío real a EDGAR.
¿Necesita crear una taxonomía XBRL? ¡Empieza aquí!
Hay una gran cantidad de orientación increíblemente útil disponible sobre el desarrollo de taxonomías XBRL, pero esa misma riqueza de información también puede resultar un poco abrumadora al comenzar. Estamos encantados de anunciar que la Junta de Mejores Prácticas (BPB) de XBRL International ha publicado un borrador de revisión de su nueva Taxonomía XBRL – Guía de inicio rápido.
La nueva guía ayudará a los nuevos creadores de taxonomías a lo largo del proceso y la serie típica de decisiones que deben tomar.
Esta guía está dirigida a recopiladores de datos (incluidos propietarios, arquitectos y autores de taxonomías) que han tomado la decisión de recopilar informes en XBRL y buscan orientación sobre cómo desarrollar una taxonomía. Las taxonomías XBRL son la base de los informes digitales y proporcionan un diccionario estandarizado de definiciones digitales para los hechos que se recopilan, sus atributos y sus interrelaciones.
Para cada una de las preguntas clave involucradas en el proceso de desarrollo de la taxonomía, la guía proporciona una lista de aspectos a considerar, vinculando cuando sea posible con orientación más detallada en cada paso. Esperamos que la guía sea un recurso muy útil para organizaciones como reguladores, bancos centrales y otras que se embarcan por primera vez en el viaje de la presentación de informes digitales.
La guía se basa en la experiencia práctica de los miembros de BPB en el desarrollo de taxonomía, junto con los comentarios que han recibido de otros usuarios.
¿Qué tan bien entienden los modelos de IA como GPT-4 los datos XBRL?
Hace un par de semanas comentamos desfavorablemente sobre el uso de versiones PDF de presentaciones de la SEC como entradas para modelos de lenguaje grande (LLM). Estamos mucho más interesados en cómo se pueden aprovechar estas herramientas para examinar datos estructurados.
Los ejemplos incluyen las presentaciones estructuradas con formato Inline XBRL proporcionadas a la SEC por todas las empresas que cotizan en bolsa en los Estados Unidos.
Así que pensamos que deberíamos hacer algunos experimentos por nuestra cuenta. En un nuevo blog, nuestro director de orientación, Revathy Ramanan, profundiza en lo que es posible con algunos enfoques muy simples para el análisis basado en LLM que se basa en estados financieros XBRL estructurados en lugar de archivos PDF no estructurados.
Este blog explica nuestro proceso y establece algunos hallazgos iniciales tentativos. Usamos Chat GPT 4 para este trabajo (incluso XBRL International puede permitírselo). Para ser honesto, estamos mucho más interesados en lo que se puede hacer con estas herramientas. Parece que se está abriendo un capítulo completamente nuevo, pero será necesaria una amplia gama de experimentación, utilizando LLM personalizados.
En pocas palabras, cuanto más hacemos en este espacio, más nos convencemos de que la divulgación de datos estructurados y confiables en XBRL (de los cuales la administración es responsable) produce una única fuente de verdad y una mina de oro analítica para la inteligencia artificial. Los datos están en todas partes. Los datos confiables no tienen precio. Por supuesto, el hecho de que la IA pueda consumirlo fácilmente es muy positivo, pero todavía estamos en el punto más temprano de este viaje.
Orientación FRC. Acelerar el uso de los inversores
El Consejo de Información Financiera (FRC) del Reino Unido ha publicado nuevas sugerencias para las empresas responsables de informar en XBRL en línea al Mecanismo Nacional de Almacenamiento del Reino Unido. Creemos que debería ser una lectura obligatoria para todas las empresas que informan en Inline XBRL, dondequiera que estén.
El objetivo es ayudar a optimizar los informes para satisfacer las necesidades de los inversores y otros usuarios. Curiosamente, una investigación independiente realizada en nombre del FRC indica un creciente uso directo de datos estructurados Inline XBRL por parte de un número significativo de inversores, y el 36% declara ahora su uso directo de datos Inline XBRL. Esta es una indicación más de cuán útiles son los datos XBRL para una amplia gama de usuarios y un recordatorio de la importancia de garantizar que la administración tenga una supervisión y controles adecuados sobre sus divulgaciones digitales.
El material del FRC incluye sugerencias relacionadas con la importancia de los conceptos básicos, incluidos los factores de escala, el uso del letrero correcto y evitar etiquetas de extensión inapropiadas.
El FRC observa una mayor adopción voluntaria de enfoques de etiquetado «XHTML nativo», que mejoran la utilidad del consumo y análisis narrativo.
Las sugerencias recuerdan a los emisores del Reino Unido que la administración es responsable de sus divulgaciones digitales y que “por lo tanto, esperaríamos que los emisores dediquen el mismo nivel de cuidado y atención a sus AFR XHTML que a sus AFR en PDF. o en forma impresa”.
Publicación de recomendación propuesta de paquetes de informes
La Junta de estándares de XBRL aprobó una nueva recomendación propuesta sobre los paquetes de informes de XBRL para su revisión final.
Report Packages es una nueva especificación que define una estructura de contenedor estándar para informes XBRL. Permite que las herramientas compatibles identifiquen, procesen y presenten automáticamente los informes adjuntos, lo que agiliza el intercambio y la presentación de informes XBRL.
Los informes XBRL a menudo constan de varios archivos, incluidos varios formatos como Inline XBRL, xBRL-XML, xBRL-JSON y xBRL-CSV, así como archivos de soporte como imágenes y hojas de estilo. Con las dependencias de las taxonomías XBRL y las posibles taxonomías de extensión, trabajar con informes XBRL puede ser un desafío debido a la necesidad de administrar varios archivos y conservar sus rutas relativas.
La nueva especificación de paquetes de informes proporciona una solución al empaquetar todos los archivos necesarios en un contenedor, lo que facilita el intercambio de informes XBRL de manera confiable entre diferentes herramientas. Esta estandarización mejora la eficiencia y la compatibilidad de los informes XBRL, lo que garantiza operaciones perfectas en diversos entornos. Cabe destacar que la nueva especificación propone el uso de extensiones de archivo dedicadas. Los informes XBRL en línea estarán contenidos en archivos «.xbri», mientras que los informes XBRL no en línea estarán en archivos «.xbr».
Si bien esta versión de la especificación se enfoca en la resolución de la taxonomía de extensión, las versiones futuras abordarán la mejora de la resolución del archivo de taxonomía base. También se alinea con la especificación de paquetes de taxonomía 1.0, lo que hace que los paquetes de informes sean paquetes de taxonomía potencialmente válidos.
El valor de los datos estructurados y legibles por máquina en el entrenamiento de la IA generativa
A medida que los datos y análisis textuales se vuelven cada vez más importantes para la investigación contable (Bochkay et al. 2023), las innovaciones recientes en modelos de lenguaje grandes y el aprendizaje supervisado pueden proporcionar una identificación más sólida y validez interna para diversas tareas de clasificación de textos. Estos métodos de aprendizaje automático se han utilizado hasta ahora para reconocer el sentimiento en grandes volúmenes de divulgaciones financieras no etiquetadas (Frankel et al. 2022; Huang et al. 2023; Siano y Wysocki 2021). En este estudio, ajustamos FinBERT para reconocer temas contables dentro de las divulgaciones.
Una gran cantidad de literatura encuentra que los temas específicos de contabilidad están significativamente asociados con determinantes y / o resultados en las mismas áreas temáticas. Estos estudios utilizan datos clasificados por agregadores de datos, datos clasificados manualmente o un método de aprendizaje automático no supervisado (LDA) para clasificar los temas. Demostramos que nuestro modelo puede clasificar de manera más eficiente, completa y precisa los temas contables en grandes volúmenes de divulgaciones y, lo que es más importante, supera a la LDA comúnmente utilizada. Después de demostrar este desempeño, proporcionamos tres ejemplos de divulgaciones que se pueden clasificar en temas contables con nuestro modelo. Específicamente, encontramos que las notas etiquetadas a medida para los estados financieros, la sección MD&A del 10-K y la sección de factores de riesgo del 10-K contienen información significativa específica del tema que es predictiva de resultados contables específicos. Cada configuración es muy importante, ya que el 62 por ciento de las observaciones del año de la empresa utilizan al menos una etiqueta XBRL personalizada, y todas las empresas divulgan la sección MD&A y factor de riesgo.
Al igual que otros estudios que proponen un nuevo modelo, nuestro estudio está sujeto a varias limitaciones. Para ajustar un modelo de lenguaje grande para realizar una nueva tarea posterior, los investigadores necesitan algunos conocimientos de programación, así como recursos informáticos significativos. Sin embargo, una vez que el modelo se ajusta como el modelo de Huang et al. (2023) es para el sentimiento y nuestro modelo es para temas de contabilidad, estos recursos son menos limitantes. Además, inherente a un enfoque de aprendizaje automático supervisado es el uso de datos etiquetados para reconocer las mismas etiquetas en nuevos datos textuales. Por lo tanto, nuestro enfoque no identificará temas nuevos u ocultos a menos que esté capacitado para hacerlo. A pesar de estas limitaciones, creemos que nuestro modelo puede ayudar a los investigadores y profesionales interesados en identificar información relevante y consistente sobre temas contables a partir de grandes volúmenes de datos textuales.