
Publicado el 23 de junio de 2024 por Editor
En el artículo más reciente de una serie de investigaciones sobre XBRL e IA, UBPartner (proveedor y miembro de software XBRL desde hace mucho tiempo) ha explorado el potencial del procesamiento del lenguaje natural (PLN) para automatizar la identificación y el etiquetado de información clave en los informes anuales.
La investigación realizada por el propio Revathy Ramanan de XII mostró que los LLM, cuando se alimentaban con archivos xBRL-JSON estructurados de los informes 10K iXBRL de la SEC, obtenían buenos resultados al responder consultas financieras. Esto sugiere la importancia de utilizar etiquetas semánticas proporcionadas por las empresas para mejorar el análisis de datos. Sin embargo, el proceso inverso (usar IA para etiquetar informes financieros con XBRL) presenta un conjunto diferente de desafíos.
Kapil Verma y Martin DeVille, de UBPartner, han estado probando el potencial de utilizar la IA de procesamiento del lenguaje natural para simplificar el proceso de etiquetado XBRL. Se propusieron ver si el procesamiento del lenguaje natural puede identificar elementos relevantes (números y textos) en los documentos que necesitan ser etiquetados, y si el procesamiento del lenguaje natural puede seleccionar las etiquetas XBRL correctas para el elemento.
Los resultados iniciales muestran una calidad inconsistente, generalmente alrededor del 70-80%, pero con algunos valores atípicos. El enfoque de NLP etiquetó correctamente los elementos estándar de los estados financieros, sin embargo, tuvo dificultades con el análisis HTML de estructuras de tablas complejas y el modelo necesita mucho más desarrollo antes de que sea útil. El uso de LLM como GPT-4 podría mejorar el proceso, aprovechando la comprensión profunda del lenguaje para digerir mejor los elementos textuales.
Sin embargo, fundamentalmente, Verma y DeVille señalan un movimiento hacia los informes «digitales primero» -que comienzan con la publicación en HTML, manteniendo la estructura subyacente del informe más legible- como el mayor cambio que permitirá el análisis de IA en los próximos años.
La capacidad de “copilotar” el etiquetado XBRL con IA podría mejorar los informes financieros digitales, reduciendo el esfuerzo manual y mejorando la coherencia, al tiempo que deja las decisiones donde corresponde: en manos de la dirección.
Para una mirada en profundidad a la investigación, lea el blog de Verma y DeVille aquí.
Informes financieros digitales e inteligencia artificial
¿Es factible el etiquetado XBRL automático utilizando sistemas de IA y LLM?

La investigación de Patronus AI ha puesto de relieve los aparentes desafíos que enfrentan los grandes modelos de lenguaje (LLM), como el GPT-4 de OpenAI, al analizar los datos financieros contenidos en las presentaciones de la Comisión de Bolsa y Valores de EE. UU. (SEC). El estudio encontró que incluso con acceso a archivos extensos, el modelo de mejor rendimiento en ese momento, GPT-4-Turbo, logró solo una tasa de precisión del 79%. XBRL International (XII) se sorprendió al descubrir (…y también los autores de este artículo) que no habían utilizado las etiquetas de datos XBRL disponibles para estos informes en el análisis.
Investigaciones adicionales realizadas por XBRL International (XII) mostraron que “los sistemas de inteligencia artificial como GPT-4 de OpenAI demuestran un rendimiento mejorado al responder consultas financieras cuando se alimentan con archivos xBRL-JSON estructurados convertidos a partir de informes XBRL en línea 10K de la SEC”. Al igual que XII, encontramos que este es un resultado obvio, es decir, que el uso de etiquetas semánticas proporcionadas por las empresas de sus propios datos financieros produciría mejores resultados y que los datos estructurados pueden proporcionar beneficios significativos al análisis de la divulgación financiera.
Sin embargo, ¿qué pasaría si invirtiera el proceso y pidiera a AI y LLM que etiqueten un informe financiero con XBRL?
UBPartner ha estado realizando una investigación fundamental sobre el uso del procesamiento del lenguaje natural para identificar información clave en un informe anual. A continuación, se presenta un resumen de los resultados iniciales de UBPartner, además de un vistazo a lo que los últimos avances en LLM podrían ofrecer para mejorar el rendimiento y una visión inicial de hacia dónde se dirige esto. Este es parte de una serie de artículos que analizan cuestiones clave en torno a los informes digitales utilizando XBRL.
Capacidad de IA que avanza rápidamente
En los últimos años, el interés en la inteligencia artificial (IA) se ha desarrollado rápidamente; en particular, el área de modelos de lenguaje grandes (LLM) y herramientas generales de generación de lenguaje ha avanzado exponencialmente con el lanzamiento de Chat GPT-4 de Open AI, marzo de 2023. Los LLM se han convertido rápidamente en el centro de atención debido a su capacidad de producir respuestas de texto y código similares a las humanas a indicaciones en lenguaje natural en segundos. Han aparecido aplicaciones en varios dominios, tales como: agentes de búsqueda conversacionales, Chatbots, resúmenes de texto, generación de contenido, traducción de idiomas, análisis de datos y algunos incluso los utilizan para generar código informático.
Dado este nivel de comprensión del «lenguaje», los LLM también deberían poder recibir capacitación para ayudar a comprender las declaraciones financieras y, potencialmente, ir más allá del simple análisis y resumen. La capacidad de identificar piezas clave de información en grandes fragmentos de texto sugiere que los LLM podrían ayudar. para identificar métricas, párrafos y secciones específicas en un informe financiero, como los proporcionados a la SEC de EE. UU. o a la ESMA en el marco del ESEF. Esto luego podría usarse para etiquetar la información clave con XBRL.
Hoy en día, los informes financieros deben ser etiquetados manualmente por humanos que necesitan comprender tanto los informes financieros como XBRL. Por lo tanto, el uso de IA ahorraría mucho esfuerzo y potencialmente etiquetaría los datos de una manera más consistente, especialmente si se considera que el próximo conjunto importante de informes XBRL serán los informes de sostenibilidad.
La naturaleza de los informes financieros
La declaración financiera anual es un documento que describe no solo la situación financiera de una empresa, sino también su estrategia actual y futura, y mucho más. Las empresas están obligadas por ley a presentar dichos documentos en la mayoría de los países. Entonces, ¿qué son los informes financieros digitales?
“Los informes financieros digitales son informes financieros que utilizan un formato estructurado y legible por máquina, en lugar de los enfoques tradicionales de informes financieros que eran versiones en papel o electrónicas de informes en papel, como HTML, PDF o un documento de un procesador de textos que solo pueden leer los seres humanos. Un informe financiero digital puede ser leído tanto por humanos como por procesos basados en máquinas”, según Informes financieros digitales, Wikilibros.
Los informes financieros digitales requieren la identificación de elementos clave de información, tanto numérica como textual, y su posterior etiquetado con conceptos contables estandarizados, generalmente NIIF o PCGA locales. A continuación, se presentan algunas características comunes de estos informes y marcos:
- Los datos numéricos suelen organizarse en tablas (estados básicos, como el de pérdidas y ganancias o el balance general, o datos detallados en una nota de divulgación) que tienen su propia estructura de filas y columnas. La mayoría de los seres humanos reconocen instintivamente la estructura de las tablas, aunque no todos los detalles. El texto suele organizarse en bloques, es decir, notas de divulgación relacionadas con números específicos, conjuntos de números o tablas.
- Si bien el diccionario de las NIIF o los PCGA locales está estandarizado, cada empresa selecciona los elementos que informa en su declaración financiera anual. El conjunto de hechos que informa un banco es muy diferente al de una empresa industrial.
- Cada empresa, incluso dentro de una industria, tiene su propio contexto y términos específicos y puede tener información específica de la empresa que puede necesitar ser divulgada.
- Los organismos de normalización contable o las agencias de mercado disponen de una lista de etiquetas estandarizadas para los conceptos que se encuentran normalmente en un informe financiero, que se actualiza continuamente. En los últimos 10 a 15 años, estas etiquetas se han puesto a disposición como parte de una taxonomía XBRL que proporciona un diccionario común con metainformación sobre el tipo de elemento, unidades, etc. También incluye las relaciones entre elementos, a menudo a través de una estructura jerárquica, es decir, podemos ver que «ganancia o pérdida» es igual a «ingresos» menos «costes»; y que «ingresos» es la suma de una lista de partidas de ingresos, y así sucesivamente.
Etiquetado XBRL
XBRL es un estándar para transmitir datos comerciales entre sistemas informáticos en un formato estándar. Esto ha demostrado ser extremadamente atractivo para los marcos de informes regulados. En la actualidad, existen unos 216 marcos de informes regulatorios que utilizan XBRL en todo el mundo.
Inicialmente, XBRL se basaba únicamente en el formato XML. Este formato es ideal para informes complejos centrados en datos, donde normalmente los datos se pueden representar en tablas definidas. Pero XML no es muy legible para humanos, y una declaración financiera anual tendría que ir acompañada de un documento HTML, PDF o Word asociado para que lo revisaran los humanos, lo que generaba duplicación de datos e inconsistencias. El formato Inline XBRL (iXBRL) fusiona los datos XBRL legibles por máquina con un documento HTML, por lo que es legible para humanos y, al mismo tiempo, permite que los sistemas extraigan y analicen la información que se ha etiquetado.
Mediante un visualizador XBRL en línea especial, el lector puede ver las etiquetas financieras que ha utilizado la empresa y, por lo tanto, puede comprender el «modelo» detrás de los estados financieros. Estas herramientas pueden revelar qué elementos del informe han sido etiquetados, los cálculos entre los elementos del estado y otras referencias a las directrices IFRS o GAAP relevantes para el elemento. El elemento crítico tanto para el emisor como para el receptor es que el software XBRL puede utilizar estas definiciones para validar automáticamente el archivo, es decir, ¿la información proporcionada es del tipo de datos correcto? ¿Los cálculos cuadran? ¿Los datos duplicados son consistentes? etc. Los arquitectos de taxonomía también tienen un rico lenguaje de reglas, XBRL Formula, con el que definir otros tipos de reglas más complejas que se deben verificar, como, por ejemplo, si contiene los datos obligatorios.
A pesar de la disponibilidad de herramientas de etiquetado comerciales, la incorporación de fragmentos XBRL en un informe HTML requiere un conocimiento profundo de XBRL, la jerarquía taxonómica específica y los principios y prácticas contables subyacentes. Por lo tanto, la mayoría de las herramientas actuales dependen de que un humano elija y aplique la etiqueta pertinente a cada elemento de datos y texto.
Algunos proveedores afirman utilizar el etiquetado con inteligencia artificial en sus productos. Si los analizamos más de cerca, la mayoría son software de mapeo de texto difuso que pueden identificar fácilmente palabras que son «similares» a los conceptos de la taxonomía. Pueden presentarse bien, pero en el uso real del etiquetado producen muchas coincidencias «falsas positivas». Estos «falsos positivos» requieren tiempo para identificarse y corregirse, por lo que el beneficio real es muy cuestionable.
Existen otros enfoques para ayudar a las personas a etiquetar o revisar informes, como la ‘categorización experta’ de elementos de taxonomía que puede ayudar a que el proceso de mapeo sea más eficiente al mostrarle a la persona que etiqueta las cuentas que son las etiquetas más obvias para el contexto específico. Este «sistema experto» se utiliza en las herramientas de mapeo XBRL de UBPartner, pero no ofrece automatización.
La auditoría del uso de etiquetas XBRL es fundamental para los inversores que utilizan informes financieros digitales y analizan los datos. Es evidente que los auditores se benefician enormemente de la estandarización y validación que XBRL aporta a los informes financieros anuales. Un visualizador iXBRL resulta útil para revisar documentos individuales, pero las herramientas de evaluación comparativa más potentes requieren una base de datos XBRL. Sin embargo, incluso muchos de estos sistemas no pueden exponer por completo problemas simples en los que se ha utilizado la etiqueta incorrecta para un elemento en el contexto específico. Las revisiones manuales de la lista de elementos etiquetados requieren mucho tiempo y son costosas.
Sin embargo, ¿qué pasaría si la IA y, en particular, el aprendizaje automático (ML) y los LLM que tienen una buena comprensión del lenguaje, pudieran usarse para etiquetar el informe principal con un grado de «confiabilidad», de modo que los humanos solo tuvieran que mirar algunos aspectos restantes? ¿Áreas ambiguas?
UBPartner ha estado explorando el procesamiento del lenguaje natural (PLN) para ver cómo podría ayudar a automatizar el proceso de elaboración de declaraciones anuales digitales, reduciendo así los errores y mejorando la legibilidad para los inversores. Es muy pronto y hay algunos problemas difíciles de superar, pero la tecnología está mejorando rápidamente.
Etiquetado de evidencia inicial con IA
UBPartner emprendió una investigación sobre el etiquetado XBRL de IA a principios de 2023, antes del lanzamiento de ChatGPT4. El proyecto utilizó un enfoque de procesamiento del lenguaje natural (PLN) más tradicional: un enfoque de canalización centrado en tareas específicas, que ofrece opciones de personalización y control de grano fino. Los LLM como GPT-4 se basan en arquitecturas de transformadores. Estos modelos se entrenan de principio a fin con grandes cantidades de datos de texto y aprenden a generar texto en función de los patrones y estructuras presentes en los datos de entrenamiento y son mejores en modelos de propósito general capaces de realizar una amplia gama de tareas de PNL.
Enfoque de canalización de PNL
En un nivel alto, cualquier proceso de procesamiento del lenguaje natural se puede dividir en cinco pasos distintos, como se muestra en la siguiente figura.

En primer lugar, el paso de tokenización decodifica y segmenta el texto de entrada en palabras y oraciones. Luego, los tokens se introducen en el análisis léxico, donde las palabras se vinculan con su lema. Este paso vincula las diferentes variantes de una palabra con la raíz y, al mismo tiempo, captura el tipo de variaciones en un modelo léxico.
El análisis sintáctico toma el modelo léxico y determina la estructura de la oración según las reglas gramaticales formales. Asocia símbolos POS a las palabras de la oración.
El modelo sintáctico se alimenta del análisis semántico, donde se relacionan las palabras con su significado y se determinan las relaciones entre las palabras. La estructura sintáctica se analiza más a fondo para determinar el significado de la oración en el contexto del texto (análisis pragmático o del discurso).
El análisis pragmático permite una comparación significativa de dos oraciones redactadas de forma diferente, pero con un significado similar, lo que resulta útil para encontrar el concepto XBRL correcto haciendo coincidir las etiquetas de la taxonomía y el texto del informe XHTML.
Resultados iniciales
Inicialmente, el proyecto UBPartner utilizó ejemplos de presentaciones ante la SEC de EE. UU. para probar y entrenar el enfoque. Entonces, efectivamente, estaba analizando el mismo tipo de datos que el artículo de Patronus AI.
Las preguntas clave de la investigación fueron:
- ¿Puede la PNL identificar números y texto relevantes en el estado financiero que deben etiquetarse?
- ¿Puede NLP identificar las etiquetas XBRL correctas para el elemento identificado en la taxonomía XBRL?
La expectativa era que el enfoque NLP proporcionaría mejores resultados que los enfoques actuales de procesamiento de cadenas utilizados en algunas herramientas XBRL actuales. Por lo tanto, el enfoque calculó una puntuación tanto para la PNL como para la búsqueda de texto difuso para comparar los resultados. También se miden factores para identificar si la PNL podría proporcionar las características de rendimiento necesarias para que estas herramientas funcionen en un entorno de producción.
La prueba de concepto (PoC) utilizó el motor de procesamiento XBRL (XPE) de UBPartner y bibliotecas como CoreNLP, HtmlUnit y Bellsoft Liberica JDK, que son de código abierto. Para una empresa específica, la POC:
- Creé asignaciones para los conjuntos de datos reportados de presentaciones anteriores y de las etiquetas de elementos XBRL en la taxonomía.
- Luego, las asignaciones se utilizaron para encontrar el texto HTML relevante y la etiqueta que debería aplicarse al texto identificado.
- Las etiquetas de taxonomía, extraídas mediante XPE, se pasaron por un proceso CoreNLP para generar anotaciones, gráficos semánticos y definiciones canónicas de los conceptos (lemas).
- Después de preparar los datos del mapeo, el programa buscó identificar las etiquetas XBRL para las celdas de la tabla en la estructura de datos de prueba.
Para empezar, el POC se limitó a los datos tabulares. Las presentaciones financieras de una organización para períodos sucesivos generalmente informan sobre partidas similares, por lo que se espera que las presentaciones anteriores proporcionen el conocimiento necesario para identificar texto y metadatos en documentos futuros.
El informe resumido a continuación muestra el porcentaje de etiquetas correctas e incorrectas y las tablas que fueron etiquetadas incorrectamente para algunas de las muestras más interesantes.

La tabla muestra que el rendimiento de la PoC fue muy inconsistente (ver Compañía C); sin embargo, la POC encontró entre el 70 y el 80 % de las etiquetas para la mayoría de los informes en el conjunto de datos más amplio. Los estados financieros estándar (como balance general, estados de flujo de efectivo, propiedad, planta y equipo, etc.) se etiquetaron con precisión.
Una revisión más detallada mostró que el algoritmo falla principalmente en el paso de análisis HTML, donde las estructuras de las tablas son demasiado complicadas o no estándar para procesar y generar los modelos y asignaciones. Sin embargo, se descubrió que el procesamiento de PNL mejoraba constantemente la cantidad de etiquetas encontradas en comparación con la coincidencia de cadenas.
El rendimiento del programa estuvo entre 10 y 100 segundos, lo cual es aceptable para una aplicación orientada al usuario, ya que se espera que el proceso de etiquetado automático se ejecute una vez.
Este modelo podría desarrollarse más para mejorar los resultados anteriores y ampliarse para centrarse en otras secciones, pero siempre habría nuevas estructuras y términos que encontraría por primera vez que le causarían problemas. Entonces, ¿podría mejorarse el proceso de identificación de etiquetas utilizando modelos LLM?
Uso de LLM para etiquetar
Desde el punto de vista del procesamiento del lenguaje natural, los resultados iniciales de UBPartner POC no fueron mejores que la investigación de Patronus AI utilizando ChatGPT. Sin embargo, los LLM no incorporan el conocimiento contenido en el modelo semántico XBRL de US GAAP o la taxonomía IFRS, la estructura típica y características de las Divulgaciones Financieras, ni las etiquetas XBRL de los informes anteriores utilizados para entrenar el modelo UBPartner. Entonces, ¿cómo se pueden incorporar estos en el uso de LLM para etiquetar las divulgaciones financieras?
Para comprender completamente el potencial, puede resultar útil comprender cómo funcionan los LLM con más detalle y elementos como los transformadores, los vectores, el concepto de incrustaciones, el aumento de la recuperación y las ventanas de contexto. La sección siguiente describe algunos de los conceptos importantes de los LLM, pero puede omitirla si lo desea.
Arquitectura de modelos de lenguaje de gran tamaño
Los transformadores son un tipo específico de red neuronal y sustentan todos los LLM actuales. Convierten volúmenes de datos sin procesar en una representación comprimida de su estructura básica, utilizando vectores. Una idea central detrás de los transformadores es el concepto de «atención», que sopesa la relevancia de diferentes entradas contextuales, permitiendo que el modelo se centre en las partes más importantes al predecir la salida.
Las incrustaciones se realizan asignando cada elemento de los datos entrantes a un vector en un espacio altamente dimensional. Dado que los vectores cercanos son similares por construcción, las incrustaciones se pueden utilizar para encontrar elementos similares o para comprender el contexto o la intención de los datos.
Los LLM pueden ser inconsistentes y se dice que «alucinan», lo cual no es una buena característica para una herramienta de marcado de divulgación financiera. Ocurre cuando los LLM no tienen suficiente información para generar una respuesta precisa. La generación de recuperación aumentada (RAG) es un método para mejorar la calidad de las respuestas de los LLM al basar el modelo en fuentes específicas de conocimiento para complementar la representación interna de la información del LLM. RAG reduce las posibilidades de que un LLM filtre datos confidenciales o «alucine» información incorrecta o engañosa. RAG también reduce la necesidad de que los usuarios entrenen continuamente el modelo completo y actualicen sus parámetros a medida que evolucionan las circunstancias. De esta forma, RAG puede reducir los costos computacionales y financieros.
Los tokens son las unidades que utilizan los Transformers para procesar y generar datos, y la ventana de contexto es el mayo r número de tokens que un LLM puede procesar en un momento dado. Es su memoria en tiempo real y es similar a lo que la memoria de acceso aleatorio (RAM) es para los procesadores de las computadoras. El tamaño de la última ventana de contexto Gemini de Google es de 10 millones de tokens, alrededor de 7,5 millones de palabras o alrededor de 15.000 páginas, que es 50 veces más grande que cualquier otro LLM.
Las secuencias largas de texto, como las declaraciones financieras, son costosas y difíciles de modelar; específicamente, los costos de ejecutar un LLM tienen una complejidad cuadrática en relación con la longitud de la secuencia. Los transformadores sufren mucho por la degradación del rendimiento cuando trabajan con secuencias más largas de lo que fueron entrenados. Google Gemini 1.5 ha introducido una combinación de expertos (MoE): varios LLM. El principio es que, en lugar de tener un modelo experto grande, se reúne un grupo de modelos expertos más pequeños especializados en ciertas regiones de la entrada.
El análisis pragmático permite una comparación significativa de dos oraciones redactadas de forma diferente, pero con un significado similar, lo que resulta útil para encontrar el concepto XBRL correcto haciendo coincidir las etiquetas de la taxonomía y el texto del informe XHTML.
LLM y los informes financieros
En el contexto del etiquetado de declaraciones financieras con XBRL, puede crear una representación del modelo de taxonomía, estructuras estándar en declaraciones financieras (estados, notas, etc.) y la estructura de taxonomía y etiquetas semánticas. El cambio radical de LLM es que la similitud ya no se basa en una simple búsqueda de palabras clave, sino en una comprensión ontológica en la que elementos similares están muy juntos en el espacio de incrustación.
Las incrustaciones se pueden utilizar con modelos generales, GPT4, Gemini, Llama para realizar búsquedas de similitudes en un documento y obtener una buena «comprensión» (representación) del informe de una empresa. Esto permite que el sistema tome decisiones más inteligentes en todo el documento. También permite una comprensión más precisa e intuitiva de las similitudes entre idiomas, regiones e industrias.
Mirando hacia el futuro con el etiquetado con IA
La prueba de concepto inicial que utilizó el enfoque tradicional de IA para la PNL fue un comienzo, pero los resultados significaron que el modelo habría necesitado un desarrollo significativamente mayor. Este esfuerzo de desarrollo podría no tener fin ya que existen infinitas posibilidades para presentar e informar resultados financieros.
Los LLM ofrecen un modelo inicial que comprende el lenguaje general. El uso de RAG y los avances que herramientas como Gemini de Google han logrado en el campo de los «múltiples expertos» promete ofrecer mejores resultados con un menor esfuerzo de desarrollo.
Desde el punto de vista de los conjuntos de datos con los que entrenar dichos modelos, la UE tiene planes de desarrollar el Punto de Acceso Único Europeo (ESAP), similar al sistema EDGAR de EE. UU., tanto para los informes de divulgación financiera (ESEF) como para los de sostenibilidad (ESRS). Esto proporcionaría la profundidad de los informes bien definidos para proporcionar la capacitación sobre la divulgación financiera y el historial de etiquetas XBRL. Mientras tanto, XII ha proporcionado el sitio web de presentaciones XBRL y se puede utilizar para recuperar miles de informes europeos.
La calidad de los datos también está mejorando a medida que las empresas se familiarizan más con los requisitos de etiquetado ESEF y XBRL. Las taxonomías como ESEF, que se basan en la taxonomía de referencia IFRS del IASB, ya incluyen controles de calidad de datos a través de fórmulas XBRL y bases de datos de cálculo. ESEF agrega una lista extensa de reglas de presentación que la presentación también debe cumplir para ser aceptada. Además, la mayoría de los países europeos requieren que los informes sean auditados ya que las entidades que informan son empresas que cotizan en bolsa o grandes empresas privadas para ESRS. El Comité de Calidad de Datos XBRL de EE. UU. (DQC) ha introducido un conjunto de reglas patentadas como una forma de mejorar la calidad de los informes de la SEC de EE. UU.
Sin embargo, como se ha comentado en artículos anteriores, el cambio radical será el paso hacia un enfoque «digital primero». En este enfoque, las empresas empiezan con la publicación en HTML, en lugar de la conversión a PDF. Esto garantiza que la estructura subyacente de los informes sea más clara y la legibilidad de las etiquetas de bloque (secciones de texto más grandes, tablas) las hará mucho más propicias para el análisis de IA.
Por lo tanto, creemos que a medida que se desarrollen las técnicas de inteligencia artificial y los LLM se vuelvan más capaces, este será un enfoque más fructífero que la PNL estándar. Sin embargo, la pregunta aún persiste: ¿serán estos sistemas totalmente confiables de modo que un director financiero confíe totalmente en su informe financiero etiquetado utilizando técnicas de inteligencia artificial? Es decir, ¿cumplirá la prueba de «software objetivo» de Charlie Hoffman, en la que el software procesará la información de una manera que es tan bueno como un humano podría haber realizado esa tarea/proceso o incluso mejor de lo que un humano podría haber realizado esa tarea/proceso (ver más aquí).
Una observación adicional cubierta en artículos anteriores es que las declaraciones financieras contienen tanto datos semiestructurados (en tablas) como datos no estructurados en texto o etiquetas de bloque. Piense en el diseño basado en tablas de los estados financieros versus los estados financieros que contienen aspectos financieros clave. Todos los primeros se presentan de una manera ligeramente diferente según el tipo de empresa, pero todos siguen las normas IFRS o GAAP locales. Estos datos provienen de fuentes altamente estructuradas, sistemas de consolidación financiera. Como se identificó en nuestras publicaciones anteriores, ya existe una tendencia en la que los proveedores de software del sistema financiero incorporan el XBRL en sus sistemas. Etiquetar los datos en esta etapa o cuando se generan las tablas es mucho más fácil. Los datos etiquetados pueden luego pasarse a un ‘software de publicación digital’ como Reportl (Friends Studio) o Pomelo para etiquetar las partes restantes del documento. Implementar el etiquetado de IA de esta manera, centrándose en las áreas no estructuradas, tendría sentido desde el punto de vista del esfuerzo y la precisión.
Conclusiones
En los próximos años, es probable que veamos una tendencia general hacia informes digitales, con una variedad de soluciones de informes, como las mencionadas anteriormente, y por lo tanto deberíamos ver resultados mucho mejores del etiquetado automático utilizando herramientas de IA.
Creemos firmemente que el uso de IA podría permitir a las empresas y auditores reducir significativamente los costos y centrar más su atención en mejorar la calidad de los datos etiquetados, en lugar del etiquetado manual.
A medida que este artículo se va imprimiendo (en formato digital, por supuesto), observamos un flujo de nuevos avances en los programas de maestría en derecho. Es demasiado para cubrir y este no pretende ser un artículo sobre procesamiento del lenguaje natural.
Sin embargo, si le gusta la IA, como a nosotros, busque artículos sobre modelos de lenguaje pequeños, menos recursos informáticos y «mayor rentabilidad»; el nuevo modelo GPT-4o más rápido de OpenAI; Google presenta un nuevo agente de inteligencia artificial «multimodal» que puede responder consultas en tiempo real a través de video, audio y texto llamado Proyecto Astra; Meta también lanza su modelo Llama 3, con capacidades muy mejoradas como el razonamiento.
Los autores son Kapil Verma y Martin DeVille de UBPartner
Por favor envíe comentarios, correcciones y cualquier idea alternativa a info@ubpartner.com.


Publicado originalmente: https://www.xbrl.org/news/ai-and-xbrl-automatic-tagging/