Lo qué vincula los puntos de datos, la codificación de etiquetas, XBRL y la IA


Por qué la codificación abstracta de etiquetas no ayuda a la IA a comprender los datos XBRL, ni a los humanos.

Un artículo en Medium sobre por qué codificar etiquetas de datos puede presentar desafíos para los sistemas de inteligencia artificial inspiró esta publicación. La noción de que la codificación abstracta es mala para los modelos de lenguajes grandes (LLM) llevó a pensar que la codificación no debe ser útil para la comprensión humana por razones similares.

Si bien generar etiquetas codificadas es esencial para diversas aplicaciones de TI, presenta desafíos especiales sobre cómo operan los sistemas de cobranza XBRL, como el marco de informes de la Autoridad Bancaria Europea (EBA). La EBA utiliza tanto la metodología de puntos de datos (DPM) como el lenguaje extensible de informes comerciales (XBRL) en la implementación de su sistema de Directiva de riesgo crediticio (CRD).

La EBA genera la taxonomía XBRL a partir de su modelo interno DPM y la proporciona a las autoridades de 27 países europeos que recopilan los informes XBRL de miles de bancos. El paso a un nuevo formato de recopilación más comprimido, XBRL-CSV, es una oportunidad para considerar cómo se genera el modelo XBRL y cómo lo entienden los bancos que deben informar en ese formato. También es un buen momento para revisar cómo se analizan los datos XBRL para ayudar a la supervisión de los bancos en Europa.

Este artículo intenta evaluar el impacto de la codificación DPM en la taxonomía XBRL y cómo afecta a la comunicación de los requisitos de generación de informes, es decir, ¿requiere un esfuerzo adicional significativo implementar y mantener los sistemas de recopilación y generación de informes? También analiza si la codificación DPM también actúa como una barrera para el uso de herramientas avanzadas de IA en el futuro para descubrir información potencialmente útil en los grandes conjuntos de datos que se recopilan.

Codificación: el enfoque DPM

Primero, debemos explicar cómo funciona el enfoque de la EBA respecto de DPM y XBRL. Comienza con el análisis de hojas de cálculo definidas por los expertos empresariales para identificar los datos que deben recopilarse. Cada hoja se ve como una tabla y se le asigna un nombre de tabla, por ejemplo, ‘F.02.00’, que es el ‘Estado de pérdidas o ganancias’ en el módulo FINREP. En la hoja, a cada punto de datos se le proporciona un código dinámico basado en la columna y la fila. Por ejemplo, las coordenadas ‘F02.00, c010, r670’ son el punto de datos en la fila 670, en la columna 10 de la tabla FINREP ‘02.00’, que está etiquetada como ‘Ganancia o (-) pérdida del año’ y ‘Actual Periodo’ para la columna.

El siguiente paso en el enfoque DPM de la EBA es analizar los puntos de datos utilizando un enfoque altamente dimensional, por lo que en el modelo resultante hay muy pocas métricas («conceptos» en XBRL), pero numerosas dimensiones para descomponer los datos en puntos de datos individuales. . Luego se utiliza el modelo DPM para generar la taxonomía XBRL. La forma en que se genera el modelo tiene un impacto importante en cómo lo entienden las personas en el proceso de recopilación.

El enfoque actual conduce a una taxonomía CRD de la EBA que es extremadamente difícil de revisar usando herramientas XBRL debido a la estructura altamente dimensional y al uso de codificación DPM. Si nos fijamos en la taxonomía CRD de la EBA, que proporciona el diccionario básico, la estructura y las reglas de validación, es difícil discernir alguna estructura semántica. Efectivamente, la codificación DPM y el uso de dimensionalidad extrema han eliminado toda la información semántica.

Las taxonomías XBRL suelen estar diseñadas para ser auto explicativas y autónomas y proporcionar toda la información que necesita la entidad informante. Sin embargo, la EBA considera necesario publicar un conjunto de documentos no XBRL asociados, incluidas plantillas anotadas en Excel. Estas últimas proporcionan al usuario los diseños de tabla necesarios para comprender qué se debe informar y cómo se vinculan los datos con la taxonomía.

Sección de plantilla anotada para pérdidas y ganancias

La plantilla anotada FINREP F02.00 describe semánticamente el elemento que se va a informar. También proporciona las coordenadas DPM para la columna y la fila en las celdas grises. A cada punto de datos se le asigna un identificador de punto de datos (DPM-ID) resaltado en amarillo. Finalmente, en el lado derecho se encuentra la lista de dimensiones para cada punto de datos en la taxonomía CRD de XBRL.

En XBRL, la estructura de una tabla se define en una Table Linkbase. Estas definiciones permiten a los desarrolladores de software como UBPartner derivar las plantillas de Excel «asignadas». La etiqueta semántica ‘Ganancia o (-) pérdida del año’ no se proporciona en ningún otro lugar de la taxonomía y no se define directamente, sino que está codificada (… por supuesto) como ‘label_eba_c70878’ y apunta a una definición de etiqueta en Label Linkbase. (Ed: Espero que estés al día).

El documento de instancia XBRL generado (archivo de datos) muestra el nivel de abstracción. No hay referencia ni codificación semántica de la etiqueta de ganancias o pérdidas anterior, solo un concepto ‘eba_met:md103’ para ‘periodo actual’ (lo cual es inusual, más adelante) y referencias de contexto que se vinculan a las dimensiones. (Nota: UBPartner define las referencias de identificación en el archivo utilizando la referencia de celda para ayudar a depurar el sistema, ya que incluso nuestros expertos en XBRL las necesitan).

Por lo tanto, la traducción «mecánica» actual del modelo DPM al sistema de recopilación de CRD de la EBA solo es comprensible para los humanos si se cuenta con la documentación asociada de la EBA y, en particular, con las plantillas anotadas. No se ajusta realmente al enfoque típico para XBRL.

Pasar a informes XBRL-CSV

A partir de 2025, la EBA tiene previsto utilizar un nuevo formato para comprimir los datos y reducir el tamaño de los archivos de los informes. El nuevo formato es XBRL-CSV, que analizamos en una publicación anterior (ver más aquí).

La EBA planea utilizar el código DPM-ID, como el ‘57025’ de arriba, como identificador de clave en el nuevo formato XBRL-CSV. Luego se vincula desde el archivo CSV a la taxonomía XBRL a través de un archivo de metadatos JSON, que describe el diseño y el significado de los elementos CSV. Entonces, la tabla ‘Estado de pérdidas y ganancias’ en XBRL-CSV se verá así:

Representación XBRL-CSV del estado de resultados

El DPM-ID es una construcción de base de datos pura, un código que actúa como una clave de base de datos simple para describir uno de estos puntos de datos. No tiene valor semántico y es una codificación puramente abstracta, que no contiene información de agrupación para ayudar a los procesadores a optimizar el rendimiento. Las coordenadas DPM pueden considerarse abstracciones o codificación de primer nivel. El DPM-ID una abstracción de segundo nivel

En el artículo de Harrison Hoffman ‘Características categóricas: ¿Qué hay de malo en la codificación de etiquetas? Por qué no podemos codificar arbitrariamente características categóricas», publicado en Medium, sostiene que codificar etiquetas no agrega nada a los grandes modelos de aprendizaje, como los utilizados en ChatGPT, etc., ya que la codificación pierde «contexto y matices» al simplificar atributos o clasificaciones complejos en abstractos o representaciones numéricas. Esto da como resultado un rendimiento deficiente de los sistemas de inteligencia artificial utilizados para explorar los datos.

Basándonos en argumentos similares a los de Harrison Hoffman, creemos que el nivel de codificación utilizado en la taxonomía XBRL de EBA y el uso del DPM-ID como identificador clave en la estructura XBRL-CSV propuesta, hace que sea más difícil aplicar el aprendizaje automático a estos grandes conjuntos de datos, por lo que es más difícil «descubrir» nuevas relaciones en los datos utilizando herramientas avanzadas de inteligencia artificial.

Entonces, los sistemas altamente codificados como el marco de informes CRD de la EBA afectan tanto la comprensión por parte de los humanos como de la IA, pero ¿por qué tanto alboroto porque muchos sistemas de TI están construidos de esta manera?

Codificando el impacto humano

El marco de presentación de informes CRD de la EBA recopila información compleja relacionada con el desempeño y las operaciones de los bancos, y cada banco tiene sus propios sistemas y procesos de datos heterogéneos para recopilar los datos necesarios. XBRL debería funcionar como la lengua franca que ayude a los miles de bancos a determinar qué necesitan informar. La capacidad de XBRL para estandarizar el diccionario de datos y validar los informes es la razón por la que ha tenido tanto éxito en los sistemas de presentación de informes regulatorios, donde la calidad de los datos es esencial.

Sin embargo, a diferencia de la taxonomía CRD de la EBA, las taxonomías XBRL, como la taxonomía IFRS ampliamente referenciada, utilizan etiquetas de conceptos que son semánticamente ricas, como «ganancia» y «pérdida». Utiliza la Presentation Linkbase para mostrar al usuario la jerarquía de conceptos, utiliza la Calculation Linkbase para mostrar relaciones matemáticas simples y utiliza nombres cortos en lenguaje natural para desgloses dimensionales, por ejemplo, «ganancia operativa neta» y «ganancia antes de impuestos».

Es obvio que codificar etiquetas en un marco de colección puede dar lugar a «desafíos de interpretación» que pueden dar lugar a malentendidos. La EBA publica y mantiene sincronizada una serie de documentación no XBRL, como las plantillas anotadas, que denomina Normas Técnicas de Implementación (ITS) sobre informes de supervisión para respaldar el marco, lo que requiere mucho tiempo y es costoso. ¿Podría la ABE haber evitado gran parte de este trabajo adicional si la Taxonomía se hubiera modelado de manera diferente?

En este entorno, si un informe no supera la validación, como cuando una fórmula XBRL produce un resultado extraño, el analista a menudo necesita consultar muchos de estos documentos no XBRL debido a la opacidad del modelo XBRL, es decir, los conceptos y dimensiones codificados, lo que le genera trabajo adicional. Por lo tanto, el enfoque de la EBA consiste en trasladar los costos a lo largo de la cadena de suministro de información a las 27 autoridades nacionales competentes europeas (NCA) que gestionan el marco de informes XBRL local y a los bancos que tienen la obligación de informar.

Es difícil medir el tiempo perdido en la resolución de las abstracciones causadas por la codificación, pero se espera que el cambio a XBRL-CSV y el uso del DPM-ID generen trabajo adicional con la incorporación de otro nivel de indirección en el proceso de generación de informes. El software, por supuesto, podrá leer las descripciones JSON proporcionadas como parte de XBRL-CSV, pero los analistas y funcionarios de cumplimiento de los bancos dependerán de la lectura de las plantillas anotadas para comprender el significado de cada DPM-ID traduciendo a partir de los identificadores de hoja, fila y columna. Mientras que los problemas de depuración requerirán resolver todos los niveles de abstracción en la taxonomía a través de los metadatos JSON. Como ahora, los proveedores de software XBRL deberán seguir entregando plantillas de hojas de cálculo renderizadas o formatos CSV alternativos más simples como opciones de entrada.

Codificación del impacto del análisis

Por lo tanto, como comunicación de los requisitos de presentación de informes de la CRD, la taxonomía XBRL actual no es excelente, pero ¿es peor la transición propuesta al formato XBRL-CSV utilizando el DPM-ID como identificador clave? Por otra parte, ¿el nivel adicional de abstracción se ve compensado por la capacidad del enfoque para cumplir los objetivos del sistema, es decir, supervisar el mercado bancario en Europa, mejor que antes?

Sin duda, el enfoque DPM ha ayudado a la EBA a obtener un modelo y un diccionario de datos coherentes en todo el sistema bancario. El enfoque de puntos de datos funciona bien para sistemas que producen análisis predeterminados, como OLAP y los almacenes de datos tradicionales.

Se supone que tanto la ABE como las autoridades nacionales competentes utilizan el gran conjunto de datos de información bancaria europea para obtener un conjunto de indicadores clave de rendimiento bancario con los que comparar bancos individuales. También es fácil producir informes de tendencias históricas y diversos cuadros de mando. Sin embargo, se sospecha que gran parte de los datos recopilados no se utilizan para la supervisión bancaria, ya que dichos informes se limitan a lo que los humanos pueden manejar, es decir, datos altamente agregados o cuando es necesario analizar con más detalle un conjunto de datos específico sobre el que se ha emitido una advertencia.

El poder del análisis de IA es que podría ayudar a encontrar posibles fragmentos de información ocultos en los volúmenes de datos detallados. Sin embargo, como sostiene el artículo de Harrison Hoffman, el uso de la codificación DPM en el sistema de recopilación no ayuda al uso de LLM en el conjunto de datos resultante. Se podría utilizar el aprendizaje automático en los datos de puntos de datos sin procesar, pero el sistema de IA tendría que recibir una formación exhaustiva en el enfoque y la arquitectura de DPM, y en cómo se vincula el DPM-ID a las etiquetas significativas. Todo esto tendría un coste adicional y requeriría una amplia experiencia.

Los LLM y las técnicas modernas de IA funcionan de una manera diferente al almacenamiento de datos estándar y la IA tradicional (aprendizaje supervisado), es decir, a través del entrenamiento no supervisado de modelos, a veces aumentados por conocimiento específico adicional, generación aumentada por recuperación (RAG). A escala, comienzan a suceder cosas especiales, como con los modelos de lenguaje, como GPT, Llama y Gemini, donde comienzan a mostrar una comprensión general del lenguaje. Este tipo de enfoque de IA sería más simple y más barato de aplicar a medida que la tecnología madure. Entonces, ¿la EBA se estará perdiendo la oportunidad de proteger su arquitectura de sistemas para el futuro?

Las arquitecturas de bases de datos modernas, como las bases de datos semánticas, permiten la recopilación eficiente de datos XBRL y existen bases de datos XBRL basadas en SQL más económicas y simples para aplicaciones más pequeñas. Estas tecnologías pueden proporcionar un almacén de datos operativos sobre el cual ejecutar el tipo de algoritmos de descubrimiento en los que la IA es buena. Dada la estructura inherente de XBRL, también es fácil transformar y cargar (o cargar y transformar) en estructuras analíticas, como una base de datos DPM.

¿Por qué, entonces, pretende la EBA promover el DPM-ID desde una etiqueta oculta de base de datos abstracta a un lugar central en el intercambio de información? ¿Es simplemente porque se ajusta a la estructura de su base de datos de análisis interna?

Alternativas de codificación

Creemos que XBRL-CSV es la opción perfecta para la actualización de la EBA del marco de informes CRD, ya que puede reducir significativamente el tamaño de los archivos de los informes enviados. Por este motivo, el XBRL Standards Board (XSB) creó la especificación Open Information Model (OIM) que define tanto XBRL-CSV como XBRL-Json. La preocupación es que la EBA lo está utilizando incorrectamente en términos de la estructura XBRL-CSV. Por primera vez, la EBA está planeando introducir la codificación DPM directamente en los informes XBRL utilizando una construcción semánticamente vacía, el DPM-ID como otra capa de abstracción.

Sin repetir los argumentos del artículo original, creemos que la nueva estructura XBRL-CSV basada en DPM-ID hará que sea más difícil de entender tanto para los humanos como para la IA. En el lado positivo, los archivos serán más pequeños y, al menos para la EBA, le resultará más fácil cargar los datos recopilados en su propia base de datos DPM. Sin embargo, hay 27 ANC y miles de bancos a considerar al evaluar el impacto.

La alternativa sería simplemente utilizar un buen modelado XBRL desde el principio. Sin embargo, el rediseño de las herramientas DPM para producir un modelo XBRL semántico «mejor» sería un esfuerzo y un coste significativos, además de plantear otros problemas. Por ejemplo, el problema de los términos XBRL verbosos es real. La codificación garantiza un tamaño fijo para los elementos de denominación, mientras que en un modelo XBRL típico los nombres de concepto y dimensión tienen una longitud variable. Esto último significa que cualquier sistema XBRL puede ser verboso y generar archivos grandes según la aplicación. Sin embargo, la especificación XBRL permite etiquetas tanto cortas como largas, por lo que creemos que estos problemas se pueden solucionar mediante una codificación «simple» y no abstracta.

Como alternativa, la EBA podría utilizar los diseños de tabla (enfoque de cuadrícula) en su modelo XBRL-CSV.

Es más fácil para los humanos visualizar el diseño de la tabla y ayudaría a los proveedores de software, que ya representan las bases de datos de enlaces de tabla en otros formatos, como hojas de cálculo para fines de entrada y generan mensajes de error útiles para los usuarios comerciales. Sin embargo, esto requeriría un mayor nivel de transformación por parte de la EBA al cargar su base de datos DPM interna.

Una solución intermedia podría ser utilizar las coordenadas DPM como identificadores dimensionales en el XBRL-CSV. Los bancos entienden las coordenadas a partir de las plantillas anotadas, una abstracción visual sencilla. Si se utilizaran las coordenadas DPM en el formato de archivo XBRL-CSV en lugar del DPM-ID, también permitiría a los procesadores XBRL identificar grupos de datos, es decir, todos los datos de una columna o fila, una relación entre los datos que se utilizará para mejorar las velocidades de procesamiento. Con solo invertir los roles, el EBA podría ayudar a los usuarios a comprender los datos y, al mismo tiempo, facilitar la carga en su base de datos, es decir, utilizar las coordenadas DPM, las hojas, las columnas y los identificadores de fila en la estructura CSV y vincularlos con el DPM-ID en los metadatos técnicos JSON.

La EBA argumentaría que el DPM-ID tiene una solidez histórica que las coordenadas de la hoja de cálculo no tienen, ya que las hojas de cálculo cambian entre los períodos de presentación de informes. Sin embargo, las taxonomías XBRL se actualizan en cada período de presentación de informes y, por lo tanto, son transitorias por naturaleza. Por lo tanto, el uso de las coordenadas DPM para una taxonomía no afecta al sistema de análisis, solo a la transformación y carga de datos. Además, la EBA ya tiene la conexión histórica entre los puntos de datos a través del DPM-ID en su base de datos analítica interna, que es donde debe realizarse la conexión histórica entre los elementos de presentación de informes.

El uso de las coordenadas DPM también se vincularía a la notación DPM para controles de calidad de los datos. La notación patentada se utiliza para ayudar a construir y documentar fórmulas XBRL para verificar la precisión y coherencia de los datos informados. Estas reglas requieren un esfuerzo significativo para codificarlas y probarlas. XBRL Europe propone un formato XF DPM para escribir fórmulas EBA que funcionarían a nivel de hoja en lugar de a nivel de datos. Hacer que las reglas sean más simples de escribir y más fáciles de procesar. Con el tiempo, si el modelo de datos tiene una estructura semántica, se podrían emplear técnicas de inteligencia artificial para producir estas reglas directamente a partir del modelo semántico utilizando la estructura de elementos y la denominación.

Una vez que los reguladores y proveedores de software hagan funcionar el nuevo formato, el sistema de recopilación XBRL-CSV debería funcionar sin problemas, pero… y un gran, pero al igual que otros sistemas de recopilación basados en sistemas de almacenamiento de datos propietarios, puede quedarse estancado en el tiempo. Según nuestra experiencia, este tipo de sistemas suelen ser estructuras inflexibles y dependientes de técnicos para resolver problemas.

Conclusiones

Desde nuestro punto de vista, la EBA parece no haber elegido la dirección más eficaz al pasar a la presentación de informes en formato XBRL-CSV, codificando todo y desechando la riqueza semántica contenida en las hojas de cálculo desarrolladas por las empresas. Los pocos beneficios de este enfoque benefician a la EBA, pero no a las autoridades nacionales competentes o a los bancos que recopilan o elaboran los informes.

Nuestra conclusión principal es que al adoptar el DPM-ID como el identificador clave en la estructura XBRL-CSV, el EBA no solo dificulta que los humanos comprendan la estructura y el significado de los datos, sino que también puede estar alejándose de un cambio importante en la informática hacia el análisis basado en IA de grandes conjuntos de datos. A medida que se «enseña» a las computadoras a pensar como humanos, buscan relaciones semánticas entre los datos, como nombres de conceptos semánticos significativos y estructuras basadas en jerarquías y tablas, que puedan «guiar» su comprensión.

Los autores son Kapil Verma, David Bell y Martin DeVille de UBPartner.

Por favor envíe comentarios, correcciones y cualquier idea alternativa a info@ubpartner.com.


Publicado originalmente: https://medium.com/xbrl-made-simple/what-links-datapoints-label-encoding-xbrl-and-ai-290777b49f3a

Deja una respuesta