La IA exige inversión en infraestructura de datos públicos y XBRL

La IA está cambiando la forma en que accedemos a los datos, por lo que XBRL necesita actualizarse para proporcionar una plataforma semántica.

Imagina un chatbot de IA que le asegura a un inversor que los ingresos de una empresa aumentaron un 40 % el trimestre pasado, cuando en realidad disminuyeron. Los datos correctos estaban disponibles en internet, pero el modelo obtuvo la información de una fuente poco fiable, interpretó erróneamente etiquetas inconsistentes o seleccionó el período de referencia incorrecto. Esto no es una simple hipótesis. A medida que la IA se integra en las decisiones de inversión, la calidad de los datos subyacentes cobra mayor importancia que nunca.

Durante casi dos décadas, me he centrado en los conjuntos de datos públicos abiertos y la estandarización de datos. En 2006, me uní a la comunidad XBRL para aprovechar la promesa de que los informes digitales estructurados finalmente ofrecerían datos de alta calidad en los que los usuarios podrían confiar y que podrían analizar a gran escala. Esta promesa es ahora más importante que nunca con la aparición de interfaces de IA de lenguaje natural, donde el inversor puede formular cualquier pregunta que desee, como la que se muestra arriba.

Trabajando en Oracle en el área de almacenamiento de datos e inteligencia empresarial, pude comprobar de primera mano lo difícil que resulta transformar datos inconsistentes en información útil. Las promesas clásicas de la inteligencia empresarial (BI), como «convertir datos en información» y «ayudar a los usuarios a tomar mejores decisiones», se desmoronaban constantemente cuando los datos subyacentes estaban fragmentados y utilizaban diferentes etiquetas y definiciones. Llegué a comprender que estandarizar los datos en origen y validar su calidad es un requisito indispensable para que los sistemas de BI aporten valor real.

En el caso de los chatbots de IA, la calidad de los datos, la estructura de los datos y la autoridad del editor original son aún más importantes para producir análisis fiables que en el caso de los sistemas de BI tradicionales basados en conjuntos de datos estrictamente definidos.

Lamentablemente, la inversión en sistemas de recopilación de datos se cuestiona como nunca antes, mientras que los beneficios de la estandarización de datos siguen sin comprenderse del todo. El resultado son demasiadas implementaciones fragmentadas, impulsadas por intereses locales que insisten en excepciones que, en última instancia, erosionan la confianza en los datos mismos.

La crisis silenciosa en los datos públicos

Una afirmación comúnmente utilizada en los llamamientos para reducir los marcos de recopilación de datos o para retrasar la creación de nuevos marcos es que las normas de información digital, que requieren algún tipo de etiquetado y validación de datos coherentes, aumentan los costes de cumplimiento para las empresas y, por lo tanto, repercuten negativamente en la competitividad y el crecimiento globales.

Mientras tanto, los costos de no recopilar ni estandarizar datos para su análisis permanecen ocultos. Estos costos se manifiestan en el tiempo perdido de numerosos usuarios que se esfuerzan por encontrar y reunir los datos, y en los sistemas diseñados para transformar datos de múltiples fuentes para su integración y análisis conjunto.

Mi experiencia personal sugiere que los datos públicos bien estructurados y estandarizados no representan una carga; forman parte de la infraestructura esencial que facilita el flujo de información en la llamada «era de la información». De hecho, los beneficios potenciales de estandarizar los conjuntos de datos abiertos son enormes y pueden impulsar el crecimiento mediante una mejor asignación de los recursos económicos.

Los conjuntos de datos abiertos no cuentan con la financiación suficiente

La confianza en las estadísticas clave del Reino Unido se encuentra en su nivel más bajo y que varias series de datos se han suspendido o retrasado. Esto ha sido causado por los recortes en los presupuestos gubernamentales, pero también por la falta de conciencia sobre el importante valor de dichos conjuntos de datos. La inversión en carreteras y hospitales es evidente, mientras que ahorrar tiempo y dinero a los analistas y demostrar su impacto en el crecimiento no lo es.

El Reino Unido no es el único país afectado. Esta «crisis» se repite en muchos países desarrollados, donde crece la preocupación por la calidad de los datos, lo que lleva a los responsables de la política económica y a los líderes empresariales a actuar a ciegas.

Los chatbots de IA que recuperan datos y elaboran respuestas de forma opaca plantean un nuevo problema, ya mencionado: ¿son correctos los datos? Sin fuentes fiables ni datos bien estructurados, los agentes de IA podrían inducir a error a analistas, empresas líderes, inversores y gobiernos, llevándolos a tomar decisiones erróneas y costosas.

Informes financieros y de sostenibilidad de la empresa: un caso práctico

La falta de financiación es el punto de partida; la falta de conocimiento y los fallos en la implementación agravan el problema. Los informes financieros y de sostenibilidad de las empresas europeas son buenos ejemplos de los principales desafíos.

Centrarse en los grupos de interés equivocados

El formato electrónico único europeo (ESEF) y su equivalente en el Reino Unido han logrado generar miles de informes digitales que pueden ser leídos por inversores y analizados por sistemas informáticos (utilizando XBRL en línea, como se mencionó en artículos anteriores).

Sin embargo, la ESMA se ha centrado principalmente en los registros mercantiles nacionales para obtener información sobre la política de la UE. Solo unos pocos cuentan con sistemas de recopilación de datos bien estructurados, y muchos desean proteger su función local de recopilación y publicación de datos para mantener su relación con las empresas, entidades contables y auditores locales más importantes.

La ESMA solo ha colaborado lentamente (quizás a regañadientes) con las empresas que presentaron la documentación, los auditores, los inversores y los expertos en datos técnicos para ayudar a resolver los numerosos problemas surgidos. Como consecuencia, el conjunto histórico de documentos está plagado de errores.

Nuevos conjuntos de datos: Directiva sobre informes de sostenibilidad empresarial (CSRD)

Crear nuevos conjuntos de datos públicos siempre supone un gran desafío. El alcance inicial y el nivel de detalle de los requisitos de recopilación de datos pueden determinar el éxito o el fracaso de un proyecto: un nivel demasiado general implica un análisis superficial, mientras que un nivel demasiado detallado puede resultar costoso y abrumador para las empresas que presentan solicitudes.

La Directiva de la UE sobre Informes de Sostenibilidad Corporativa (CSRD) se lanzó con gran ambición y amplio respaldo. Sin embargo, al igual que muchos sistemas de Business Intelligence, la taxonomía intentó codificar desde el principio el conjunto completo de requisitos regulatorios (…según lo indicado por las autoridades de la UE). La nueva taxonomía XBRL fue una avalancha de especificaciones detalladas y reglas complejas, lo que, como era de esperar, provocó una fuerte reacción.

El Parlamento Europeo solicitó una reevaluación (Ley Ómnibus de la UE), lo que dio lugar a una simplificación: se redujo la obligación de informar a las mayores empresas; se recortaron los datos que debían comunicarse a aproximadamente un tercio; y se aplazaron los plazos para las demás empresas en dos años.

En retrospectiva, los especialistas en inteligencia empresarial habrían recomendado la estrategia de «pensar en grande, empezar poco a poco», es decir, comenzar con una muestra de datos más pequeña proveniente de diversas fuentes y, posteriormente, ir evolucionando para satisfacer las necesidades cambiantes. Este enfoque habría beneficiado tanto a los responsables políticos como a las empresas.

Los grupos de interés locales enturbian el agua.

Las prácticas contables cambian de forma muy lenta y cautelosa, y aún persisten focos de resistencia en la comunidad a los cambios impuestos por la transición a los sistemas digitales paneuropeos. Por ejemplo, el Deutsches Aktieninstitut (Instituto Alemán de Valores) ha solicitado a la Autoridad Europea de Valores y Mercados (ESMA) que elimine por completo el formato de información digital iXBRL. Alega que iXBRL impone costes y complejidad considerables a las empresas sin ofrecer beneficios correspondientes a los inversores.

Europa sigue a la espera del Punto Único de Acceso Europeo (PEAS), que facilitaría el acceso a estos informes desde un único lugar, evitando así que los inversores tengan que buscarlos en 28 sistemas nacionales diferentes o en miles de sitios web de empresas privadas. Su implementación se encuentra estancada debido a las negociaciones con los registros mercantiles locales, mencionados anteriormente.

Los datos públicos preparados para la IA

Gran parte de la atención en torno a la IA se centra en la inteligencia lingüística general (interpretación de preguntas y generación de respuestas) que poseen los Modelos de Lenguaje a Gran Escala (MLG). Esto es importante para las interfaces de lenguaje natural y la interacción fluida que los usuarios buscan en las interfaces conversacionales. Sin embargo, en la práctica, el éxito de una aplicación de IA al responder una pregunta específica depende mucho más de la estructura, el formato y la fiabilidad de los datos subyacentes de su fuente.

Cuando se formula una pregunta, un chatbot de IA debe identificar las fuentes que debe consultar para elaborar una respuesta. Según un algoritmo de filtrado, generará una lista de prioridades. El chatbot priorizará el contenido ya resumido y de fácil acceso, e ignorará los datos cuya búsqueda sea costosa. La IA no se pregunta el porqué; simplemente calcula probabilidades y selecciona las mejores opciones.

A partir de estos datos, los chatbots de IA pueden generar nuevos indicadores clave de rendimiento (KPI) o agregados personalizados, transformar los datos y reorganizarlos en nuevos formatos y estructuras.

La cuestión clave para los analistas que utilizan datos públicos abiertos es que la IA es muy buena para aparentar seguridad incluso cuando está equivocada.

El desafío de las alucinaciones

En los paneles de BI tradicionales, suele ser fácil detectar y verificar datos incorrectos gracias a su enfoque estructurado. Si se encuentra un error sistemático, se puede revisar y corregir el código informático. Un proceso laborioso, pero bien conocido.

Los chatbots de IA generan código a medida que evalúan la pregunta y no siempre pueden revelar la consulta que han escrito, incluso cuando se les pregunta (pasos de código intermedios descartados). Los agentes de IA también pueden interactuar de maneras impredecibles. Por lo tanto, debido a su naturaleza probabilística, los chatbots de IA suelen producir resultados plausibles pero incorrectos.

Estos resultados plausibles pero incorrectos, que los expertos en marketing denominan eufemísticamente «alucinaciones», se derivan de la naturaleza probabilística de la IA. Los usuarios pueden abordar este problema mediante una ingeniería de mensajes detallada, pero esto solo subraya la necesidad de replantearse los propios conjuntos de datos públicos, así como los mecanismos de control y la verificación de los resultados de la IA.

Las organizaciones de confianza deben invertir más en sus sistemas de recopilación de datos y en la estandarización de los mismos. Es fundamental que los conjuntos de datos publicados tengan definiciones y estructura claras, que los datos estén libres de errores (o lo más cerca posible de ello) e incluyan metadatos (información sobre los datos) que ayuden a los agentes de IA a encontrar la información correcta.

Marco ODI

El Open Data Institute (ODI) ha publicado un marco de trabajo preparado para la IA, que identifica cuatro áreas críticas para los datos «preparados para la IA»:

Cualidades de los datos: Cumplimiento de las normas de datos y uso de formatos de archivo apropiados que sean fácilmente legibles por máquina e interoperables.
Metadatos (Contexto): El modelo de datos debe detallar la estructura de los datos, los tipos y las restricciones, además del linaje de los datos para rastrear su origen y transformaciones.
Infraestructura: La infraestructura física y de software debe diseñarse para garantizar la accesibilidad, la escalabilidad y el control.
Gobernanza de datos proactiva: actualización y automatización de las políticas de gobernanza.

Este tipo de sistemas requieren una inversión adicional para su configuración y mantenimiento, pero también exigen una mentalidad diferente durante su implementación y mantenimiento. Necesitan una visión global del alcance de la aplicación, que tenga en cuenta que cualquier desviación local en los estándares y definiciones de datos aumenta los costos globales y reduce la comparabilidad, y que los datos sobre los datos (metadatos del sistema o semánticos) son tan importantes como los datos en sí.

Por qué XBRL hace que la IA sea más inteligente

Se han publicado numerosos artículos y entradas sobre por qué XBRL proporciona una plataforma para la IA y los informes financieros y de sostenibilidad de las empresas. Las razones son sencillas: los datos estructurados incluyen el contexto y la información semántica, y los vinculan a una base de conocimiento más amplia.

Consideremos la diferencia fundamental en el enfoque:

Los analistas de la empresa aprenden contabilidad desde cero, construyendo un modelo integral de cómo se relacionan los conceptos y adquiriendo un conocimiento específico de cómo se aplica esto a los datos financieros de su compañía. Los auditores también poseen un profundo conocimiento que les permite detectar anomalías si un informe se desvía de los patrones habituales.
Los sistemas de IA utilizan la probabilidad y la estadística para identificar números específicos y patrones lingüísticos al analizar un informe de una empresa, asignando significado en función del contexto proporcionado por la pregunta y los datos generales de entrenamiento.

Este enfoque estadístico es potente, pero fundamentalmente diferente, y sin datos semánticos, estructurados y fiables como XBRL, resulta poco fiable. Los analistas de la empresa pueden tener lagunas en sus conocimientos… pero siempre pueden consultar a un chatbot de IA.

La respuesta natural y segura de los chatbots de IA a preguntas como la que aparece al principio de este artículo ha llevado a los usuarios no técnicos a creer que la IA no necesita etiquetado ni estandarización de datos, una idea errónea peligrosa.

Investigaciones recientes realizadas por XBRL US, utilizando grandes volúmenes de documentos, han demostrado que los sistemas de IA funcionan significativamente mejor cuando se entrenan con los modelos proporcionados por las taxonomías XBRL o cuando utilizan dichos modelos para comprender los informes, en lugar de texto sin formato o HTML.

Una taxonomía XBRL define qué representa cada dato reportado, su tipo de dato, sus relaciones con otros datos y las reglas que rigen su uso. Por ejemplo, «Efectivo» se define explícitamente como un «activo circulante»; «Ingresos» se incluye en el estado de resultados. Las unidades utilizadas, el contexto (entidad, período, dimensiones) y la precisión son inequívocos.

El contexto semántico que proporcionan los datos estructurados y etiquetados es precisamente lo que la IA necesita para razonar de forma fiable. Sin fuentes fiables y estructuradas, los sistemas de IA recurren al rastreo de texto, a la interpretación de etiquetas inconsistentes o a la recopilación de datos de terceros de procedencia desconocida. Esto abre la puerta a la desinformación, a resultados sesgados y a errores complejos extremadamente difíciles de detectar.

XBRL también resulta interesante desde otro punto de vista: ofrece una conexión directa con la información que la empresa desea comunicar. Por lo tanto, las etiquetas XBRL pueden brindarnos información útil sobre las intenciones y el enfoque de la empresa, mejor que cualquier proveedor de datos general. Sin embargo, los errores de datos y etiquetado en los informes históricos, como los de ESEF, reducen significativamente el valor del conjunto de datos, por lo que es fundamental corregir los problemas en el marco de informes lo antes posible.

Signos de convergencia

A pesar de estos desafíos, algunos avances alentadores sugieren que la situación está cambiando. Las instituciones están reconociendo que los datos estructurados no son opcionales, sino que forman parte de una infraestructura esencial, como las carreteras y los puentes.

Reconocimiento de la industria

Organismos internacionales como la IOSCO han solicitado explícitamente la presentación de informes en formato legible por máquina para mejorar la eficiencia del mercado. Las iniciativas de sostenibilidad hacen cada vez más hincapié en la comparabilidad transfronteriza, como la propuesta del ISSB de «pasaporte de datos», que permite a las jurisdicciones aceptar informes que utilizan taxonomías base estándar, reduciendo así la duplicación y la fragmentación.

Mientras tanto, están surgiendo nuevos conjuntos de herramientas de datos. El intercambio Semántico Abierto (OSI) de Snowflake busca estandarizar la forma en que se comparten los modelos semánticos entre plataformas, reconociendo que estandarizar los metadatos semánticos, y no solo los datos, es fundamental para la interoperabilidad entre las herramientas de BI e IA.

Evolución de XBRL y adaptación a la IA

XBRL no es la solución definitiva, pero ya proporciona gran parte de la base semántica que los sistemas de IA necesitan para la elaboración de informes financieros empresariales. El verdadero reto ahora reside en que el estándar XBRL desarrolle una especificación abierta que, además, se adapte a las arquitecturas de datos modernas y a la evolución de los estándares semánticos.

La comunidad XBRL lo entiende, y la actualización propuesta del Modelo de Información Abierta (OIM) busca simplificar y modernizar la forma en que se expresan los datos XBRL, facilitando su integración en plataformas de datos e IA contemporáneas. Ha llegado el momento de cumplir esta promesa.

Una mayor exposición a la IA también implica que las herramientas de IA se están adaptando. Por ejemplo, las aplicaciones de servicios financieros están yendo más allá de los modelos de lenguaje basados únicamente en texto hacia sistemas multimodales que integran informes de empresas, datos financieros y otros medios simultáneamente, imitando la forma en que trabajan los analistas humanos.

Más importante aún, el sector está implementando marcos de verificación de «caja blanca» que utilizan modelos de lógica descriptiva (MLD) como auditores, validando las afirmaciones numéricas con los documentos originales. Estos avances permiten que los sistemas de IA procesen múltiples conjuntos de información simultáneamente, verifiquen las afirmaciones con los documentos fuente, mantengan registros de auditoría para garantizar el cumplimiento normativo y operen de forma segura dentro de los límites institucionales, abordando directamente los riesgos de confusión que podrían socavar las decisiones de inversión.

Sin embargo, estos sofisticados sistemas de IA aún dependen de la calidad y la estructura de los datos subyacentes. Sin fuentes estandarizadas y semánticamente ricas como XBRL, incluso los marcos de verificación avanzados tienen dificultades para garantizar la precisión.

Conclusión

Los datos de las empresas que cotizan en bolsa constituyen uno de los conjuntos de datos más valiosos de los que disponemos para impulsar el crecimiento. Cuando se preparan adecuadamente, facilitan mejores decisiones de inversión, una regulación más eficaz y mejores políticas públicas.

La lección no consiste en recopilar más datos, sino en recopilar los datos correctos, una sola vez, utilizando estándares compartidos, y en tratar esos datos como una infraestructura esencial que necesita inversión pública.

Por supuesto, el desafío no es solo tecnológico. También es organizativo y político, como alinear los incentivos, reducir la fragmentación de los marcos de datos e invertir en la tarea poco atractiva de la estandarización de datos.

Algunas recomendaciones específicas:

Reguladores: Proporcionen ahora conjuntos de datos preparados para IA como ESAP. Cada retraso multiplica los costos, ya que los analistas pierden tiempo buscando los datos y se resisten a los intereses locales, lo que genera datos incomparables. Una vez establecidos, los repositorios de datos como ESAP deberían permitir la colaboración colectiva para identificar nuestros errores.

Empresas: Exigen software basado en principios digitales, que sea totalmente compatible con XBRL y capaz de exportar datos a múltiples plataformas desde una única fuente. Estos sistemas existen (véase el artículo anterior), pero la clave está en dejar de usar las herramientas de conversión de PDF.

Tecnólogos: Contribuyan a la estandarización de la capa semántica mediante iniciativas como el proyecto Open Information Model (OIM) de la comunidad XBRL o el Open Semantic Interchange (OSI) de Snowflake.

La disyuntiva es clara: invertir ahora en una infraestructura de datos adecuada o ver cómo la IA nos engaña con total seguridad a gran escala. XBRL y estándares de datos similares ofrecen una vía probada si contamos con la voluntad colectiva de seguir la conclusión lógica de la necesidad de proporcionar a la IA «contexto» (una capa semántica estandarizada).

Todos podemos comprender que la IA es tan buena como los datos que encuentra; y en este momento, no le estamos proporcionando la base que necesita.

Deja una respuesta Cancelar la respuesta