Comentarios de XBRL US sobre la RFI del Departamento de Comercio: IA y activos de datos gubernamentales abiertos


Publicado el martes 16 de julio de 2024

XBRL US respondió a la solicitud del Departamento de Comercio de información sobre inteligencia artificial y activos de datos gubernamentales abiertos.

La carta de XBRL US decía: “Estamos de acuerdo con la opinión del Departamento de Comercio de que los sistemas de IA deben funcionar con datos que no solo sean legibles y accesibles por máquina, sino que también sean ‘comprensibles por máquina’. La inteligencia artificial tiene un potencial enorme, pero los algoritmos de IA deben aprovechar datos de alta calidad y de comprensión inequívoca para generar resultados confiables y útiles. El camino para proporcionar datos de alta integridad y precisión es a través de estándares de datos abiertos, no propietarios (gratuitos), un enfoque que se ha empleado con éxito en todo el mundo”.

Leer más: XBRL US RE AI Ready Open Data Assets RFI DOC 2024 0007


estándares de inteligencia artificial


Estimada Sra. Houed:

RE: Activos de datos abiertos listos para IA RFI, DOC– 2024–0007

Agradecemos la oportunidad de brindar información a la solicitud de información del Departamento de Comercio (DOC) sobre activos de datos abiertos listos para IA. Estamos de acuerdo con la opinión del Departamento de Comercio de que los sistemas de IA deben estar impulsados por datos que no solo sean legibles y accesibles por máquinas, sino que sean «comprensibles por las máquinas». La inteligencia artificial tiene un enorme potencial, pero los algoritmos de IA deben aprovechar datos de alta calidad y sin ambigüedades para generar resultados fiables y útiles.

El camino para proporcionar datos de alta integridad y precisión es a través de estándares de datos abiertos, no patentados (libres), un enfoque que se ha empleado con éxito en todo el mundo. Los programas de estándares de datos han sido adoptados por 80 reguladores globales en cerca de 220 programas1 para los datos recopilados de empresas públicas y privadas, bancos, reguladores y empresas de servicios públicos. Los programas de estándares de datos, establecidos por los reguladores de EE. UU., han estado vigentes para la recopilación de datos durante 15 años.

Además, se requiere que se utilicen estándares de datos en apoyo de la Ley de Transparencia de Datos Financieros (FDTA), legislación aprobada en diciembre de 2022, que afecta a los datos recopilados por ocho agencias reguladoras2 que son miembros del Consejo de Supervisión de la Estabilidad Financiera. Se espera que la recopilación de datos solicitada en la FDTA comience en 2027, lo que debería dar lugar a la creación de grandes conjuntos de datos estructurados y estandarizados.

XBRL US es una organización de estándares de datos sin ánimo de lucro, con la misión de mejorar la eficiencia y la calidad de los informes en los EE. UU. mediante la promoción de la adopción de estándares de informes empresariales. XBRL US es una jurisdicción de XBRL International, el consorcio sin ánimo de lucro responsable de desarrollar y mantener las especificaciones técnicas de XBRL (un estándar de datos libre y abierto ampliamente utilizado en todo el mundo para la elaboración de informes por parte de empresas públicas y privadas, bancos y agencias gubernamentales). Nuestros miembros incluyen firmas de contabilidad, empresas públicas, proveedores de software, datos y servicios, así como otras organizaciones sin fines de lucro y organizaciones de estándares. Apoyamos el uso de estándares de datos abiertos y no propietarios, ya que se ha demostrado que reducen costos, mejoran la puntualidad y la eficiencia para todas las partes interesadas. Como se señala en el Informe anual al Congreso de la SEC 2024, «Los estudios demuestran que las divulgaciones legibles por máquina benefician a los inversores, los mercados y los emisores. Con respecto a los inversores y, en general, a los mercados, el hecho de que las divulgaciones corporativas sean legibles por máquinas ha disminuido la asimetría de información entre las empresas y los inversores al reducir los costos de procesamiento de la información, hacer que los precios de las acciones sean más informativos (es decir, que reflejen más la información específica de la empresa) y reducir las ineficiencias y los riesgos del mercado».

Los datos económicos, poblacionales y ambientales recopilados y preparados por las oficinas y oficinas del DOC son utilizados por reguladores, gobiernos, investigadores académicos y empresas de todo el país. La capacidad de acceder a esos datos en el mismo formato estructurado y estandarizado que se utiliza para los datos informados a los reguladores por los bancos, las empresas públicas, las empresas de gestión de inversiones y, en última instancia, por muchas más entidades informantes, incluidos los gobiernos estatales y locales a través de la FDTA, permitirá la interoperabilidad de múltiples conjuntos de datos, lo que hará que sea más rápido, menos costoso y más eficiente realizar análisis sólidos.

Alentamos al DOC a revisar la gran cantidad de datos estructurados y estandarizados recopilados por los reguladores estadounidenses, incluida la Comisión de Bolsa y Valores (SEC), la Corporación Federal de Seguros de Depósitos (FDIC) y la Comisión Federal Reguladora de Energía (FERC); y examinar los futuros conjuntos de datos que estarán disponibles a través de la puesta en marcha de la FDTA. La posibilidad de que los usuarios de datos accedan a estos datos en el mismo formato que los datos proporcionados por el DOC permitirá importantes economías de escala y ahorros de costos para los reguladores, los investigadores y las empresas por igual.

Esta carta aborda muchas de las cuestiones planteadas en la solicitud de información del DOC.

Normas de difusión de datos

1. ¿Qué normas de difusión de datos debería adoptar el Departamento de Comercio para respaldar los datos públicos legibles por humanos y comprensibles por máquinas?

Apoyamos el uso del estándar eXtensible Business Reporting Language (XBRL) como el estándar más apropiado para respaldar la recopilación y difusión de datos. XBRL puede gestionar varios tipos de datos y tipos de unidades, por ejemplo, monetarios, de volumen, de energía, de longitud, de tiempo, de masa, de cadena. Tiene un método definido para administrar e informar concretamente las unidades que son necesarias para los tipos de datos asociados, como las monedas para los tipos monetarios y las diversas unidades de medida para la longitud, como ejemplos. Otros conjuntos de datos recopilados por los reguladores estadounidenses, como la SEC, la FDIC y la FERC, se preparan en XBRL. Por lo tanto, los datos del DOC preparados en el mismo formato estructurado y normalizado serían interoperables con estas otras colecciones de datos reglamentarios, lo que reduciría los costos para todos los usuarios de datos.

2. ¿Qué formatos, metadatos y documentación deben priorizarse para facilitar las aplicaciones de IA?

Los conjuntos de datos regulatorios publicados por las agencias estadounidenses en la actualidad varían ampliamente en la forma en que se proporcionan. Muchos se proporcionan como informes en documentos en papel como PDF o Word, algunos se publican en archivos CSV para su descarga, otros en formato XBRL estructurado. Es posible que una aplicación de IA necesite consumir varios conjuntos de datos proporcionados por varias agencias. Idealmente, todas las agencias federales de EE. UU. proporcionarían sus datos siguiendo el mismo estándar de datos estructurados. Este enfoque proporcionaría a los algoritmos de IA datos interoperables, «comprensibles por las máquinas», accesibles y automatizables.

Los datos que se preparan utilizando el estándar de datos XBRL en la actualidad, como los datos de empresas públicas, servicios públicos, empresas de gestión de inversiones, agencias de calificación crediticia y bancos (cada uno de los cuales informa a su respectiva agencia reguladora), cumplen estos requisitos y pueden alojarse fácilmente en la misma base de datos y extraerse y utilizarse de la misma manera. En XBRL US, mantenemos una base de datos que contiene datos de presentaciones de FERC, presentaciones de SEC, presentaciones de Formato Electrónico Único Europeo (ESEF) e incluso datos de estados financieros de entidades gubernamentales estatales y locales. Todos estos datos se pueden extraer de forma muy granular utilizando las mismas aplicaciones de extracción o analíticas porque los datos, aunque bastante diferentes, están estructurados de la misma manera utilizando un modelo u ontología estandarizada. La estandarización permite economías de escala y hace que sea menos costoso informar, recopilar y extraer datos porque hay una gran cantidad de herramientas disponibles en el mercado comercial.

El estándar XBRL no es un «formato», sino un modelo de datos semántico que se puede utilizar para generar datos en múltiples formatos, incluidos XHTML, JSON, CSV y XML. Diferentes programas de recopilación de datos pueden ser más adecuados para un formato que para otro; por lo tanto, el Departamento de Comercio debe estar preparado para adoptar formatos que sean los adecuados para los datos recopilados. El estándar XBRL es un modelo de datos semántico, en lugar de un formato como XML. Tiene la flexibilidad para facilitar un enfoque que permite más de un formato.

La documentación es importante para garantizar que todas las partes interesadas tengan una comprensión compartida de los datos. El estándar XBRL requiere la creación de una taxonomía (u ontología) que contenga toda la documentación necesaria para todas las partes interesadas, incluidos los conceptos que se pueden informar junto con sus propiedades, etiquetas y referencias; y las relaciones entre esos conceptos, como el matemático y las relaciones padre/hijo. Una taxonomía es un diccionario digital de términos que contiene toda la información necesaria para cualquier persona involucrada en la presentación de informes, la recopilación o el uso de los datos expresados por la taxonomía. Cuando todas las partes interesadas pueden referirse a una sola fuente, como una taxonomía (ontología), tienen una comprensión compartida de lo que se informa, se recopila y, en última instancia, se utiliza.

3. ¿En qué se diferencian los datos brutos, como los datos de las redes de sensores, de los datos derivados, como los datos estadísticos de la Oficina del Censo de EE. UU., en lo que respecta a los estándares de metadatos?

XBRL clasifica diferentes datos en función de las dimensiones. Estos datos pueden encajar en distintas categorías. La mayoría de los datos recopilados por las agencias federales son datos estadísticos o agregados que representan posiciones o saldos en un momento dado, o flujos o actividad durante un período de tiempo, como el PIB de un trimestre. XBRL se refiere a esto como datos basados en hechos. Los conjuntos de datos adicionales se clasifican de la siguiente manera:

● Datos de series temporales (datos que se miden de forma periódica)

● Datos basados en eventos (datos que se miden cuando ocurre un evento, como datos transaccionales)

● Datos basados en referencias (Archivo Maestro de Valores, Listado de Arrendamientos

● Datos posicionales (listado de inventario, listado de empleados)

● Conjuntos de datos que registran la ocurrencia de un evento (entradas de diario)

Los datos de series temporales se recopilan en un intervalo de tiempo regular, ya sea en un momento dado, como las temperaturas del océano, o datos que se recopilan durante un corto período de tiempo, como la carga máxima en una red eléctrica durante una hora determinada. Todos estos datos se capturan mediante una dimensión de período en XBRL. Esta dimensión de período es coherente en todas las presentaciones XBRL a nivel mundial, lo que significa que estos datos son comparables entre conjuntos de datos.

Los datos basados en eventos se producen con poca frecuencia, pero se dimensionan mediante una dimensión basada en eventos. También debe tener una fecha asociada que represente el punto en el que se produjo el evento, que se pueda relacionar con la dimensión del período. Por lo general, captura datos transaccionales, como ventas y compras. También se puede utilizar para eventos no financieros, como el aterrizaje de aviones en un aeropuerto.

Los datos basados en referencias son independientes del tiempo. Estos datos no cambian con el paso del tiempo. Esto incluye conjuntos de datos como una lista de valores alguna vez emitidos, o una lista de contratos que una entidad ha firmado. Con el paso del tiempo los detalles de estos datos no cambian. A menudo, otros conjuntos de datos hacen referencia a estos datos, como los datos transaccionales que hacen referencia a un valor que se vendió.

Los datos de posición son un desglose de los datos por elementos que existían en un momento dado. Esto puede incluir todos los valores que posee una entidad, o todos los detalles de todos los transformadores que posee una empresa de servicios eléctricos en un momento dado.

Los datos de entrada de diario registran cómo una entidad registra realmente un evento y cómo se clasifican los datos en un sistema. Esto solo se aplica a los datos financieros.

Todos los conjuntos de datos anteriores se aplican a los datos reales capturados. La forma en que se definen se describe en la taxonomía XBRL. Cada uno de estos conjuntos de datos tendrá campos y dimensiones asociados. La taxonomía define cómo se relacionan estos campos y cuál es la categorización de los datos.

4. ¿Qué prácticas, normas y consideraciones de uso de licencias de datos debe tener en cuenta el Departamento de Comercio para respaldar el acceso amplio, equitativo y abierto a sus conjuntos de datos y metadatos?

Todos los datos recopilados por el DOC deben tener un formato utilizando un estándar abierto y no patentado para garantizar que los consumidores puedan utilizarlos libremente.

Accesibilidad y recuperación de datos

1. ¿Cómo se pueden hacer más accesibles y valiosos los activos de datos de Commerce para la comunidad de IA (por ejemplo, mejorando el acceso a la API, la capacidad de rastreo web, etc.)?

Cuando los datos se recopilan y se ponen a disposición en un formato estructurado y estandarizado, los archivos notificados se pueden publicar y se puede acceder a ellos a través de fuentes de notificación como RSS para actualizar automáticamente las bases de datos y las aplicaciones de los usuarios. Debido a que los datos estandarizados en formato XBRL se producen y utilizan en todo el mundo, existen numerosas herramientas comerciales y de código abierto que pueden comenzar a consumir estos datos de inmediato. Los datos proporcionados por los reguladores en formato XML personalizado, o en archivos estáticos como PDF, o incluso CSV o Excel, deben manipularse para que se ajusten a la base de datos o herramienta antes de que los datos puedan ser utilizados por los consumidores. Ese costo de preparación de datos se duplica en cada usuario, lo que resulta en costos innecesarios que pueden eliminarse o al menos reducirse significativamente cuando los datos están en un formato estructurado y estándar.

2. ¿Cómo puede el Departamento de Comercio desarrollar portales de datos intuitivos y accesibles que faciliten la navegación y la recuperación de conjuntos de datos?

Es de vital importancia tener un único modelo de datos al que se pueda acceder y consultar, que brinde al usuario una comprensión completa de lo que representan los diferentes conjuntos de datos y cómo se relacionan entre sí. Proporcionar conjuntos de datos discretos con identificadores de datos comunes, pero sin vinculación entre ellos, obliga a los usuarios de los datos a emplear conocimientos previos especializados que no están disponibles en el modelo. Esto lo hace menos útil para los usuarios y los modelos de IA.

El suministro de datos económicos, poblacionales y medioambientales preparados en un formato estandarizado, estructurado y ampliamente utilizado como XBRL permitirá a los mercados comerciales extraer datos de forma rápida y sencilla, utilizando herramientas que ya son capaces de acceder a los datos XBRL. A continuación, los datos del DOC pueden mezclarse fácilmente con otros conjuntos de datos mantenidos por los usuarios para producir resultados de IA sólidos y útiles. El Departamento de Comercio podría proporcionar un portal sencillo para la descarga de datos y una fuente RSS para uso en el mercado; este es el enfoque seguido por la SEC.

4. ¿Qué medidas pueden adoptarse para fomentar interfaces fáciles de usar, que incluyan un etiquetado claro y formatos legibles, para los recursos de datos en línea del Departamento de Comercio?

Los datos preparados en un formato estructurado y estandarizado garantizarán un etiquetado coherente y una comprensión inequívoca de los datos notificados.

Compromiso de la asociación

1. ¿Cómo pueden las partes interesadas de la industria y el mundo académico colaborar con el gobierno para dar forma al diseño y la difusión de datos abiertos listos para la IA?

Las taxonomías XBRL creadas para representar los datos del DOC deben publicarse para que el público pueda dar a conocer su opinión a fin de solicitar la opinión del mercado que utiliza los datos.

2. ¿Cuáles son las posibles áreas de asociación y cómo pueden contribuir la industria y el mundo académico a mejorar la calidad, la integridad y la utilidad de los datos para los fines de la IA?

La industria y el mundo académico están ansiosos por tener acceso a datos altamente granulares, de fácil acceso y económicos para respaldar estudios de investigación, desarrollar estrategias comerciales e identificar riesgos. Proporcionar datos estructurados de código abierto preparados de forma coherente será muy beneficioso para todos los usuarios. Sus aportaciones durante los exámenes públicos de la taxonomía y los exámenes de la calidad de los datos pueden proporcionar un importante ciclo de retroalimentación al DOC para realizar nuevas mejoras en la taxonomía y en las reglas de validación.

Integridad y calidad de los datos

1. ¿Cuáles son las mejores prácticas que las industrias han empleado para mejorar la integridad y la precisión de los datos públicos cuando se utilizan en aplicaciones de IA? ¿Cuáles son las mejores prácticas para la verificación y validación de datos?

¿Cuáles son las mejores prácticas para realizar auditorías periódicas y controles de calidad de los datos utilizados en las aplicaciones de IA?

La integridad de los datos se logra cuando los creadores y usuarios de los datos tienen una comprensión clara y compartida de los datos. La creación de datos en un formato estructurado y estandarizado impone la disciplina necesaria para que los datos sean precisos y transparentes. Un solo punto de datos como el valor 12.277 resaltado en la cuenta de resultados a continuación debe tener las propiedades del hecho que se muestran en los cuadros verdes de la derecha, incrustadas cuando se transporta de una máquina a otra. Incluso los datos menos complejos, como las etiquetas o los bloques de texto, deben tener propiedades comparables relacionadas con el hecho para que una máquina los «lea» y comprenda sin ambigüedades.

La precisión y la capacidad de verificar los datos se pueden lograr cuando el modelo de datos contiene reglas que explican las relaciones entre los hechos reportados. En el ejemplo anterior, un hecho reportado para «Ingresos antes de impuestos sobre la renta» tiene una ponderación de cálculo positiva con «Ventas netas» y una ponderación de cálculo negativa con los diversos componentes de «Costos y gastos». Al establecer estas relaciones en el modelo de datos (la taxonomía u ontología), los preparadores de los datos pueden ejecutar reglas de validación claramente definidas que les alertan cuando no se cumple una regla; Los usuarios de los datos pueden ejecutar las mismas reglas para identificar cuándo un hecho no cumple con una regla requerida. Establecer reglas que se utilicen en todos los componentes de la cadena de suministro fomenta la calidad y la coherencia de los conjuntos de datos.

4. ¿Cómo puede el Departamento de Comercio promover la transparencia en los métodos de abastecimiento y procesamiento de datos para mejorar la confianza y la confiabilidad?

¿Cuál es la expectativa de informar sobre la calidad de sus datos y cómo podemos garantizar que la información se transmita y se presente al usuario final? Se pueden incluir referencias autorizadas y metadatos detallados en la taxonomía para que todos los usuarios de la cadena de suministro tengan la misma «visión» de lo que representa un hecho informado. Los metadatos necesarios para estar conectados a cada concepto deben estar claramente definidos y ser inequívocos.

5. ¿Qué procesos de validación se pueden establecer para mantener y verificar la exactitud y coherencia de los datos?

Como se señaló en la respuesta a la pregunta 1 de esta sección, se pueden establecer reglas de validación sofisticadas que verifiquen la integridad, la razonabilidad, las relaciones económicas, los problemas de señalización y muchas otras situaciones que pueden requerir un examen complejo. Los conjuntos de reglas se pueden proporcionar al mercado y aprovechar en el punto de creación, recopilación y extracción de datos para una verificación múltiple. La granularidad de XBRL se presta a reglas de validación complejas; y los lenguajes de procesamiento de código abierto se utilizan hoy en día para escribir reglas detalladas para los declarantes de la FERC y la SEC para que puedan verificar sus presentaciones antes de las presentaciones regulatorias. Estas reglas han sido muy eficaces a la hora de aumentar la calidad de los datos notificados, como se muestra en los gráficos de errores agregados de presentación en tiempo real4 publicados en la página Calidad de los datos de XBRL EE. UU.

6. ¿Cómo puede el Departamento de Comercio facilitar una documentación de datos completa y transparente para su replicación y análisis?

Cuando se utilizan estándares de datos, respaldados por una taxonomía, la taxonomía proporciona documentación completa y detallada y reglas que proporcionan orientación a los preparadores de datos y a los usuarios. Cuando se actualiza o revisa una taxonomía, para reflejar cambios en los conceptos o orientación sobre qué y cómo informar, esa instrucción se comunica simultáneamente a todos porque la taxonomía es la fuente principal de información.

Gracias de nuevo por la oportunidad de hacer aportes a esta RFI. Estoy disponible para discutir esta recomendación más a fondo o para responder cualquier pregunta que pueda tener. Puede comunicarse conmigo al (917) 582-6159 o Campbell.Pryde@XBRL.US. Espero poder seguir debatiendo este tema con ustedes.

Sinceramente

Campbell Pryde

President and CEO, XBRL US


Publicado originalmente: https://xbrl.us/news/xbrlus-comment-doc-ai/

Deja una respuesta