El papel de la legibilidad de la máquina en un mundo de IA
Scott W. Bauguess
Economista jefe Adjunto y director Adjunto, División de Análisis Económico y de Riesgos
Boston, Massachusetts
3 de mayo de 2018
Discurso de apertura de la SEC:
Conferencia de Gestión de la Información Financiera (FIMA) 2018
Gracias, Dan [Knight] por la amable introducción.
Es un placer hablar hoy en la Conferencia de Gestión de la Información Financiera 2018. Durante más de una década, este foro se ha utilizado para avanzar en la utilidad y el uso de los datos en la industria de servicios financieros. Y cada año crecen los desafíos y oportunidades de hacerlo. Los avances tecnológicos son responsables de muchos cambios recientes en los métodos y prácticas del mercado. El principal de ellos es el aumento de las máquinas en la automatización de tareas de memoria. Y también de muchas tareas complicadas. Debido a que la dirección humana no se requiere explícitamente, los métodos analíticos subyacentes a la tecnología han dado lugar al concepto de aprendizaje automático. Esto también ha alimentado la idea de que la inteligencia artificial finalmente ha llegado.
Esta mañana, quiero compartir con ustedes algunas reflexiones en este ámbito, en particular en lo que se refiere al papel de los datos reglamentarios. Pero antes de hacerlo, debo recordarles que las opiniones que expreso hoy son mías y no reflejan necesariamente las opiniones de la Comisión o de su personal. [1]
La primera vez que hablé públicamente sobre el uso del aprendizaje automático por parte de la Comisión fue hace más de 3 años. [2] En ese momento no podía imaginar completamente lo que haría tanto para los reguladores como para los participantes del mercado. Desde entonces, han surgido dos nuevos campos de práctica: «RegTech» y «SupTech», abreviatura de Tecnología Regulatoria y de Supervisión. Cada uno utiliza métodos de aprendizaje automático para disminuir la carga de cumplir o supervisar una amplia gama de requisitos regulatorios en los mercados financieros. Y aunque ninguno de los dos campos ha alcanzado la madurez, ambos ofrecen una promesa significativa a través de un mejor funcionamiento del mercado y una mayor eficiencia operativa.
En la Comisión estamos aplicando actualmente métodos de aprendizaje automático para detectar posibles faltas de conducta en el mercado. [3] Muchos de los métodos son de código abierto y fáciles de implementar para aquellos capacitados en ciencia de datos. No es necesario confiar en soluciones propietarias, proveedores cautivos o soporte complicado de terceros para el éxito del análisis de datos. Esta libertad ha impulsado la rápida innovación en la SEC, y sospecho que también entre sus organizaciones.
Pero todos todavía enfrentamos desafíos significativos en la adopción de estos métodos emergentes. Identificar el entorno informático adecuado es uno de ellos. Estoy seguro de que la pregunta «¿debo pasar a la nube o mantener mis análisis en las instalaciones?» no es ajena a nadie en esta sala. Desarrollar el capital humano adecuado es otro. Todo el mundo sabe que necesita un buen científico de datos, incluso si no está del todo claro cómo definir lo que uno es, y mucho menos encontrarlo.
Pero hay otro desafío que creo que será más duradero. El éxito de la nueva tecnología actual depende de la legibilidad de la máquina de la información relevante para la toma de decisiones. Y no me refiero solo a datos numéricos, sino a todo tipo de información. Esto incluye revelaciones narrativas y análisis que se encuentran en la palabra escrita. También incluye información contextual sobre la información, o datos sobre los datos, a menudo denominados «metadatos». Los métodos avanzados de aprendizaje automático de hoy en día pueden extraer información increíblemente valiosa de este tipo de información, pero solo cuando está disponible en formatos que permiten la ingestión a gran escala de manera oportuna y eficiente.
Humanos versus Máquinas
El personal de la SEC, en particular el personal de la División de Análisis Económico y de Riesgos (también conocido como «DERA»), ha reconocido durante mucho tiempo lo esencial que es tener datos utilizables y de alta calidad.
La cantidad de datos relevantes para la decisión de las divulgaciones de los registrantes de la SEC es enorme. El sistema de archivo EDGAR contiene información financiera que cubre más de $ 82 billones de activos bajo administración por asesores de inversión registrados. Alberga estados financieros de empresas que cotizan en bolsa con una capitalización de mercado agregada de aproximadamente $ 30 billones. Y desde su creación, ha habido más de 11 millones de presentaciones de más de 600,000 entidades informantes que utilizan 478 tipos de formularios únicos. [4] Solo durante el año calendario 2016, hubo más de 1.500 millones de solicitudes únicas de esta información a través del sitio web de SEC.gov. [5]
Pero no todos los datos contenidos en las presentaciones de la SEC son fácilmente accesibles desde una perspectiva analítica de datos. Por diseño, muchos de los formularios y presentaciones requeridos se basan en la narrativa y están destinados a la legibilidad humana. En muchos casos, la información basada en números no está estructurada, lo que requiere procedimientos manuales para extraerla y utilizarla. Lo mismo es cierto para las divulgaciones basadas en texto.
Estas características reflejan un sistema de informes diseñado mucho antes de la aparición de los métodos de aprendizaje automático. Desde entonces, su llegada ha complicado el uso del sistema de archivo EDGAR. En un día en particular, hasta el 85 por ciento de los documentos visitados son por bots de Internet. [6] Pero eso no significa que la Comisión no se haya estado preparando para este día. La primera regla que exige una divulgación legible por máquina se remonta a 2003. [7] Y desde entonces se han propuesto o adoptado más de una docena de otras normas que requieren una divulgación estructurada. [8]
Abordar los requisitos únicos del procesamiento automático de divulgaciones financieras se aborda regularmente a través del proceso de elaboración de normas de notificación y comentarios. Y esto se hace cada vez que se considera un cambio en los requisitos de divulgación del solicitante de registro. En ocasiones, los humanos y las máquinas pueden tener necesidades competitivas. Pero en todas las ocasiones, la Comisión ha tratado de preservar la capacidad de un inversor para abrir fácilmente un folleto, un informe anual u otra presentación del solicitante de registro para evaluar el mérito de las divulgaciones requeridas.
La innovación clave de nuestra tecnología de divulgación en desarrollo es hacer que la accesibilidad de la máquina sea invisible para la representación de un documento para la legibilidad humana. Esto se ilustra bien con una regla recientemente propuesta que requeriría que las compañías informantes de la SEC presenten sus informes periódicos en Inline XBRL. [9] Actualmente, los archivadores informan por separado de una versión html legible por humanos de un informe periódico y una versión legible por máquina en un formato de lenguaje de informes empresariales extensible (XBRL). Esta regla propuesta, si se adopta, combinaría los dos requisitos y crearía un solo documento diseñado para ser leído igualmente bien por humanos y máquinas.
Desde una perspectiva de legibilidad mecánica, los datos de los estados financieros, las notas al pie y otra información clave contenida en una presentación Inline-XBRL se pueden extraer, procesar y combinar fácil y automáticamente con datos similares de otras presentaciones 10-K. Esta agregación es posible porque cada uno de los elementos de datos extraíbles o secciones de información textual se etiqueta utilizando definiciones de una taxonomía común de elementos de informe.
Desde una perspectiva de aprendizaje automático, estos datos estandarizados se pueden combinar con otra información financiera relevante y acciones de los participantes en el mercado para establecer patrones que puedan justificar una mayor investigación. Y eso, en última instancia, puede conducir a predicciones sobre el posible comportamiento futuro del solicitante de registro. Estos son precisamente los tipos de algoritmos que el personal de DERA está desarrollando actualmente.
Desde una perspectiva humana, puedes verlo por ti mismo. [10] Más de 100 empresas ya están presentando voluntariamente ante la SEC utilizando esta tecnología. En SEC.gov estos archivadores tienen una etiqueta «iXBRL» junto a la versión html de su archivo 10-K. Haga clic en uno para ver cómo funciona un informe periódico con características interactivas que de otro modo no estarían disponibles en una presentación html.
Desde una perspectiva general, este es un buen lugar para hacer una pausa y recordar a todos que la SEC está fundamentalmente comprometida a garantizar que todos los inversores y participantes del mercado puedan acceder a la información necesaria para tomar decisiones financieras informadas. Pero otro aspecto del compromiso de la agencia con la protección de los inversores implica el uso de análisis de datos sofisticados para garantizar que tengamos una visión del mercado, particularmente a medida que buscamos una posible mala conducta en el mercado.
Algunos mitos que disipar sobre los estándares de informes legibles por máquina
A lo largo de los años, hemos encontrado muchas oportunidades de aprendizaje en la búsqueda de hacer que la información en las divulgaciones de la SEC sea más accesible para usos cuantitativos. En muchos casos, hay percepciones comunes sobre el acceso a los datos y la información que están equivocadas, o incluso equivocadas. Me gustaría compartir algunos de ellos con ustedes aquí. De alguna manera, puede parecer que estoy pisando terreno viejo, planteando problemas que enfrentamos desde los primeros días de la legibilidad de la máquina. Pero creo que estos conceptos erróneos, estos mitos, persisten sin importar la novedad de la tecnología que aprovecha los datos. Y los ignoramos a riesgo de una mayor innovación.
Mito #1: El acceso electrónico es equivalente a la legibilidad de la máquina.
A menudo se asume que, si un documento es accesible electrónicamente, también debe ser legible por máquina. Esto no es cierto. El nombre erróneo es el resultado de la confusión sobre el término «acceso electrónico», que muchos creen que significa «digitalmente» accesible. Cuando EDGAR se lanzó por primera vez a mediados de la década de 1990, los inversores esperaban descargar documentos físicos electrónicamente a través de Internet. Esto marcó una gran innovación sobre las visitas a las salas de lectura de la biblioteca y la microficha. El acceso en tiempo real a la información revolucionó el procesamiento de la información en los mercados financieros.
Pero el hecho de que un documento se pueda descargar a través de Internet no significa que pueda ser ingerido por un algoritmo informático. Un documento almacenado en formato electrónico, y disponible para su descarga a través de Internet, puede ser impenetrable para el procesamiento de la máquina. Particularmente si se escanea, se almacena en un formato propietario o se ve acosado por la configuración de seguridad. Y si no hay un formato de informe que le diga a la máquina lo que está leyendo, entonces puede ser imposible hacer que la información se ingiera.
Sin duda, el acceso electrónico es un componente necesario de la legibilidad de la máquina. Pero es una condición insuficiente. Para que los algoritmos avanzados de aprendizaje automático generen información única, debe haber una estructura en la información que se lee.
Mito #2: La Comisión es la única que desarrolla los estándares de presentación de informes incorporados en sus reglas.
Esto nos lleva a otro mito entre algunos observadores del mercado: que los formatos de informes son ad hoc y no estándar. Por el contrario, se presta mucha atención a los formatos de presentación de informes durante el proceso de elaboración de normas de notificación y comentarios. Y bajo la Ley Nacional de Transferencia y Avance de Tecnología, también conocida como la «NTTAA», las agencias federales están obligadas a utilizar estándares técnicos desarrollados por organismos voluntarios de estándares de consenso. [11] Es decir, tomamos prestado de estándares desarrollados y/o respaldados por grupos externos, siempre que sea posible.
Esto es lo que hizo la Comisión con la adopción del XBRL para la presentación de informes sobre los estados financieros en 2009, que es un formato estándar abierto que está ampliamente disponible para el público libre de regalías sin coste alguno. [12] El estándar se originó a partir de una iniciativa de AICPA (Instituto Americano de Contadores Públicos Certificados) y finalmente se le dio su propia posición organizativa, XBRL International, que ahora tiene más de 600 miembros. Y XBRL está ahora en uso en más de 60 países. [13]
XBRL no es la única norma de información desarrollada externamente que la Comisión ha considerado. En 2015, la Comisión propuso normas para exigir que los repositorios de datos de swaps pusieran a disposición datos de swaps basados en la seguridad de acuerdo con los esquemas que se publicaron en el sitio web de la Comisión. [14] El primer estándar internacional de la industria al que se hizo referencia fue «FpML» (Financial products Markup Language), desarrollado originalmente bajo los auspicios de la International Swaps and Derivatives Association («ISDA»). El segundo fue «FIXML» (Financial Information eXchange Markup Language), que es propiedad y está mantenido por la comunidad comercial FIX. [15]
Una de las innovaciones de esta propuesta, y que me parece personalmente satisfactoria, es que la Comisión propuso adaptarse a ambas normas industriales. Si bien no son interoperables, la Comisión trató de maximizar la flexibilidad en materia de cumplimiento mediante el desarrollo de un modelo de datos común que utiliza como base la superposición existente de las coberturas actuales de cada norma de datos de intercambio basados en la seguridad. Por lo tanto, los registros de transacciones de swap basados en la seguridad estructurados de acuerdo con el esquema FpML o FIXML podrían ser agregados, comparados y analizados inmediatamente por la Comisión.
Mito # 3: Los inversores minoristas no necesitan datos legibles por máquina.
Mito número tres: los inversores minoristas no necesitan datos legibles por máquina. Es un estribillo desafortunado pero común entre algunos observadores del mercado que el inversor minorista promedio no se beneficia de la divulgación de datos estructurados, como las realizadas utilizando XBRL. Esto se traduce de manera más amplia para significar que los datos legibles por máquina son innecesarios para la mayoría de los inversores. Llegan a esta conclusión porque el procesamiento de los archivos puede requerir software especializado y agregar la información en conjuntos de datos utilizables para el análisis requiere habilidades especializadas. Y como resultado, solo los inversores sofisticados (y ricos en recursos) se benefician.
Lo que esta afirmación ignora es que las divulgaciones estructuradas permiten a los proveedores externos poner esta información a disposición de los inversores minoristas a bajo costo o incluso sin costo. Las divulgaciones legibles por máquina alimentan muchas herramientas financieras en línea populares entre los inversores. No busque más allá de Yahoo o Google Finance. Informan información de estados financieros de fácil acceso de empresas públicas. Y si los inversores desean que estos datos se organicen entre los solicitantes para su comparación y análisis, pueden acceder a ellos directamente desde SEC.gov. El personal de la Comisión reduce regularmente la carga de acceder y analizar los datos de los formularios y las presentaciones al hacer que los conjuntos de datos condensados estén disponibles en el sitio web de la SEC. Estos datos son incluso utilizados por grandes agregadores de datos. Google Cloud Platform incluyó recientemente el conjunto de datos públicos de la SEC en su plataforma en la nube. [16]
Entonces, si bien puede ser cierto que muchos inversores no utilizan directamente datos estructurados, el hecho es que consumen los datos aguas abajo. Tal acceso sería imposible sin datos estructurados. Esto es particularmente cierto para las empresas de informes más pequeñas de la SEC. Sus finanzas escaparían a la cobertura de los proveedores de datos y, por lo tanto, de los analistas de mercado, si se requiere que se extraigan manualmente de las presentaciones. Este fue el caso antes del comienzo de la presentación de informes de XBRL en 2009. En ese momento, solo el 70% de las empresas informantes de la SEC recibieron cobertura de los principales proveedores de datos. [17] Las personas sin cobertura eran predominantemente empresas más pequeñas, empresas de escala de inversión insuficiente para merecer el costo de recopilar manualmente la información.
Mito # 4: Requerir estándares de informes legibles por máquina garantiza datos de alta calidad.
En cuanto al mito número cuatro: los estándares de informes legibles por máquina garantizan datos de alta calidad. No es verdad. A pesar de las afirmaciones de lo contrario, los algoritmos informáticos no pueden corregir los datos mal informados; solo pueden maximizar su utilidad. A menos que las entidades informantes cumplan tanto con la letra como con el espíritu de los requisitos de informes promulgados, un estándar bien diseñado puede ser insuficiente para que el análisis avanzado de hoy en día genere información única sobre los comportamientos del mercado.
Para dar un ejemplo de lo que quiero decir, considere un campo de fecha en un formato de divulgación estructurado. Un archivador puede cumplir con el estándar de informes ingresando una fecha válida, pero si la fecha no coincide con el evento o la acción que se informa, entonces un algoritmo de aprendizaje automático evaluará la información incorrecta. Ninguna cantidad de validación de formato de datos puede corregir un error de informe.
Un ejemplo más sutil es el uso de extensiones a taxonomías estándar. En particular, ningún lenguaje de presentación de informes puede explicar razonablemente cada acción del solicitante de registro. Por lo tanto, se hacen disposiciones, por ejemplo, con los informes XBRL, para permitir a los solicitantes ampliar la taxonomía estándar para reflejar elementos no estándar. Pero si se utiliza la discreción para crear una extensión cuando se debe usar razonablemente un elemento de informe estándar, entonces la comparabilidad entre los solicitantes disminuye innecesariamente.
Los algoritmos avanzados de aprendizaje automático de hoy en día han hecho mucho para extraer información utilizable de datos menos que perfectamente informados. Algunas de estas innovaciones son notables. Para dar un ejemplo, en la SEC, si un símbolo de ticker se informa erróneamente, tenemos algoritmos que pueden sugerir el símbolo correcto a la luz de otra información reportada. Y viene con una puntuación sobre la probabilidad de que el ticker alternativo sea correcto.
Pero desde la perspectiva de la supervisión del mercado y de los inversores, no hay sustituto para informar datos precisos en primera instancia. Con este fin, el personal de la Comisión informa de observaciones sobre la calidad de la información que se comunica para ayudar a facilitar el cumplimiento tanto de la letra como del espíritu de las normas. [18]
Mito #5: Ya no necesitamos las opiniones del público.
El mito final: no necesitamos saber de ti. Aquellos que conocen mejor los datos a menudo simplemente asumen que conocemos sus puntos de vista y haremos lo «correcto» cuando se trata de implementar nuevos requisitos de informes. He mencionado anteriormente cómo la Comisión considera una serie de opciones tecnológicas y de estructuración de datos al considerar la divulgación de información financiera nueva o modificada. La agencia generalmente lo hace en forma de reglamentación de notificación y comentario. Es vital que escuchemos a los consumidores de datos, a los expertos que mejor saben cómo se podrían usar los datos. Porque si bien tenemos una considerable experiencia interna, no hay sustituto para escuchar directamente al público.
Esta necesidad persiste independientemente del «sujeto» de la divulgación. Ya sea que la agencia esté abordando divulgaciones de compañías públicas, corredores de bolsa, asesores de inversiones, agencias de compensación o agencias de calificación crediticia, los problemas fundamentales que hacen que los datos sean útiles y utilizables permanecen. Escuchamos mucho de los participantes del mercado sobre el valor de la información que se divulga. Escuchamos con mucha menos frecuencia sobre la forma en que debería o podría divulgarse. Como expertos en el campo de la gestión de datos, les insto a todos a que se tomen el tiempo para dar a conocer sus pensamientos. Y espero con interés escuchar cuáles son.
Conclusión
Comencé estos comentarios reconociendo que lo que ha impulsado la revolución del aprendizaje automático son los datos. Y no cualquier dato, sino datos diseñados para responder a las preguntas que hacen los participantes del mercado. Los algoritmos sofisticados dependen de que estos datos sean de alta calidad y sean legibles por máquina. Cuando se aplica a los campos emergentes de Suptech y Regtech, existe un tremendo potencial para mejorar el cumplimiento normativo. Las mejoras pueden tener un costo menor para los solicitantes de registro. Junto con todos ustedes, espero con interés los beneficios futuros para los reguladores, inversores y analistas de mercado.
[1] La Comisión de Bolsa y Valores se exime de responsabilidad por cualquier publicación o declaración privada de cualquier empleado o Comisionado de la SEC. Este discurso expresa las opiniones del autor y no refleja necesariamente las de la Comisión, los Comisionados individuales o los miembros del personal. Un agradecimiento especial a Vanessa Countryman, Hermine Wong, Michael Lim, Mike Willis y Pam Urban por sus valiosos comentarios y contribuciones.
[2] Scott W. Bauguess, The Hope and Limitations of Machine Learning in Market Risk Assessment (6 de marzo de 2015), http://cfe.columbia.edu/files/seasieor/center-financial-engineering/presentations/MachineLearningSECRiskAssessment030615public.pdf.
[3] Scott W. Bauguess, The Role of Big Data, Machine Learning, and AI in Assessing Risks: a Regulatory Perspective, OpRisk North America (junio de 2017).
https://www.sec.gov/news/speech/bauguess-big-data-ai.
[4] Análisis INTERNO de DERA utilizando archivos de índice maestro EDGAR (https://www.sec.gov/Archives/edgar/full-index/)hasta abril de 2017. Presentaciones estimadas basadas en el número de acceso a documentos únicos durante este período; entidades informantes estimadas basadas en claves únicas del índice central de la SEC asociadas con las presentaciones; y el número estimado de tipos de documentos excluye las presentaciones enmendadas.
[5] Análisis interno DERA del tráfico web SEC.gov.
[6] Análisis INTERNO DERA del tráfico web SEC.gov.
[7] Presentación electrónica obligatoria y publicación en el sitio web para los formularios 3, 4 y 5,comunicado No. 33-8230 (7 de mayo de 2003) [68 FR 37179], https://www.sec.gov/rules/final/33-8230.htm.
[8] Para una historia abreviada de las iniciativas de divulgación estructurada en la SEC, véase https://www.sec.gov/page/osdhistoryandrulemaking.
[9] Inline XBRL Filing of Tagged Data, Release No. 33-10323 (1 de marzo de 2017) [82 FR14282], https://www.sec.gov/rules/proposed/2017/33-10323.pdf.
[10] Consulte el ejemplo de presentación del Formulario 10-Q en: https://www.sec.gov/ixviewer/samples/bst/out/bst-20160930.htm
[11] Ley Nacional de Transferencia y Avance de Tecnología (NTTAA) 15 USC 3701 (1996) («… Las agencias y departamentos federales utilizarán normas técnicas que sean desarrolladas o adoptadas por organismos voluntarios de normas de consenso, utilizando dichas normas técnicas como un medio para llevar a cabo objetivos de política o actividades determinadas por las agencias y departamentos.»)
[12] Interactive Data to Improve Financial Reporting, Release No. 33-9002 (30 de enero de 2009), p. 149 [74 FR 6776] («También observamos que XBRL es un formato de ‘estándar abierto’ y sus especificaciones tecnológicas están ampliamente disponibles para el público libre de regalías sin costo alguno.»), https://www.sec.gov/rules/final/2009/33-9002.pdf.
[13] Historia de XBRL: Karen Kernan, XBRL: La historia de nuestro nuevo idioma, https://www.aicpa.org/content/dam/aicpa/interestareas/frc/accountingfinancialreporting/xbrl/downloadabledocuments/xbrl-09-web-final.pdf.; información sobre el consorcio XBRL: https://www.xbrl.org/the-consortium/about/membership-list/.
[14] Establecimiento de la forma y la manera con que los repositorios de datos de intercambio basados en seguridad deben poner a disposición de la Comisión los datos de intercambio basados en seguridad,comunicado n.º 34-76624 (11 de diciembre de 2015) [80 FR 79757], https://www.sec.gov/rules/proposed/2015/34-76624.pdf.
[15] Véase https://www.fixtrading.org/standards/.
[16] Véase https://console.cloud.google.com/launcher/details/sec-public-data-bq/sec-public-dataset?project=gentle-avatar-200310&folder&organizationId.
[17] Interactive Data to Improve Financial Reporting, Release No. 33-9002 (30 de enero de 2009), pps. 125-126.
[18] Véase, por ejemplo, «Observaciones, orientación y tendencias de persona https://www.sec.gov/structureddata/osdstaffobsandguide.
Publicado originalmente: https://www.sec.gov/news/speech/speech-bauguess-050318