A medida que los datos y análisis textuales se vuelven cada vez más importantes para la investigación contable (Bochkay et al. 2023), las innovaciones recientes en modelos de lenguaje grandes y el aprendizaje supervisado pueden proporcionar una identificación más sólida y validez interna para diversas tareas de clasificación de textos. Estos métodos de aprendizaje automático se han utilizado hasta ahora para reconocer el sentimiento en grandes volúmenes de divulgaciones financieras no etiquetadas (Frankel et al. 2022; Huang et al. 2023; Siano y Wysocki 2021). En este estudio, ajustamos FinBERT para reconocer temas contables dentro de las divulgaciones.
Una gran cantidad de literatura encuentra que los temas específicos de contabilidad están significativamente asociados con determinantes y / o resultados en las mismas áreas temáticas. Estos estudios utilizan datos clasificados por agregadores de datos, datos clasificados manualmente o un método de aprendizaje automático no supervisado (LDA) para clasificar los temas. Demostramos que nuestro modelo puede clasificar de manera más eficiente, completa y precisa los temas contables en grandes volúmenes de divulgaciones y, lo que es más importante, supera a la LDA comúnmente utilizada. Después de demostrar este desempeño, proporcionamos tres ejemplos de divulgaciones que se pueden clasificar en temas contables con nuestro modelo. Específicamente, encontramos que las notas etiquetadas a medida para los estados financieros, la sección MD&A del 10-K y la sección de factores de riesgo del 10-K contienen información significativa específica del tema que es predictiva de resultados contables específicos. Cada configuración es muy importante, ya que el 62 por ciento de las observaciones del año de la empresa utilizan al menos una etiqueta XBRL personalizada, y todas las empresas divulgan la sección MD&A y factor de riesgo.
Al igual que otros estudios que proponen un nuevo modelo, nuestro estudio está sujeto a varias limitaciones. Para ajustar un modelo de lenguaje grande para realizar una nueva tarea posterior, los investigadores necesitan algunos conocimientos de programación, así como recursos informáticos significativos. Sin embargo, una vez que el modelo se ajusta como el modelo de Huang et al. (2023) es para el sentimiento y nuestro modelo es para temas de contabilidad, estos recursos son menos limitantes. Además, inherente a un enfoque de aprendizaje automático supervisado es el uso de datos etiquetados para reconocer las mismas etiquetas en nuevos datos textuales. Por lo tanto, nuestro enfoque no identificará temas nuevos u ocultos a menos que esté capacitado para hacerlo. A pesar de estas limitaciones, creemos que nuestro modelo puede ayudar a los investigadores y profesionales interesados en identificar información relevante y consistente sobre temas contables a partir de grandes volúmenes de datos textuales.