大数据金融(大数据金融案例分析报告)


编译|康瑜欣 编辑|Via


当今时代,社会中的各个部门都走入了数字时代。而数字时代本身也对各个部门造成了巨大的颠覆。金融作为一个极具数据性的领域,首当其冲地被所谓大数据革命所影响。比如,众多商学院在开设传统MBA(Master of Business Administration)项目的同时,也开始开设数据时代下的MBA(Master of Business Analytics)项目。


在金融学术界,大数据对学术研究的影响也逐渐显露,那么,大数据给金融研究和实践带来的机遇和挑战是什么?金融业的大数据究竟意味着什么?经济学家如何从大数据革命中获益?大数据为金融学者提供了新工具还是新问题?


来自宾夕法尼亚大学的Itay Goldstein、卡耐基梅隆大学的Chester S Spatt和伊利诺伊大学香槟分校的叶茂在金融学国际顶级期刊《The Review of Financial Studies》上刊发论文“Big Data in Finance”,论文从多个角度剖析了大数据为金融带来的革新式变迁,为研究学者们提供了大数据背景下的新研究思路和研究路径。


文章于2021年4月正式刊发。



01

大数据在金融研究中有哪些特征?


很明显,在金融研究中的大数据应该不同于工程和统计中使用的定义。在工程与统计中,学者们改进、推动大数据底层技术的发展,而在金融领域,学者们更多地将大数据作为研究工具解决问题。基于此,作者将大数据拆分为三个属性:


大数据


顾名思义,大数据首先定义在其规模之大。比如,在证券交易市场中每日产生的数据无论从绝对规模上还是相对规模上都比其他的场景多得多。在传统的金融学研究中,学者常常通过抽样、框选样本等方法构造更加易于分析和操作的“小数据”,但在计算能力获得巨大提升、对原始数据处理变得可能的当下,如果处理大数据能捕获“小数据”中更为全面、清晰、无偏差的信息,那么学者们自然会考虑研究“大数据”。

高维度:“大数据”不仅仅是规模


第二个特性意味着数据有许多与样本大小相关的变量。机器学习通常被认为是大数据研究的一个标志,它是解决维度灾难的一种常见方法,并且越来越多地用于金融研究。通常,机器学习目前能够帮助金融学者们解决的问题包括:充分考虑实际经济问题中涉及的大部分变量;研究变量之间高度或者交互的函数关系;完成预测(预测在经济上有时比统计推断更重要)。

复杂结构:数据格式的变化和扩充


除了学者们已经熟悉的GDP、汇率、利率等等结构化数据,类似文本、图片、视频、音频和语音的非结构化数据同样在经济领域中占有很高比重。


如果非结构化数据能够衡量结构化数据遗漏的经济活动性,那么研究这些非结构化数据就会创造更多的价值。非结构化数据通常本质上是高维的。分析数据的第一步通常是从非结构化数据中提取结构化的特征。通常,研究人员借助深度学习和计算机科学开展相关工作,例如,可以使用自然语言处理(NLP)从文本中提取语义信息,使用语音识别从语音和音频中识别音调信息,使用计算机视觉(CV)从图像和视频中识别地理或面部信息。


综上,大数据不仅与数据的大小有关,还与特征有关。在这三个特征上的任一发展,都有可能推动金融研究的大数据特性。



02

现存立足于大数据的金融研究文献梳理


为更加具体地阐述上述观点,作者借助六篇现存文献介绍了目前金融学研究中的大数据使用情况。


论文 1

Erel et al. (2021)表明,机器学习可以超越目前由人类进行的新董事决策。他们证明,与样本外测试中现实的候选人库相比,算法能够比人类更加精准和稳定地预测董事未来表现。并且通过对机器学习算法的解释,他们分析了算法选择董事的逻辑。

本文中的分析是机器学习方法在公司财务中的首次应用,展示了这些方法在金融领域的广泛吸引力。作者证明了算法能够稳定地预测董事绩效。他们将这些有效性归因于对非线性和交互项的考察,这是预测未来绩效的关键。这些结果为未来的金融学研究提出了有趣的问题,也是一个理解变量之间的非线性与交互性的重要例子。

论文 2

作者试图量化企业文化这一概念,并理解其对企业的影响。通过使用NLP模型从财报电话会议记录中提取企业文化的关键特征。作者使用半监督机器学习方法和单词嵌入进行文本分析,并将企业文化分解为创新、诚信、质量、尊重和团队合作五个维度。

在大数据出现之前,对于文字和语音这些非结构化数据的考察是几乎不可能的,尤其是在大规模、大样本集下。但是机器学习、深度学习等大数据算法为这些研究提供了基础性的帮助。

论文 3

Easley et al.(2021)关注金融领域中的微观经济结构,分析了基于计算机算法的交易是否会影响在交易之前制定的市场微观结构措施有效性。

具体而言,Easley et al.(2021)研究了六种现存的市场微观结构是否能够预测价格和流动性的未来价值。作者发现,在高频交易和基于计算机算法的交易兴起后,答案仍然是肯定的。

然而,做出此类预测的函数形式取决于应用的交易算法。例如,对于在同一资产内进行预测,简单的逻辑回归的性能几乎与复杂的机器学习技术一样好。对于跨资产进行预测,机器学习的效果要远远好过逻辑回归。这就表明,在某些“人类交易员”难以捕捉信息的场景下,机器学习对于特征和关系的捕捉能力仍然能够带来经济收益。

论文 4

Anandetal.(2021)通过分析数据集以确定机构交易商与其经纪人之间的机构冲突。要研究此类机构冲突,了解经纪人本身特征是非常重要的。但这些特征一般并不公开,而且自我报告的数据又会遭受损耗或样本偏见问题。所以作者使用更为客观的OATS数据(来自芬兰的全面监管数据)来克服这两个挑战。

作者发现,看上去交易量多的经纪人实际表现则较差,这些经纪人通过增加自身市场份额和经济费用收入来获取私人利益,并不一定会完全为其客户考虑。在大数据工具产生之前,关于此类研究只能考虑总样本的一个子样本集,这不免会损失信息。而使用大数据工具,不仅可以在总样本集下考虑数据全貌,还可以通过设计实验检验因果关系。

论文 5

Benamar, Foucault, and Vega (2021)使用大数据工具分析金融市场交易背景下的大型数据集。该文的另一个重要贡献是处理非结构化数据。与现存文献的做法不同,该文作者依靠数据库将原始和非结构化数据预处理为结构化数据。并以此研究金融市场交易的不确定性。

作者表明,信息并不能很好地代表不确定性,对信息的搜索并不能完全弥补交易中的不确定性。

因此,在宏观经济和货币政策公告信息到来之前,对未来利率的信息需求更强,这意味着美国国债收益率表现出更高的不确定性和对货币政策公告信息更高的敏感性,而且作者通过使用信息点击率刻画信息搜索行为,这突出了高频数据在衡量信息需求和不确定性方面的预测能力。

论文 6

Giglio、Liao and Xiu(2021)使用机器学习方法对资产定价进行了深入的探讨。

他们介绍了解释收益横截面差异的新方法,即试图确定“因子动物园”中的哪些因子为收益横截面增加解释力,或者确定数千只基金中的哪些基金可以产生正向收益。其使用的核心算法——矩阵补全(Matrix completion)就是一种机器学习技术,帮助插值缺失数据和分析潜在因素。

作者进一步用对冲基金数据集说明了其框架对于横截面收益的高度解释力,同时也阐述了这种新模型对其他资产的定价能力。



03

未来的大数据研究将走向何方?


本文中提到的六篇论文可以为讨论金融领域的大数据提供一个起点。作为一个新兴领域,大数据和机器学习为金融领域提出了许多新问题。作者进一步从四个方面对未来大数据在金融领域中的应用进行阐述。


1 从使用机器学习、到理解机器学习


到目前为止,大多数研究都使用了机器学习,包括之前提到的论文,都使用机器学习来理解人类行为。金融学中机器学习的一个有发展前景的领域是当决策者是机器时,对人类决策的补充和修正。正如心理学文献对人类行为偏差的洞察催生了行为金融学领域一样,对算法行为(或机器心理学)的洞察也可能将催生类似的算法行为金融学研究。


2 大数据革命的对金融个体造成的影响


一旦机器成为金融中的决策者,其他非机器的金融个体会改变他们的行为吗?例如,随着投资者越来多使用自动化的算法交易,被交易的公司是否会越来越多地追求短期项目以迎合算法?“大数据”的出现是因为企业出于管理需求,还是因为投资者出于投资需求?


3 大数据为不同金融个体造成影响的异质性


大数据的影响可能并不总是积极的。虽然大数据为机构和个人投资者提供了更多的信息和预测力。但也有学者表明,社会媒体可以将价格推离基本面,从而扭曲金融均衡。因此大数据对不同类型金融个体的影响及其对社会的总体效应将是一个有趣研究问题。


4 更复杂的数据金融


大数据从分析结构化的交易和报价等数据开始。最近的发展允许研究人员使用自然语言处理(NLP)从文本等非结构化数据中提取信息。一个很有前途的研究方向是分析更复杂的结构数据,如音频、视频和图像,这些更复杂的数据有可能会提供更多关于金融运行的见解,而这些信息不会存在于传统的结构化简单数据中。


参考文献

[1] Erel, I., L. Stern, C. Tan, and M. S. Weisbach. 2021. Selecting directors using machine learning. Review of Financial Studies 34:3226–64.

[2] Li, K., F. Mai, R. Shen, and X. Yan. 2021. Measuring corporate culture using machine learning. Review of Financial Studies 34:3265–315.

[3] Easley, D., M. Lopez de Prado, M. O’Hara, and Z. Zhang. 2021. Microstructure in the machine age. Review of Financial Studies 34:3316–63.

[4] Anand, A., M. Samadi, J. Sokobin, and K. Venkataraman. 2021. Institutional order handling and broker-affiliated trading venues. Review of Financial Studies 34:3364–402.

[5] Benamar, H., T. Foucault, and C. Vega. 2021. Demand for information, uncertainty, and the response of US Treasury securities to news. Review of Financial Studies 34:3403–55.

[6] Giglio, S., Y. Liao, and D. Xiu. 2021. Thousands of alpha tests. Review of Financial Studies 34:3456–96.

房贷利率lpr是什么意思(最新房贷利率lpr什么意思)
上一篇 2023年01月25日
基金怎么投诉经理(基金经理实名举报)
下一篇 2023年01月25日
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 liqiaoqiant@qq.com 举报,一经查实,本站将立刻删除。

相关推荐