【新智元导读】金融大鳄索罗斯日前发表评论,他看空中国经济,目前正在做空亚洲货币。今天,《人民日报》海外版刊文斥责索罗斯的“唱空论”。那么,中国情况究竟怎样?芬兰和德国的研究人员用一项采用了深度学习的算法,成功“预测”了2007年和2014年的金融危机。这个算法和模型也值得中国研究机构借鉴,进一步研究或能对中国金融风险评估、驳斥索罗斯唱空论有所助益。
曾经打垮英格兰银行、狙击泰铢及港元,做空日元的金融大鳄索罗斯,前些日子在达沃斯世界经济论坛上表示,他看空中国经济前景,正在做空亚洲货币。索罗斯称,中国经济“硬着陆”无法避免,现在中国的状况像极了2007-2008年次贷危机前的美国。2016年4月25日,《人民日报》海外版发文,斥责“国际资本大鳄”唱空论:中国经济不是一唱就空的。
实际上,只要有了正确的信息,一些危机事先可以被预测。下面这项采用了深度学习的算法,或许值得中国金融分析机构借鉴,进一步研究或能对中国金融风险评估以及反驳索罗斯的“唱空论”有所助益。
近几十年来,学术研究已经证实,许多金融危机到来之前都有迹象可循,比如负债和抵押的急速增长。然而,经济学家和政府相关政策制定者一次又一次忽略了这些信号,当然部分原因也是由于金融市场十分复杂。
那么,计算机能比人类更好地做出预测吗?在一项新的研究中,计算机科学家Samuel Rönnqvist 和 Peter Sarlin 使用一项采用了深度学习的算法,分析2007年到2014年间共计660万份金融新闻报道,算法成功“预测”了此 7 年间的几次金融危机,并且还为每次危机附上了一份描述最有可能引发本次危机的文本数据。不仅如此,计算机还识别出了几次一开始不在研究人员计算内的金融危机,表明这一算法真正能够理解报道涵义,并且还能分辨细微的模式。
虽然算法在本次实验中所做的并称不上是真正的预测,但研究人员相信通过进一步研究,类似的算法很快就能通过聚焦于新闻报道或网上讨论文本中的情感层面,衡量金融市场波动等实时信息。而实现这一点,也就相当于做出了预测。
这将会对金融市场和国际经济带来怎样的影响?
彭博社记者在报道时推测,首先市场上可能出现帮助人应对金融市场高度复杂性的工具。计算学习算法或许有可能绕过不可信的理论,并直接从财政和金融数据上学习,从而找到人类识别不出的、会引发金融危机迹象的方法。
论文标题:Bankdistress in the news: Describing events through deep learning
中文标题:用深度学习描述新闻中的银行危局
论文作者:Samuel Rönnqvist
所在机构:Turku Centre forComputer Science – TUCS Department of Information Technologies, Åbo AkademiUniversity, Turku, Finland;AppliedComputational Linguistics Lab Goethe University Frankfurt am Main, Germany
论文作者:Peter Sarlin
所在机构:Departmentof Economics Hanken School of Economics, Helsinki, Finland,RiskLab Finland;Arcada University of Applied Sciences, Helsinki, Finland
论文下载:新智元微信订阅号,回复0425下载
摘要:许多机器学习的模型都用于在复杂的系统中探测事件的发生,但通常无法自动就事件之后的发展情况产出量化的细节。我们提出一个深度学习的方法,用于在文本中检测出与特定事件相关的讨论,并提取出对该事件的自然语言描述。该模型只需利用很少量的事件信息来进行监督式学习,并加以基于大量文本数据的语义矢量表示的非监督式学习。为利用该模型,我们基于新闻(660万篇文章文章)对金融风险进行研究,特别是银行危局和政府干预的事件(243次事件),其中有不同指数能分别代表机构层面、国家层面和整个欧洲层面的银行危局相关报道,并伴以解读。借此例我们证明,文本作为及时而广泛可用的数据,能够为金融风险分析提供有用的补充信息。
1、导语
文本分析学是一个机会与挑战并存的学科。一方面,文本数据信息丰富,能以传统方式使用,比如用来预测信息,而其描述深度也使得由数据高度驱动的定量探索性分析成为可能。另一方面,破译和使用人类语言中极具表现力的细节,又是无比艰巨的挑战。用计算机学术语来说,文本中包含高维的、经常具有模糊性的符号式输入(单词),其语义则是他们所出现的序列(词组、句子、段落等)中各部分之间复杂作用的结果。因为样本量的相对波动较大,文本被称为稀疏数据,而由于在分析过程中,必须从表面的格式去推断其背后的语言学结构,文本又被称为非结构化数据。
我们认识到,许多文本分析的使用尚依赖于语言学上非常粗浅的方法,通常会忽略词序,停留在符号单词层面。尽管这些应用在其各自领域内通常可以算先驱性的工作,但仍有大量的进步空间,尤其是在机器学习、计算语言学和经济学的交叉领域。以深度学习为范例的话,自然语言处理的最新进展为高度由数据驱动的、更具语言学视角的分析方法打开了机会,也意味着能在新领域和新任务上得以应用。本文中,我们将展示这种方法如何应用于对金融系统风险的研究,同时不需要为了监督新任务而花大力气收集数据。我们将提出的方法应用于分析银行的危局,能生成衡量一段时间内新闻针对某种压力的报道指数,并基于此抽取相关事件的描述。
在全球金融危机发生前后,对银行危局的预测都是一个重大话题。许多尝试聚焦于在早期识别出逐渐积累的风险,通常根据整合的会计数据来评估失衡。会计数据尽管包含丰富的信息内容,但带来了两大挑战:数据报告频度低,发布拖延时间长。更及时的信息来源是市场数据,用以显示市场失衡、压力和波动。然而,市场价格本质上提供的描述性信息极少,并只能显示上市公司或其交易工具(比如信用违约互换)的信息。这就意味着,文本作为了解银行危局的我们来源,有较大潜力。在更大层面上,中央银行也开始承认文本数据在金融风险分析中的作用。
如何用基于文本的计算方法来评估风险或危局,相关文献仍然较少。Nyman等分析了新闻中激动/焦虑的情绪趋势,发现舆论越来越一致地反映出危机前市场的非理性繁荣;Soo分析了新闻情绪与住房市场的联系。这两项研究均依靠对情绪词手动编写成词典,尽管作为处理文本中表达内容的早期工作,为对风险的研究提供了有趣的洞察,但仍然是具有限制性的方案,因为词典太复杂,很难适应具体的学习任务,同时不一定完整,也难以处理单个文字之外的语义。尽管如此,用这些简单的方案进行的情绪分析效果还不错,因为它仍然首先依靠于人类情感,以便在任务和数据之间找到共同联系;同时,数据规模又与数据收回情况相应。Malo等探究了一个更复杂的方案,综合地建立对金融系统的情绪模型,没有用语义泛化,并让机器利用标注词语定制的数据组进行监督式学习。
数据驱动的方法能避免手动编写和手工标注语料的问题,比如Wang& Hua就用数据驱动的方法从业绩会议中预测公司股价的波动。他们的方法虽然对业绩营收作出了良好的预测,但对隐含的文本数据中的风险相关语句却洞察有限。在我们要解决的单个词语和词语序列的语义建模方面,则有改进空间。另外,Lischinsky使用标准的语料语言学工具对企业年报中危机相关的话语进行分析,并用一些数据驱动的方法来基于几个种子词来进行探究,他的分析大力关注了危机话语中的单个词语及对其的定性阐释。Rönnqvist& Sar-lin基于新闻中共同出现的银行信息,建构银行之间的网络模型,并评估单个银行相对所在银行系统而言其信息的中心化,这是一个完全数据驱动的方法,可以通过语义建模和条件设置来进一步改进。
我们关注于用一个纯粹由数据驱动的方法,在定量指标和相关事件的提取描述中来识别和描述风险。通过学习基于新闻预测同时发生的银行危局来演示此方法,其中核心的挑战是如何将稀疏、无结构的文本和一系列参照事件联系起来。为此,我们演示了一个深度学习设置,能通过学习文本数据的语义表现而构建预测模型,最重要的是将文本与危局联系起来,生成描述。这些文本描述帮助解释预测模型的量化反馈,并使我们能深入了解模拟的现象。通过选择训练时所用的参照事件类型,该方法可以立即用于任何现象。
下文中我们讨论了我们用于建模的文本和事件数据,并用其来展示我们的方法如何应用于研究压力事件。该深度学习设置包括了语义建模、预测建模与评估,在第三部分中我们解释了描述提取及相关指标,在第四部分中我们对银行压力数据的实验情况进行说明并讨论结果。
4、实验
我们测试了深度神经网络设置,用于为欧洲银行危局事件和新闻数据的相关语言建模,从而演示这种方法对帮助识别和理解过去、现在或未来事件的价值。作为训练的第一步,对所有提到目标银行的语句使用向量。计算机学习71.6万个句子(来自26.2篇文章)当中所有相应的语句向量,同时训练过程的多次迭代中均对包含660万篇文章(34亿个单词)的整个新闻语料库进行取样。通过对目标语句的语义建模,语句向量捕捉目标银行相关报道中的语义,其他文本则帮助对整个英语新闻报道的语义建模。通过交叉验证,我们将语句向量长度优化为600、上下文条目数优化为5,同时测试了文本序列长度的影响,发现训练多个语句的向量使得预测表现稍差,而在语句和文档水平的向量训练结果相当。
4.2 欧洲压力描述性指数
通过训练神经网络并评估其预测表现,我们能在不同聚合水平上提取压力的描述性指数。首先,图2显示了近年来欧洲银行危局相关报道的整体概况,纵轴显示语句向量后验概率的分布情况,以百分比表示。同时,该分布显示了欧洲银行危局情况的动态,平均值(index I00 of Eq. 7)概述了整体趋势。
图2.整体危局报道。曲线表示语句向量逐年的后验概率,显示银行危局相关的报道情况。蓝线表示平均值,每2个百分位用浅一号色线,虚线为事件样本之外的预测。
4.3 国家层面的危局:描述与解释
本部分讨论从欧洲整体的银行危局指数转移到更微观的考察。我们用更有针对性的压力指标来衡量一些国家的相关话语,从而进行对事件进展的经济学解释。因此,我们聚合了语义向量的后验概率,显示特定国家层面银行危局相关报道的水平(根据Eq.6)。图3显示比利时和爱尔兰银行危局相关讨论的发展情况,图4显示了德国和英国的情况。图中按时间序列显示压力水平,同时对危局峰值进行标注。附件中图6和图7显示了其他国家的情况。
比利时
- 2008年9月27日星期六(相关性0.921,排名2):
“主营银行与保险业务的富通集团的投资者迎来充满不确定性的周末,在市场舆论称该公司可能成为信贷危机的又一个受害者时,公司周五特意向投资者表示,集团具备偿付能力,没有崩盘的危险。”
- 2008年9月27日星期六(相关性0.917,排名3):
“知情者告诉路透社,本周六,金融部门正在联络其他机构,但并未产生任何较优的解决方法,周日之前不太可能有具体的方案出台。”
- 2008年9月28日星期日(相关性0.758,排名6):
“路透社布鲁塞尔报道—比利时的骄傲、金融服务集团富通公司及其上千个工作岗位正岌岌可危,比利时与荷兰政府、中央银行和监管机构正为其探索出路。”
- 2008年9月29日星期一(相关性0.889,排名5):
“本周末,比利时、荷兰和卢森堡政府联手救助富通集团,购买其112亿欧元股票,以避免该公司的股灾出现多米诺效应。”
爱尔兰
图3. 比利时与爱尔兰的危局指数,关键的时间阶段已经标出,并对各个时期两国各自前10个峰值的情况添加了信息摘要。竖线表示危局事件,虚线表示样本外的预测。注解来自所标示日期路透社消息。
- 2008年11月13日星期四(相关性0.55,排名9):
“路透社都柏林报道—爱尔兰银行周四宣布,上半个财年营收下跌34%,预测下半年损益应接近平衡,同时取消现金股息收益,以支撑其资本状况。”
- 2008年11月21日星期五(相关性0.677,排名5):
“房地产市场的下跌影响到投资者情绪,四个上市银行的股价从去年最高点暴跌90%。爱尔兰市值第二大的银行爱尔兰银行称,已收到一些匿名团队对其的注资请求。”
- 2010年3月22日星期一(相关性0.860,排名4):
“爱尔兰政府已经向爱尔兰联合银行、爱尔兰银行和盎格鲁爱尔兰银行总计注资110亿欧元(合150亿美元),而三大银行在向爱尔兰国家资产管理局转让债务的同时,还将需要资金注入。”
- 2009年9月9日星期三(相关性0.795,排名10):
“路透社都柏林报道—爱尔兰执政联盟伙伴周三表示,爱尔兰银行和爱尔兰联合银行仍需要承担来自其商业房屋贷款的大量还贷压力,尽管已经创造出了这样一个‘坏账银行’。”
- 2009年9月16日星期三(相关性0.850,排名5):
“爱尔兰第二大银行爱尔兰联合银行正在将其240亿欧元资产转移至‘坏账银行’,同时称其仍有增加资产的选项,包括筹集股本、寻求外部投资人或售卖资产。”
德国
- 2007年8月2日星期四(相关性0.814,排名2):
“IKB银行上周末出现的危机促使德国联邦金融监管局发出警告,称该银行崩盘将导致德国75年多来最严重的金融危机。”
- 2007年8月5日星期日(相关性0.808,排名7):
“德意志银行出于IKB银行次贷问题的担忧,下调了该银行信用度,点燃了危机并促使德国联邦金融监管局采取行动。”
- 2007年8月23日星期四(相关性0.826,排名1):
“知情人士称‘IKB如果没有告诉大股东,绝不可能设立莱茵兰基金’,并称IKB曾向其大股东德国复兴信贷银行集团解释莱茵兰基金的运作方式。”
英国
图4.德国与英国的危局指数,关键的时间阶段已经标出,并对各个时期两国各自前10个峰值的情况添加了信息摘要。竖线表示危局事件,虚线表示样本外的预测。注解来自所标示日期路透社消息。
- 2008年9月10日星期三(相关性0.702,排名1):
“一些政府已经不得不救助陷入困境的银行,比如英国北岩银行和德国IKB银行,而各方尚未就谁来救助破产的跨国银行达成共识。”
- 2008年9月17日星期三(相关性0.573,排名3):
“金融体系正在经历大萧条以来最剧烈的变革,已有与美国第二大投行摩根史坦利、美国顶级储蓄银行华盛顿互助银行以及英国苏格兰哈里法克斯银行等相关的并购报道。”
- 2009年2月11日星期三(相关性0.533,排名8):
“关于苏格兰哈里法克斯银行:‘如果当时我们没有收购苏格兰哈里法克斯银行,就不需要拿政府的钱了。’”
- 2009年2月16日星期三(相关性0.542,排名7):
“半国有的劳埃德银行集团周五称旗下苏格兰哈里法克斯银行去年亏损85亿英镑,导致其股价下跌三分之一,使得欧洲金融业业绩低迷。”
4.4 富通集团和IKB银行
本部分进一步在微观层面讨论单个银行的压力指标(根据Eq.5)。与国家层面的分析相同,我们聚合了银行水平的语义向量后验概率。分析产出了101个银行各自的情况,但这里我们主要研究富通与IKB两家银行的危局报道。
欧洲金融体系最早的危机之一就降临在位于低地三国的富通集团。正如上文对比利时金融危局的描述,富通集团及其救助过程是金融危机中讨论的核心。因此我们着重考察了富通危局指数的变化情况(如图5)。首先,我们可以看到随着危局事件同时不断升级的压力指数。
图5. 富通与IKB银行相关危局报道指数(蓝线),每4个百分位用浅一号色线直至第98个百分位。
5、结论
我们展示了结合两类数据——也即新闻文本和基本事件信息——的深度学习方法,旨在联结两类数据来对事件进行描述与预测。该方法包含对文本的非监督式学习,从而对其语言建模,并声称语义向量,用于对事件进行预测建模。我们提出的这种基于神经网络的方法能够利用少量的事件来辨别文本中哪类语言和段落与待建模事件类型相关。语义建模则利用大量文本数据进行推断,应对语言的变化和稀疏性,从而支持对非频繁事件的预测。
语义预测模型可以生成指数,来表示不同时间中相关讨论的水平,无论是整体还是对特定机构或群体而言。这些指数能够突出讨论和事件的规律,帮助寻找相关事件,而模型则直接地生成了平均值与排名方法,并能从新闻报道中抽取描述特定量化信号的文本片段。
通过对银行危局事件的建模,我们展示了该方法的用处及其在金融风险研究中的使用可能。模型中的指数反应了不同时间内银行危局相关报道的水平,包括欧洲整体情况、单个国家的情况和特定银行的情况。用户可以使用这些指数来集中研究,并提取特定时间的相关报道,从而理解政府干预和救助行动的发展情况。
该模型及我们的分析显示了,随时可获取、内容及时并充满描述性细节的文本能如何为金融和系统性风险评估提供重要的补充信息。我们认为深度学习方法在处理这些复杂的新数据时很有用,并未探索新的分析提供了必要的灵活性。如果要利用文本的表现力,就要向计算语言学寻求理论基础和工具的帮助。
尽管我们证明了预测相关性和提取事件事实性描述是有可能的,我们现有的表现方式也只是利用了大量文本材料的皮毛。开发更多方法来总结整个文本库,而其中可能包括一大串信号微弱、表述模糊的长尾,这仍然是一个挑战,而这对于在事件恶化前的识别和跟踪而言尤为重要。
参考资料
Mark Buchanan,The Financial Threats That Machines Can See,bloombergview.com