干货分享 | 千人专家朱晓天：大数据与人工智能在金融领域的应用

小莹莹

发布于 2018-04-20 15:56:41

1.7K0

发布于 2018-04-20 15:56:41

12月9日，以“数智金融-大数据的创新与应用”为主题的第二届中欧大数据金融论坛在深圳举行，国家千人计划金融领域特聘专家、北京大学汇丰商学院金融实验室主任朱晓天教授，国家千人计划金融领域特聘专家、平安科技大数据总经理/高级专家肖京博士应邀出席本次论坛并发表主题演讲

以下是朱晓天教授在本次“数智金融-大数据的创新与应用”论坛上的精彩演讲内容，满满干货！

主讲嘉宾

朱晓天，北大汇丰商学院副教授，复旦大学管理学院客座教授，国家千人计划金融类专家。曾在中信证券负责DeltaOne场外指数化衍生品业务，负责行业最大的80亿融券池的增强收益，参与规模达上千亿的收益互换和场外衍生品业务。美国维州州立大学金融博士，国际认证的注册金融分析师（CFA），SAS金融统计分析高级程序员。在美国华尔街、新加坡、中国香港地区和中国内地金融投资行业有超过16年的研究和投资经验。

干货分享

大数据与人工智能在金融领域的应用

尊敬的各位领导，专家，同学们，今天非常高兴有这个机会跟大家分享我们在大数据人工智能在金融行业的应用，特别是在智能投顾领域。今天的题目是“大数据与人工智能在金融领域的应用”，主要是偏重于智能投顾领域。

目前人工智能的技术话题非常热，有我们一些熟悉的领域，也有一些不太熟悉的领域，最终我们会回到金融。什么是人工智能？一些常见的新闻，包括比如说下面这个是波士顿的机器人公司，现在主要是运用在人工智能人的行动，这里面的机器人会做后空翻，谷歌的无人驾驶汽车，深圳最近有一个无人驾驶大巴都出来了，这些都是最新的情况。包括我们科大讯飞的自然语音识别系统，还有人脸识别，人脸识别已经广泛应用在各个地方，包括现在去有的酒店，入住的时候有一个人脸识别的过程。这些是我们比较熟悉的领域，人工智能正在广泛的应用。

实际上在医疗领域、法律方面都有很广泛的应用，医疗领域，在识别的时候，做CT、X光检测之后，如果用机器学习的方法来检测结果，效果比专家的检测结果正确率要高达50%，主要原因是因为肉眼有的时候看不到细小的问题，可以通过机器学习的方法来认识到。在传统制药和新兴制药，人工智能技术也在广泛的应用，可以优化新药研发的周期，提高效率，控制研发成本。

在法律领域，国内现在有些法律咨询网站最近已经拿到风投超过1个亿的认可，如果不是这个专业的话可能不是很熟悉，人工智能在各个领域都有非常广泛的运用和趋势。这次主要是谈金融行业，今年的Breaking News，高盛600人的股票交易团队逐步被智能机器人替代只剩2人，美国摩根大通银行用自动机器几秒内替代之前内部律师需要36万小时完成的工作量。我有一个朋友之前在纽约德意志银行做衍生品交易的，今年也是被自动的系统所取代，他今年初也开始在找工作。当然，因为我个人以前在摩根大通和瑞银工作的时候，当年也是几百个人的交易员，眼睁睁的看着人员在减少，逐步被机器所替代。这些在美国西方市场实际上很早就已经发生了，可能已经发生了有七八年，或者说更长的时间。开始很多自动化算法、智能化的过程。投行每年营收的1/3都投入到IT技术的更新上，花费非常大的资金。最后的效果，很多职位如果是容易通过算法自动化智能化的尽量就会被机器替代，当然这里面有核心的算法。这是一个流行的趋势，之所以很多交易员被机器所取代，是招募了很多开发人员，逐步做算法交易系统来取代交易员的职能。

虽然今年的新闻爆出来，但是在过去七八年的时候在海外市场这些金融机构实际上大量的布局在这方面，我们今天看到新闻主要是因为谷歌的阿尔法狗，让大家觉得机器人、人工智能替代人类，甚至在博弈领域替代人类非常强大的能力，让人非常的惊讶。

今天简单分享一下在博弈领域人工智能基本的原理，简单扩展到什么是Alpha GO，谷歌Alpha GO的机器人挑战人类顶尖棋手，普通的围棋比赛是150步左右，人工智能学习的核心，在盘中有一个评估函数，怎么训练一个非常好的评估函数是取胜的关键。Alpha GO，首先它有非常强大的计算能力，训练数据包含人类3千万盘面的数据，根据所有的样本进行训练，得到一个高效的盘面评估函数，有一个高效的盘面评估函数，保证它在跟人类棋手下棋的时候，比如说人类棋手可以往前看五步、十步，它可以比人类棋手更好的判断接下来二十步的情况，可以得到更好的盘面评估函数，用到的逻辑是卷积神经网络和蒙特卡洛树状搜寻模型。

卷积神经网络是训练盘面评估函数，在盘面中间判断当前的盘面到底是白子占先还是黑子占先，下一步走的时候要走到哪一步有更好的结果，这些是基于对盘面的评估。在Alpha GO深度学习的过程中，首先是对历史对局的数据库得到直接的训练，在这个基础上用神经网络学习并一般化后得到习得策略。第三，通过蒙特卡洛模拟数据用强化学习自我对下得到改良的策略，因为围棋你往下走就有一个结果，通过随机的新样本，最终有一个结果之后，对整个神经网络的权重做调整和优化，Alpha Zero不需要原有的人类样本，随机走也可以起到自我训练的效果，通过蒙特卡洛树状模拟随机产生历史对局数据库以外的数据进一步训练，通过回归推导出价值网络的盘面评估函数。

为什么要用卷积神经网络，围棋盘面是白棋和黑棋的盘面，最终根据谁占的区域大小确定输赢。卷积神经网络广泛应用于人脸识别，人脸识别技术已经比较成熟了，图像是由像素点组成的，卷积神经网络用一个小的矩阵取平均值，扫过去整个像素点，这个过程中，简单的原理就是找到图形的边框部分，比如说房子和蓝天交界的边界部分，通过扫描可以把边界部分识别出来。人脸一样，通过多次卷积神经网络扫描把人脸上最具特征点扫出来。通过盘面卷积神经网络的扫描发现白子和黑子占区域的范围，很快的识别出来。这是基本的原则。

为了扩大搜索空间，增强Alpha GO的学习范围，在自我对下的过程中采用了蒙特卡洛树状搜寻法，为了学习在历史对局数据库里面没有见过的棋局，在值得研究的某些棋局下加入随机乱走的情况，以最大限度的训练Alpha GO。

人工智能系统所应该具备的条件，首先就是非常强大的计算能力，还有大数据，这个数据可以是已有的样本，也可以是随机产生出来的自我训练的样本，另外，基于已有的专家系统或者是人类专家之前的系统，当然更重要的是一些算法。结合之后，可以对现有人类的一些过程采用人工智能系统来替代，算法的核心从过去的样本中或随机产生自我学习的样本中训练模型，然后对未来或者是没有发生的事情做一些可扩展的预测。这是人工智能的系统所应该具备的大概条件。

回顾一下人工智能技术，在很多方面取代人的功能。主要是行动，波士顿机器人就是能模拟人的行动能力。自动化，机器人有一个运行的过程，包括工业自动化过程中用到的机器人都是模拟人的行动能力。决策，比如说识别、分类、预测，在金融行业最常用到的就是分类、预测、决策能力。另外，最基础的涉及到人类的感知能力，包括对图象的感知，语音、语义识别，文字识别，包括图像识别里面人脸识别，或者是物体的识别。这些都是人工智能最重要的取代人的功能的一些领域。

接下来对人工智能机器学习的主要技术，神经网络、决策树学习，深度学习，增强学习，聚类方法，贝叶斯网络，遗传基因算法，分为监督学习、无监督学习、增强学习，金融领域运用最主要的是预测和划分。最基本的Feedforward人工神经网络模型，模拟人的大脑，每一个节点都会受到前一层节点的信息，加总之后通过转换的函数，根据你是做分类还是做时间序列预测，可以将数据转化成二值分布或者是连续性数据的分布，取决于你具体需要解决的问题类型。通过输入和输出训练网络调整它的权重，模拟输入输出的内在逻辑，这个逻辑可以通过一些函数，甚至是一些函数组合来表现的。具体取决于需要解决问题的复杂度，中间的函数可以是连续型的，也可以是非连续型的。可以通过对输出输入数据进行训练，减少误差，使误差最小化，最后训练得到一个内在逻辑关系，这个关系可以是一种很复杂的函数关系表达。

一般深度学习是指这个网络超过十层，通过网络可以模拟函数关系，或者是逻辑关系，可以非常复杂，甚至复杂到这些描述逻辑关系的函数组合超过了人类熟悉的数学领域，或者说人类还不熟悉他们的函数特征。人工神经网络模型节点上的转换函数，根据具体应用领域是做分类还是预测，可以通过相应的数据转化成二值或者连续性数据的结果，具体是取决于应用的方向、领域。

影响人工神经网络模型表现的主要因素，当然这中间包括训练算法，本身输入输出，模拟输出输入之间最小差异的算法，能够最快找到全局的优化点。我是研究生的时候做人工神经网络的研究，做金融市场预测，算法部分一直没有特别明显的飞跃，体现在优化的收敛速度及效率能不能大幅提高，这一块我个人觉得随着计算机性能的大幅度提高应该不是最核心的问题。

神经网络的内部结构，我觉得最重要的是在训练的时候避免过度拟合，在样本训练的时候，训练人工神经网络的时候并不是说训练的次数越多，让样本内的误差越小结果就会越好，在样本内训练的时候的确是训练次数越多样本误差越小，但是在样本外实际应用的时候有一个临界点，在超过这个临界点之前是可以提高预测或者应用的准确率。但是超过这个临界点之后预测的准确率反而会下降，在机器学习的过程中最核心的问题是要避免过度拟合，算法的核心是找到一个平衡点，让它有最好的学习能力，并保持有一个可扩展的预测应用能力。

训练算法方面，包括线性的，或者是平行的计算，甚至是基于算法寻找最优点的过程，核心就是找到平衡点，避免过度拟合的过程。人工智能技术在金融投资领域有哪些应用，在广泛的领域已经开始应用了，前面提到金融行业一方面主要是预测的应用，摩根斯坦利和日本的三菱银行有用对市场的预测，对市场做短期的预测，放在短期大量资产配置里面，Bloomberg应用在公司财务状况预测，比如说上司公司财报超过预期，可以做一些投资。美国的SAC是用机器学习的方法做了收益率曲线变动预测，主要是用在固定收益类资产领域。收益率曲线变动预测对固定收益类资产配置非常重要。我以前在瑞信的时候，因为花大量的精力在交易执行的算法方面，在交易执行的算法和做市交易执行用了很多机器学习的算法。波动率预测，本身在投资和套利领域有广泛的应用，银行用人工智能来做波动率的预测。衍生品交易策略，复杂金融衍生品的定价领域的应用，还有信用衍生品资产配置，信用风险预测。Moodys对债券评级，还有花旗银行消费金融风险管理对消费者市场划分的预测。在商业领域以前用到传统模型，用机器学习的办法，从数据里面学习市场如何应该划分，可以起到比传统统计模型更好的效果。如果大家关注最近的新闻，全球最大的资产管理公司黑石已经开始用智能投顾来取代投资顾问、基金经理的工作。

人工智能技术在金融市场预测方面的应用，这方面有一些发表的文章，包括达到一定的程度，在预测市场走势方面的领域是可以应用的。在固定收益类资产配置方面的应用，一半来说收益率曲线有四种状态，当然它的状态变化过程更复杂，包括平移、扭曲等。对于固定收益类资产配置来说，能够更好的预测利率曲线变化的趋势或过程是至关重要的，美国的对冲基金正在使用机器学习的办法来做收益率曲线走势的预测，提高资产管理的风险收益特征。

人工智能技术在自动做市和算法交易方面的应用，提供各类的交易执行算法，减少市场冲击的。人工智能技术在自动做市业务方面的应用，一般正常的做市情况，比如说客户要一个很大的卖单，不希望直接放到市场上，一般会找市场上比较大的做市商，希望有一个买单来接卖单，谈一个价差，直接就达成交易，对市场没有任何冲击。这种情况下一般大的投行都是作为做市商，比如说大的指数性ETF，本身它的流动性不是很活跃，特别是在这种情况下很多对冲基金会找投资银行来做交易对手方来完成，否则直接在市场上交易会对市场造成比较大的冲击，交易成本会比较高。投资银行如果是做市商，对方是卖，你就买，买了以后有一个风险暴露，正常传统的做法是想办法到市场上去对冲风险，对冲之后赚差价，现在因为市场竞争非常激烈，大家都通过提高做市的效率，减少对冲的成本，一般投资银行都有5000-6000家，全球大的对冲基金，养老基金这样的长期客户。投行会通过大数据研究长期客户的交易习惯，有这样的单来的时候立刻算出来有哪些客户愿意作为做市对冲交易的交易方，通过研究长期客户的交易习惯，在某一单过来的时候会主动想办法算出其他第三方的客户愿意承担交易对手方的可能性。这个时候会主动的通过客户端把做市对冲交易的信息发到潜在客户里面，这个时候潜在客户交易员通过客户端可以直接按一个按钮就完成交易。因为长期研究客户的交易习惯，几十家里面可能有一两家愿意做交易对手方，一个客户是要卖，另外一个客户要买，对它来说这个交易就撮合了。在海外自动做市、交易系统广泛的用这种算法来提高做市的效率，减少他需要产生的交易成本。交易执行市场的潜力，中信证券2012年净利润是42.37亿元，若非经济业务采用二代算法利润可提高17%，而若采用三代算法利润可提高26%。整个市场若采用二代算法可节省400亿交易费用，三代算法可节省720亿交易成本。如果这个放在2015年就不得了，应该是好几倍的效果，因为2015年的交易量在中国市场非常大。

在复杂衍生品交易和定价方面的应用，有一些期权是挂钩底层资产，而且有些底层资产是流动性不高的，无法准确预测底层资产的价格，很难定价，德意志银行用机器学习模型解决这个问题，提高了复杂衍生品定价的准确度，提高了利润，降低了风险。有部分评估机构用机器学习的办法来辅助评级，传统统计模型更好的解释有哪些因子，机器学习的办法或人工智能都是叫黑箱，中间有哪些因子起到预测作用并不是很清楚。现在评级机构也在用机器学习的办法来辅助决策支持。之前在摩根大通工作的时候，广泛用统计模型和机器学习的办法来做信用风险和违约风险的预测。用机器学习的办法，有的时候准确率是高过传统的统计模型，摩根大通在次贷爆发之前就预测到次贷的风险会加大，所以它们提前做了一些准备。这些在国外的投资银行很早就已经开始用机器学习的办法，或者是用模型来提高预测的准确度。

人工智能技术在消费银行业市场规划方面的应用，以前在商业银行统计模型的时候，首先是预假设，需要预先知道有几个划分区域，每个区域的中心点，或者说可能有一些假设要提前满足它条件。但是用机器学习的办法，从数据里面自主学习，不需要满足预先假设就可以做市场划分。

前面都在说人工智能技术，在金融领域数据也非常重要，在数据转化的过程中，人工智能技术也能起到一些作用，金融数据有很多种数据，包括标准化的数据，当然这中间可以用大数据、网络爬虫等数据来做市场预测，另外还有非标准化数据，包括图像、图表，还有一些自然语音语义技术，涉及到图像图表数据提取技术，深度学习自然语言和语义识别技术，非标准化数据挖掘和整理技术，做脱敏技术。市场可交易资产数据库，大类资产证券化流程数据库，企业与机构经营业务数据库，金融产业与机构关联数据库，把不同类型的数据，相关类、信用类、信号类、案例性数据库总结起来之后，接下来应用在具体智能应用场景，包括智能投顾系统，还有智能交易系统，现在都叫智能交易系统，还有FOF管理系统，甚至ABS管理系统，智能风控系统。这个过程中是大数据怎么样转化，标准化和非标准化数据怎么样进一步的优化，进入到数据库应用到实际的金融应用领域。FOF管理系统，中间涉及到投前、投中、投后的分析，投前怎么样把非标准化数据转化成标准化数据，这里占到工作量的七八十，我们跟一些金融机构打交道，其实很多做FOF管理系统，如果针对私募产品，因为私募产品发给他各种数据的时候，标准都不是统一的，都是各种各样的非标准化数据，进入到FOF管理系统，首先要把所有数据进行标准化，标准化之后用FOF管理系统做决策。金融领域和大数据是密不可分的。

谷歌公司是世界知名的技术公司，花旗集团也是一个著名的金融机构，它们对机器深度学习的预测，谷歌公司大力推进机器深度学习的制度，从2012年到今天谷歌对机器深度学习的应用在快速增长，投入增加非常快，原代码，包括深圳很多金融机构都在采用，用它的原代码做一些信号的开发，包括一些筛选过程，都在用。看花旗银行对智能投顾的预测曲线，这两个曲线是非常像的。

在中国市场上如果要考虑智能投顾的应用，中国的高净值人群的智能理财增长是非常快的，信用及违约风险识别，2015年私募基金的规模已经超过公募了，资产管理行业是爆发式增长的过程，机器人投资顾问业务也有很大的空间。交易执行算法服务业务，2017年双板算法交易量40万亿人民币，这中间如果有一部分的比例采用交易执行算法有很大的利润空间。资产证券化业务的应用，也是有很大的空间。

在投资领域创新发展的方向，首先是算法交易执行类的广泛应用，接下来是投资策略产生、开发、优化的过程，广泛应用机器学习和系统自动进行，资产配置效率的创新，最后会产生一些新的业态，金融行业结构的变化。我们当时在投行工作的老板，他自己出去成立一个科技公司，专门提供交易信号、交易系统给银行和投资机构用，而且这个情况在美国越来越普遍。最近的新闻高盛和摩根斯坦利都自称自己是科技公司，变的特别快，也说明一个趋势，最终人工智能技术和大数据在金融领域肯定是一个趋势。

核心技术，四大系统和三类金融大数据，大数据的技术，应用在金融领域也做了很多的包括智能交易系统，策略开发优化和筛选系统，还有FOF管理系统，包括ABS管理系统。在金融行业，特别是智能投顾这个领域，大数据技术，包括非标准化数据的整理，大数据网络爬虫技术，内存数据库优化技术都很重要。

人工智能技术体现在自然语言和语义识别技术，深度学习时间秩序预测技术，机器学习分类识别技术，内存数据库优化技术。

把这些数据分类成信号类大数据、信用类大数据、相关类大数据，然后应用到不同的业务里面，底层是数据，上层就是系统，接下来大数据+系统支持金融行业朝智能投顾的方向发展。

这是我们当时做的一个自动做市和算法交易平台，这个系统做出来之后，目的是减少人为的干预，但是过程中不可避免的还是需要人类参与到里面做一些维护，做一些特定情况下要介入，比如说有问题的时候，中间层有很多的关键步骤分布在全球多个服务器来监控重点的过程，很多服务器来监控自动化过程中的每一个节点，如果一旦哪个环节出问题，必须要改正。是希望把整个过程自动化，减少人类的干预，但是过程不可避免需要人的监控、管理。

人工智能的本质，强大计算能力，大数据，深度学习算法，人类专家系统，组合以后变成一个实际解决问题的人工智能系统。但它始终需要人类参与设计和维护的，我们觉得完全脱离人类干预是很漫长的过程，中间只能是尽量减少人类的参与。

人工智能的发展方向，国外有一些专家担忧，担忧人工智能技术发展太快了，中国政府说最近人工智能有些泡沫，这两个观点其实都对。我们研究人工智能这么多年，我觉得只要人工智能算法被称为黑箱，中间就是有风险的，因为你没法很好的解释它中间这么多的节点是怎么模拟输出输入的逻辑关系，它可能用了很复杂的函数，或者是函数组合来解释内在逻辑，但是特征可能大家还不是很理解，因为它是模拟人脑的，但是对人来说其实最重要的是灵感、直觉，顿悟，目前人工智能模型现在还没有达到顿悟的点，如果能有灵感了，达到顿悟了就可以像人一样独立思考。现在说黑箱，说明它依然有风险，因为对它的过程不是很了解，有可能在将来整个网络模型很复杂的时候可能会产生一些灵感或者是顿悟的可能。

来源 | 千人会

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-21，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据