【译】华尔街的“大数据”解决方案

大数据文摘翻译作品(法语) 翻译:朱潇男 校对:Shawn 如需转载,务必留意申请授权

欢迎各种“小语种”的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。

今天,大数据文摘【金融与商业专栏】成立!

此栏目将视角集中在金融及商业决策分析相关的大数据分析文摘,内容涵盖金融,信贷,风控,投资,理财,商业等领域。鼓励独家首发与观点原创,行业前沿理论分享,国外优秀文章翻译以及行业领袖采访演讲编译,力争刊出更多金融和商业领域相关精品文章。欢迎各位同行及对数据分析感兴趣的朋友加入,共同分享交流。项目合作或交流请联系finance@bigdatadigest.cn

由于金融市场是一个非常精密且复杂的系统,所以任何人都很难说能够成功地选择出一个最佳的投资组合方案。所有投资者都知道一句“低买高卖”,但是只有这句话对于做出正确的投资决策来说还是远远不够。每个人都梦想能够在市场走向确定之前获得指导性的信息。其实目前已经能够通过算法处理进行金融市场走势的预测,尽管现阶段还很难做到非常精准和完善。现在有越来越多的金融咨询师利用到高等算法,并且这也逐渐成为整个社会各行业“大数据”解决方案的一个重要组成部分,包括信用风险评估、商品与服务需求预测、通过社交网络分析预测市场导向、机器可读格式的公司报告制作、折扣和广告目标投放等等。实际上,中国政府已经和IBM公司开始尝试合作使用大数据来解决这个远东国家日益严峻的污染问题。

现在的一些专业人士可以通过将传统的收敛平均、移动平均等预测方法和更加精妙的技术以及基因算法整合,生成一种更加复杂并且智能的算法,然后做出更准确有效的资产预测。考虑到市场上潜在的金融泡沫等意外因素,一个对市场运营机制的正确理解加上有效的风险管理策略,对于在这个充满风险的市场中生存是必要的。今天,投资者已经能够选择同时使用这些最先进的的算法加上传统的分析程式式,以期提高自已投资组合的表现、检视自己的分析以及对各种机会更快的反应速度。

以上论述是为了更多地揭示围绕在大数据分析身边的秘密,并且表明如果乐于在投资分析中使用这些技术的话将有可能获取潜在的收益。那些已经使用这些先进策略的金融从业人员将无疑是预测分析的受益者,这也让华尔街在算法交易方面更具前瞻性和有效性。

什么是“大数据”

大数据解决方案主要是针对那些复杂的大型数据集,这些数据集往往很难用往常的方法进行操作和分析。这个领域正在变得越来越重要,因为他帮人更好地分析那些不管是有序的还是杂乱的数据,能够带来更好地分析效果并协助做出更好的决策。2001年,时任Gartner行业分析师的Doug Laney精准地阐述了大数据里的三V理论:容量(Volumn),速度(Velocity)和种类(Variety)。图1用文氏图进行了解释。

举例来说,自从1980年以来,UPS就已经在用大数据来追踪包裹的运动情况。时至今日,他们的技术也随之提升。现在它们平均每天处理的包裹追踪申请达到了3950万次。同时它们也成立了全球最大的大数据运筹研究项目。这个项目起初的名字是ORION, 到现在止,这个项目已经为公司的减少了8500万公里的日常送货路线,并且节省了840万加仑的燃油。

当然,现在华尔街也开始从大数据分析中受益,金融公司们通过运用高等算法来追踪和预测市场走向,比如自我学习算法。很多人觉得自已不懂怎么使用算法进行交易,或许是因为他们心目中的算法交易是另外一回事。

量化交易和高频交易

我们应该认识到现在有两种区分度很高的算法交易形式。通常情况下当别人提到算法交易的时候,大家都会认为是高频交易。高频交易的优点是它会比绝大部分市场反应要快,但是这种操作也有门槛,往往只有一小部分投资者和交易员能够使用,并且这种交易方式也会对整个市场产生一些副作用。高频交易系统还不够“聪明”并且也不能代替掉投资者真实的有价值的想法,因为它只是“盲目”地追随一些短期走势。此外,现在高频交易在道德上也备受争议。

第二种算法交易形式则通常被叫做量化交易或者长期算法交易。这是一种和高频交易完全不同的“黑箱”交易形式,不像高频交易那样靠分析五分钟前的历史数据来获取下一分钟的预测那样,量化交易会(在较大时间尺度上)分析之前市场的走势和架构并找到一种合适的模型,之后根据模型来进行预测。两者间更多的区别会在后面详细阐述。

混沌理论+有效(市场)模型=复杂性系统

通常,对于选择高收益资产上有两个惯常的误区,当然这些资产的潜在风险都被同时设限。第一个误区就是认为市场是完全有效并不可预测的。根据有效市场假设理论,市场在吸收最新的信息和价格的同时也在进行调整。在这种假设下,所有的股票都是一样的,因为它们都是有效的并且投资者能获取所有的信息。这样的结果就是,我们无法进行高于市场平均值的连续获利操作。这当然不能反映真实情况,同样全反过来也是一样——比如说混沌理论。混沌理论是跟人阐述一些小的事件会对后来的结果产生巨大的影响,这些结果在我们看来貌似是正确的。在这样一个混沌的市场里,所有的盈利和亏损会随着时间的延续而持续相互抵消。

所以说,金融市场既不是100%有效的,也不是100%混沌的。用复杂性理论来解释准确度可能会高一些,因为每个市场都有系统的和随机的部份。除了正常的基本结构作为金融市场的一部份,也包括很多各种类型的投资者,他们可能拥有不同的策略、经验、资金量和目标等,所有这些都是互相依存相辅相成的,可以用来解释市场行为。

股市波浪循环

I Know First 系统使用自我学习算法来对超过2000个金融市场进行预测,我们可以理解为一种股市波浪循环的形式。通过对大量交易进行分析,我们可以得到一些系统性的走势模型,这点能帮我们更好地理解和预测市场。这个模型包括三种模式:积极反馈,消极反馈和随机反馈。这个分析的目的是区分这支股票走势是均值回归型还是趋势型,以及它的时间尺度是多少。有时做这种分析是很难的,因为这几种模式会同时在不同的时间尺度上出现并交叉。我们目前的目标是能够识别出在目前的时点,这种模式是均值回归还是(已形成)趋势,正确的分析对于我们对市场做预判也是必需的。

先来描述一下积极反馈模式。当有一个积极影响加在某一个变量上的时候,这会对其它变量产生积极影响,反过来再影响这个变量。这种情况会打破系统原有的平衡,带来指数级的增长。反过来,一个消极反馈循环则会对系统产生稳定效果,系统会对外界的压力产生相反方向的反应。下图阐述了这两个循环的工作原理。

整体来说,如果一项资产表现良好,并且交易员的反应等都已形成势头的话,会容易形成链式循环,从而会吸引更多的交易员来购买。如果已经没有趋势或者瞬时套利机会的话,也可作为一种模型来识别--通常我们有“超买”或者“超卖”来暗示这种情况,这两种反馈循环也被称作动态平衡,即某项资产围绕一个特定的价格进行交易。资产价格往往在两个方向上都会超过实际资产价值。图3是以标普500指数为例解释积极反馈和消极反馈。

寻求最优模型

虽然我们无法一一解释每个算法在进行市场预测的含义是什么,但目前所知道I Know First预测系统是基于人工智能和机器学习来进行的,并且还用到了人工神经网络和基因算法。机器学习在理解市场行为方面给我们提供了一些更加独特的视角。这个算法内嵌了一个数学框架,在这个框架里对股票价格进行统计假设的生成和验证。一些机器学习工具,比如神经网络,能够让这个系统学会自我学习,并且连续性更好更准确。新的数据会被不停地更新进这个具有15年数据的系统,在这个里边系统会自动进行学习和短期以及长期的预测,正如下图所示。

这个框架是用来在一些测试数据的基础上生成最初的检验模型。这个阶段的目标是校正算法和功能的准确度,某种程度上来说这也是这些数学功能的真实目的。当算法发现了适合这个模型的最小化的功能的时候,目标就达成了。

通过数学的方法寻找最小值是一个非常复杂的工作,并且有时会在极小值和最小值之间徘徊,因为你可能无法分辨这个是不是最小,像图5所示。

为了增加找到最小值的机率,我们把多项搜索流程合并到一块。当这个算法能够从样本数据里生成确定的结果时,我们就可以用它来进行真实的数据分析。每次运行这个算法都会增加它自身的预测的能力和准确度。这是因为它在不停地生成新的模型并验证,反过来进行嵌套(递归过程),从而会得到更好的结果。

概而言之

每个投资者都有他们不同的策略,比如有些偏好基本面分析,而且大家的风险偏好程度也不同。但单独使用这些方法的分析已经逐步变的过时了,更加有效的工具被逐步加进来。对冲基金等买方也已认识到先进的数学模型在这里边扮演的重要角色。基于计算机的高级算法往往能同时分析多支股票并选出最符合预期的那支,因为它能够优化整体收益以及缓冲风险,所以这些算法也变得越来越流行和重要。当然,世界上还是没有一个完美无缺的投资解决方案,但通过这些高级算法和大数据分析的使用,不管针对人群是散户还是专业人员,我们都能够在某种程度上提高我们投资组合的整体表现。

【译者介绍】

有意联系译者的朋友,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢。

朱潇男,南开大学管理科学与工程系学士,香港中文大学系统工程与工程管理学系硕士,现供职于美国万事达卡国际组织北京代表处

Shawn (仲杉) ,资深银行战略分析师,商业管理与数据分析硕士,现就职于加拿大顶尖商业银行信贷战略决策部门。资深金融银行业从业经验,曾先后任职于银行商业信贷部,内审与金融欺诈调研部,投行金融衍生品交易与项目管理部,信用风险管控及商业决策部,与BCG,德勤、毕马威等多家咨询公司开展过项目管理合作。欢迎各位同行及对数据分析感兴趣的朋友共同分享,交流学习。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏罗超频道

旧文重读:大数据预测四个条件,十大行业

世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家...

3735
来自专栏人工智能头条

观点 | 深度学习,先跟上再说

821
来自专栏新智元

秒杀波士顿动力狗,MIT猎豹机器人闭着眼跳桌狂奔(视频)

【新智元导读】机器人领域又一大突破:MIT最新研发的第三代猎豹机器人,不依靠视觉和任何外部传感器,全凭控制算法,漂亮地纵身飞跃上桌,还能轻松爬上满是障碍物的楼梯...

1050
来自专栏罗超频道

大数据预测:4个特征,10个典型行业

世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家...

3797
来自专栏腾讯研究院的专栏

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

沈艳   北京大学国家发展研究院教授   “谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。200...

2846
来自专栏AI研习社

谷歌大脑是如何炼成的:万字无删减版全解密(上)

唯物按:如果说到在机器学习领域领先的公司,想必你不会忽略谷歌。从谷歌翻译到从机器视觉,谷歌一直努力将机器学习应用于可能想象的任何地方。文章从技术、制度、思想演变...

3574
来自专栏AI科技评论

动态​|Jeff Dean亲自站台背书,揭秘谷歌大脑培训生养成计划

在国内,真正能为 AI 研究人员提供系统培训的机构不多。 大家首先想到的是微软亚洲研究院。创新工场 AI 工程院的影响力相比之下差不少,但也算一个。在这之外,能...

3787
来自专栏机器之心

业界 | AI技术不是趋同,而是正在放大差距

1745
来自专栏数据科学与人工智能

【应用】信用评分卡:简介

这次事件发生在2009年左右的一个朋友聚会上,这是该地球长期以来最严重的金融危机。街上的乔意识到抵押支持证券(MBS),次级贷款和信贷危机等因素是他困境原因。 ...

1422
来自专栏AI科技评论

深度学习洪流:为何它能瞬间改变你的生活?(上)

编者按:我们和电脑之间的交流正在发生着转变,而深度学习也已经润物细无声地进入我们的生活,甚至在你意识到这一点之前,世界已经截然不同。 本文首发于fortune,...

2888

扫码关注云+社区

领取腾讯云代金券