投资版AlphaGo系统探讨

感谢作者袁峻峰投稿,如需转载请联系作者(微信号 jake-80 )。

在AlphaGo战胜人类围棋顶尖高手之际,本文简单探讨了投资AlphaGo系统模块与训练数据以及可行性。并将其实现逻辑与郝伯特•西蒙过程理性算法比较。文章最后讨论了如何应用投资AlphaGo系统为人类服务。

细想一下,围棋和投资有很多类似的地方,围棋是在和对手博弈,投资可看作是在和市场博弈。围棋是在19*19的棋盘上选择,如果是国内A股市场,那投资组合是在2800多只股票上做选择。围棋胜负在于最终盘面优势,投资则在意周期最终收益。

图1(Google提供)

所以可以假设:

  • 在股票市场,每天调整持仓为一次行动,该行动是个人根据股票特征,市场特征的环境下作出的决策。以一年为期限,一个样本大约是250周期,期末统计相关指标。
  • 目标:正样本为年化收益率,收益波动率,最大回撤,夏普率,胜率等综合指标较优样本,为胜。反之为负样本,为负。

假设我们已有合适与金融领域的AlphaGo系统,主要模块参考田渊栋博士的描述[6]:

  1. 策略网络(Policy Network),给定当前头寸与市场条件,预测下一步的持仓策略集合。
  2. 估值网络(Value Network),给定当前头寸与市场条件,预测该持仓策略胜负。
  3. 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),博弈选择搜索,结合以上两模型决定下一步持仓策略。

对比下郝伯特•西蒙过程理性算法描述[2] [8]:

  • 第一步,行为主体设想自己的可选方案集合
  • 第二步设想可选方案集合可能后果集合
  • 第三步,第四步,评估可能后果集合的概率,并因为局部有序法则,可量化满意度既回报值。
  • 第五步,从可能后果集合中,根据预期目标,选择满意的可能后果集合子集
  • 第六步,从可选方案集合中选择满意的可能后果集合子集对应的方案

可以发现AlphaGo系统逻辑和郝伯特•西蒙过程理性算法基本上是一致的。

接下来,我们来讨论样本数据,假设我们能不受限的的得到需要的数据。

基础数据包括:个人客户历史持仓,股票历史截面数据,市场历史截面数据,具体数据描述请参见文章[7],关于样本集的选取,我认为有个关键问题,是选用全部客户的交易记录,还是选用专业投资人以及投资高手的交易记录。田渊栋博士也说“没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。”[6]根据其描述,棋手应该是段位以上围棋专业棋手。所以我认为也应该选取专业投资人的交易记录。

关于策略网络(Policy Network),本人还没找到相关训练样本数据描述。由于其是深度强化学习网络(Deep Reinforcement Learning Network),根据以前看到的高频交易强化学习案例,初步设想是将每日持仓变化作为行动,关联股票和市场数据作为状态,回报函数是收益等统计值,学习目标是函数是当期是否为之前描述的正样本。欢迎讨论。

估值网络(Value Network)训练样本,即是用于对深度卷积神经网络DCNN训练。田渊栋博士对样本数据的描述是“每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。”[6]由于每人每一年交易行为样本对应一盘棋,同样只随机取其中一天持仓以及关联股票和市场数据作为训练数据,让估值网络预测最终胜负以训练深度卷积神经网络。“需要三千万局自我对局”[6]那意味着3000万次系统回朔测试Back Test,以优化估值网络。

至此,我们就得到战无不胜的投资版AlphaGo系统。田渊栋博士文章中还说到“他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。”[6]既是说虽然AlphaGo系统训练过程中使用了大量棋手对局样本,但也就止于此,并没有其他围棋领域知识。

这点着实让人可恼,我们之前利用计算机都是我们提供数据结构和算法,计算机执行。后来软件设计发展到面向对象,也是为了更好的和领域知识相对应。但现在,只要我们提供数据与规则目标,计算机已经可以在围棋这样需要直觉的人类游戏中胜出了。正如图灵奖得主吉姆•格雷留给世人的最后一次演讲《科学方法的革命》中说: “随着数据的爆炸性增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。数据密集范式理应从第三范式中分离出来,成为一个独特的科学研究范式。”即第四范式。虽然现在AlphaGo系统做的还是人类算法的模拟仿真。

但想想也不用太担心,围棋的规则是固定的,但金融的规则可不是固定的。正如伊曼纽尔•德曼教授所说“物理是与上帝较量,上帝不会经常改变规则,金融却是与上帝创造的人较量”[4]。还好我们还有杀手锏,如熔断机制,很轻松就可以碾压AlphaGo系统,让其做的所有训练无效。另外如何界定数据边界,信息收集成本等问题,都可以让我们不用太担心投资版AlphaGo系统。

最后,我们来探讨如何更好的使用AlphaGo系统为人类服务。李喆六段在评价李世石两盘棋说:“AlphaGo给出选点的思维方式与人类不同,但我们却可以用人类的方式去理解它,这是一件多么美妙的事情。”[10] 围棋欧洲冠军樊麾也提到“AlphaGo 就像是日本漫画《棋魂》里的主人公「佐为」。”[9]学棋之人,家里有个佐为,是件多么美妙的事。

回顾下金融个性化推荐中股票购买概率预测模型的“基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。”[7]这些决策都是理性决策吗?答案当然是否定的。希勒教授说过“设计新型风险管理基础架构的第一步就是充分认识人类在决策过程中意志薄弱的天性” [5]。例如实验证明“收益增量带来的快乐强度大约在增量的0.5-1倍之间,而因损失增量而产生的痛苦大约是增量的2.5 倍。” [2] AlphaGo系统当然是理性的,没有情感的,但人如何利用其增加自身决策中的理性呢?斯宾诺莎说过“只要心灵理解一切事物都是必然的,那么它控制情感的力量便越大”。 [3]借助投资版AlphaGo系统的分析可以帮助人们更加理性的决策。如何利用机器学习辅助人类更加理性的决策将是值得长期探索的问题。

参考文献:

[1] 汪丁丁.行为金融学基本问题[J].财经问题研究.2010,7 .

[2] 汪丁丁. 行为经济学要义[M]. 世纪文景,上海人民出版社.2015,10.

[3] 斯宾诺莎. 伦理学[M]. 商务印书馆.1998,01 .

[4] 伊曼纽尔•德曼. 失灵[M]. 中信出版社.2013,10.

[5] 罗伯特•希勒. 新金融秩序[M].中信出版社.2013,11.

[6] 田渊栋. AlphaGo的分析[OL].知乎 专栏文章.2016-02-29.

[7] 袁峻峰. 大数据下客户金融产品购买概率预测[OL].大数据文摘,量化派 等(公众号). 2016-02-19.

[8] 郝伯特•西蒙. 现代决策理论的基石[M]. 北京经济学院出版社.1989.

[9] 赵巍,赵云峰,Rita. 专访樊麾: AlphaGo会发现一种人类想象不到的围棋之美[OL] . 机器之心 (公众号). 2016-03-08.

[10] 李喆. 这两盘棋 没人会比李世石做得更好![OL] . 喆理围棋 (公众号). 2016-03-11.

作者介绍:

袁峻峰,复旦金融学硕士,FRM金融风险管理师。10年以上从事金融IT相关领域工作经验。对国内银行间市场金融产品(包括衍生产品)的量化分析、市场风险管理以及相关系统实现具有丰富经验。目前在民生银行从事个人客户金融大数据分析。希望能将金融领域知识与大数据平台高运算能力、以及机器学习相结合,欢迎探讨, 联系本人微信或邮箱yuanjunfeng_fr@163.com。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

TensorFlow从0到1丨第3篇:人类学习的启示

上一篇TensorFlow的内核基础介绍了TF Core中的基本构造块,在介绍其强大的API之前,我们需要先明了TF所要解决的核心问题:机器学习。 什么是机器学...

44240
来自专栏新智元

ResNet成为AlphaGo Zero核心技术,孙剑详解Zero的伟大与局限

【新智元导读】DeepMind迄今最强棋手AlphaGo Zero横空出世,其中一个重要组成部分是出自华人团队的深度残差网络ResNet。新智元采访了深度残差网...

39470
来自专栏新智元

【AlphaGo之后会是什么】一文读懂人工智能打德扑

作者:邓侃 【新智元导读】攻克围棋后,什么是AI的下一个征程?打扑克!相比信息完全可见的围棋,能够猜疑、虚张声势的德扑要困难得多。冷扑大师Libratus是首个...

375100
来自专栏CDA数据分析师

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌...

253100
来自专栏PPV课数据科学社区

图表有陷阱,读图需谨慎!

无论你就职于哪个公司,每到年底你都免不了制作或处理一些图表。不管是个人总结、业绩表现还是财务报告,图表以其清晰直观的形式受到许多管理层的追捧。公司也逐渐开始将复...

31860
来自专栏AI科技评论

重磅 | Facebook 田渊栋详解:深度学习如何进行游戏推理?

AI科技评论按:腾讯围棋 AI 程序“绝艺”(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的...

36970
来自专栏量子位

能把晦涩难懂的研究工作讲清楚,Distill就奖你10000美刀

Root 编译整理 量子位 出品 | 公众号 QbitAI 在机器学习研究圈里,大家可能都有这样的赶脚: 大部分从事机器学习研究的人,不太擅长写作,无法清晰地呈...

34260
来自专栏吉浦迅科技

人工智能技术怎样帮我戒掉布朗尼蛋糕

我那风中烛火般摇晃的意志力在跟双份巧克力布朗尼蛋糕对抗着,果不其然,布朗尼蛋糕大胜。 Lose It 饮食 app 的深度学习卡路里计算器,是我拿来对抗美食诱惑...

472140
来自专栏灯塔大数据

荐读|五本最受欢迎的机器学习免费电子书及下载

如果对机器学习有所了解,想必对 KDnuggets 这个网站并不陌生。它们上个月举行了一个机器学习电子书评选,经过网友们的热心票选,得到了一份五大免费书的榜单...

36940
来自专栏新智元

“世界最美机器人之父”陈小平:机器人灵巧性可解决不确定性问题

演讲嘉宾:陈小平 【新智元导读】新智元AI WORLD 2017 世界人工智能大会,中国科技大学教授陈小平教授做了以《机器人灵巧性——人工智能的新挑战》为题的分...

401150

扫码关注云+社区

领取腾讯云代金券