专栏首页量化投资与机器学习幻方徐进:如何用Deep Learning为股票定价

幻方徐进:如何用Deep Learning为股票定价

量化投资与机器学习公众号编辑部报道

未进允许,禁止转载

演讲概述

2021世界人工智能大会于2021年7月8日至10日在上海世博中心和上海世博展览馆同时举行。世界人工智能大会自2018年以来,已成功举办三届。2021世界人工智能大会由国家发展和改革委员会、工业和信息化部、科学技术部、国家互联网信息办公室、中国科学院、中国工程院、中国科学技术协会,以及上海市人民政府共同主办。

作为本届世界人工智能大会承办单位之一,数库科技于7月9日下午举办以 “数据智能,链接未来” 主题分论坛,会中幻方量化合伙人徐进探讨了如何使用量化模型和深度学习在股市中赚钱的路径。

*图片来自数库科技

徐进提到,与传统股票定价不同,量化通过输入获取的信息,包括行情数据、上市公司财务数据,还有另类数据,比如新闻舆情、产业链等,进行模型训练,利用深度学习对股票进行定价。

在徐进看来,在这个过程中,需要处理很多关键细节,细节是魔鬼!以时间序列预测模型为例,包括数据清洗、规划处理、防止过拟合、 避免未来函数等,大量的细节决定了量化能否赚钱,并不是简简单单就能成功的。“只要你对市场、数据充分了解之后,才能得出比较好的赚很多钱的结果。”徐进说道。

徐进提到,量化通过训练模型、提升算力、提高集群使用效率等,来提升其深度学习能力,一定程度上在“薅”市场羊毛。但从另一个角度来看,量化对市场的正面影响很大。一是为市场提供流动性,平抑市场波动,二是提升市场的有效性,让公司定价更为合理。三是和全球顶尖的对冲基金进行竞争,提高本国的金融交易竞争力。

量化投资与机器学习公众号作为本次论坛的支持媒体单位,全程参与论坛的报道工作。下面,是公众号对徐进先生在本次论坛演讲内容的整理:

如何用Deep Learning为股票定价

这个模型所需的数据都是公开的,需要的算力也不是很大,一两块游戏卡就能搞定。当然它不会支撑特别大的资金量。

*图片来自幻方

首先这个模型的输入是全市场股票的数据价格,这个模型只用到了价格(当日的开高低收+均价)。

中间的图片是一个最简单的时间序列的预测模型——LSTM。如果你真的用心拿这个模型去做,最后你也是能赚钱的。但是,赚钱也还是前提的:细节是魔鬼!就是说上面这些你都做了,但是你还是要处理很关键的细节,而这些细节其实才是最终你能赚多少钱的一个核心问题。

拿数据清洗来说,为什么要对数据进行清洗?上面的数据看上去也不是很复杂,也就是高开低收以及当日成交均价,但是这里面会隐藏很多问题,比如有些股票是刚上市的新股等。再者是涨停、跌停的股票怎么处理。有些股票波动异常,甚至被证监会点名有操纵的嫌疑,这些该怎么处理?对于金融时序数据来说,噪音非常大,信噪比非常低。我们如果预先对一些数据进行处理,这对你的模型训练会有很大的帮助。如果你什么都不管,把数据直接丢给LSTM模型,基本上得不到好的结果,因为LSTM也不是神!

类似于这样的细节后面还有很多,只要你对市场、数据充分了解之后,才能得出较好的、赚更多钱的结果。

我们实际工作的模型

这是一个可以赚钱的实际的模型,我们也在用,但是这个模型并不能解决所有的问题,接下来介绍一下我们实际工作的模型。

*图片来自幻方

第一行是行情数据,但是我们做了很多的处理。接下来有来自财报的数据、公告、新闻文本的信息,再有就是上下游产业链,股票相关性的分析。把这些都输入到多层感知器模型(MLP)我们才会得到一个支持大规模资金管理、交易的复杂模型。因为时间序列模型非常耗资源,数据量非常大,所有耗时会非常久!

我们用去年7月份发布的DGX-A100服务器跑完这个模型大约需要120天的时间,基本毫无意义~

*图片来自幻方

那怎么解决这个问题呢?

堆机器、堆算力

当然,不是简单的堆,简单的买!那么,幻方是如何怎么做的呢?

幻方萤火超算

*视频来自幻方 萤火搭建过程

一个超算和普通的数据机房是不太一样的,因为它的单位面积算力能耗特别大,要处理的复杂问题比较多,并不是去租几个IDC机房把机器放进去就能解决的。

目前萤火超算的硬件设施为:

  • 625计算节点,5000张A100
  • 200000GB显存 414208GB内存
  • 780 PFlop/s机器学习算力
  • 28PB SSD存储服务器
  • 深度优化的BeeGFS文件系统
  • 2.0TIB/s读取性能

采用了现在全世界能买到的最贵的、速度最快的800口的交换机(水冷交换机),每节点IB互联,200 Gbps传输带宽。

算力对比

*图片来自幻方,所有性能统计均基于TensorFloat-32格式理论算力值,Nvidia、Tesla超算性能数据均来自公开材料

图片的右边是特斯拉的Dojo原型机,左边是萤火,中间是Nvidia的Selene超算,在今年最新一次的排名为全球第6。

因为目前萤火已经投入了使用,所以萤火在整个事件上比特斯拉超至少超前了半年的时间。因为A100的计算卡是去年7月份才发布,幻方是亚太地区第一批拿到此卡的人,因为当时A100还是挺难买的。

读取速率和 IO500的对比

今年上半年继续建造萤火的时候也遇到很多的问题,挖矿的人太多了, 买不到足够的CPU和硬盘等等。

分布式存储十分难做,关键是其读取的速率。下图(右边)是现在全球IO500的存储读取速度榜单,第一名是中国鹏城实验室,读取速率最快。左图是幻方的结果,可以看到图上有个尖峰,是因为幻方每天早上6点钟会做压力测试,其读取速率达到了2800GIB/s,实际训练时已达到1800GIB/s。幻方现在的速率仅次于鹏城实验室,下半年幻方宣布会去参与这个榜单的评比。

*图片来自幻方

此外,包括集群如何调度,如何提高集群的使用效率,幻方做了很多事情。例如更新了很多针对计算卡做的库,未来有可能都会对外发布。

成果

基于此,幻方的AUM从2015年5亿增长到现如今的近1000亿。同时,幻方还成立了自己的AI Lab,不仅仅用于自己做交易,还希望利用所有的算力集群和资源,未来能够做一些基础的科学研究,与高校、实验室进行合作等等。

*图片来自幻方

对于金融市场,量化投资的意义

  • 为市场提供了流动性,平抑了市场的波动
  • 提升市场的有效性,让公司定价更为合理
  • 与全球顶级对冲基金竞争

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx),作者:全网Quant都在看

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)

    我是攻城师
  • 资源 | 基于OpenAI Gym的股票市场交易环境

    选自Github 机器之心编译 参与:李泽南 机器学习在股票市场中的应用一直是个吸引人的研究方向,前不久瑞士金融数据顾问的《如何用 Python 和机器学习炒股...

    机器之心
  • LSTM模型预测效果惊人的好,深度学习做股票预测靠谱吗?

    给你讲个段子!真实的! 我去一家量化交易公司实习,一次meeting中,我和老总还有一个资深大佬谈机器学习在股票和期货里面的应用。 我:LSTM在时间...

    机器学习AI算法工程
  • tf26: AI操盘手

    话说股票价格到底能不能预测 先来看一下<随机游走假说-Random Walk>。 随机游走假说(英语:Random walk hypothesis)是金...

    MachineLP
  • 《囧妈》卖字节跳动,徐峥亏还是赚?揭秘电影利益链

    投资方给钱给制片方制作电影,电影完成后交给发行方进行宣传,提高曝光吸引观众,然后电影会交给院线方进行排片,排片完成后会交给线下电影院放映。

    挖数
  • 《囧妈》卖字节跳动,徐峥亏还是赚?揭秘电影利益链

    投资方给钱给制片方制作电影,电影完成后交给发行方进行宣传,提高曝光吸引观众,然后电影会交给院线方进行排片,排片完成后会交给线下电影院放映。

    数据森麟
  • 用GAN炼制长生不老药,这么玄幻的公司竟然能拿到药企投资

    Insilico Medicine是一家医药AI公司,他们主要做的事情就是——研发长生不老药。

    量子位
  • 4月14日对话吴恩达(Andrew Ng):超级大咖深度解析人工智能的发展现状与未来沙龙实录

    2016年4月14日(周四)21:00 - 22:30 嘉宾: - 吴恩达(Andrew Ng):百度首席科学家,“百度大脑”、“谷歌大脑”负责人,斯坦福大学计...

    小莹莹
  • 《港囧》火爆,徐峥收益多少?体验一下“业务思维×资本思维”的分析方法

    大数据文摘
  • 使用神经网络预测股价:失败了!!!

    当我们说起金融时间序列的预测,大家可能第一个想到的是预测股票价格。 然而,Chollet 的《Deep Learning with Python》一书强调,人们...

    量化投资与机器学习微信公众号
  • 【干货荟萃】机器学习&深度学习知识资料大全集(一)(论文/教程/代码/书籍/数据/课程等)

    点击上方“专知”关注获取更多AI知识! 【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍...

    WZEARW
  • 大数据狂想:你必须把握的未来七大趋势

    本文来自科幻作家陈楸帆(微博@陳楸帆)投稿,曾写过《丽江的鱼儿们》《鼠年》《无尽的告别》《G代表女神》《荒潮》等科幻作品,在本篇文章中分享了自己对于未来科技趋势...

    小莹莹
  • 【机器学习Machine Learning】资料大全

      昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^)   推荐几本好书: 1.Pattern Recogni...

    Charlotte77
  • 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

    机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注:机器学习资料篇目一共500条,篇目二开始更新...

    Albert陈凯
  • 【资料分享】500篇干货解读人工智能新时代

    500篇干货解读人工智能新时代 本文主要目的是为了分享一些机器学习以及深度学习的资料供大家参考学习,整理了大约500份国内外优秀的材料文章,打破一些学习人工智能...

    Angel_Kitty
  • 独家 | 一文了解强化学习的商业应用2

    作者:Aishwarya Srinivasan, Deep Learning Researcher

    数据派THU
  • 12个场景应用,百余种算法,AI是如何攻占经济学的?

    2020年2月7日,在第34届美国人工智能协会年会AAAI 2020现场,深度学习三巨头齐聚,“计算机视觉”与“机器学习”分座两旁,对最佳论文虎视眈眈。

    AI科技评论
  • 【年度系列】监督学习标签在股市中的应用(代码+书籍)

    由于低信噪比和非平稳的价格分布,预测未来股票价格走势是一件十分困难的事。现在流行的机器学习算法通常会给你带来不怎么满意的结果。

    量化投资与机器学习微信公众号
  • 2020年度最佳的23个的机器学习项目(附源代码)

    我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?

    大数据文摘

扫码关注云+社区

领取腾讯云代金券