股票、基金买啥啥跌?大数据来给你支招!

说到基金股票,不仅仅是金融小白会一头雾水,就连资深股民都难逃买啥啥就跌的痛苦。近期数据侠实验室,DT君邀请到了Merkle高级数据分析师周秀丽、秦溱,自称金融小白的她们将会从大数据这一独特的角度带你走进股票和基金。

▍以词云总结大盘方向

机器学习在金融市场上的应用存在着很多短板,它的主要问题体现在三个方面:

  • 一是回测数据与真实市场数据之间的分布可能不同;
  • 二是存在着大量无法量化的变量;
  • 三是金融标的价格决定因素的多样性和复杂性,特别是对短期股价影响较大的公司层面消息和宏观经济政策。如前段时间的中美贸易摩擦,对于这样的突发性事件,没有办法做出提前预测,这也是美股及A股突然遭受重挫的原因。

以2017年12月至2018年1月、2018年2月至2018年3月为两个时间段,用Python爬取新浪财经上关于大盘综述的述评,目的是用词云分析的方法看这两个时间段中消息层面上所关注的东西。

在第一个词云中可以看到有一个很大的“概念股”词汇,这就意味着从去年年度开始的那段时间,概念股是一个经常被提及的词汇;同样,在今年的2月至3月,概念股依旧是一个被经常提及的词汇。除去概念股、以及一些描述性词汇,还能看到在去年年底的时候,创业板、白酒、股指、银行也是相对被提及较多的一个词;但从今年开始并没有看到白酒,反而看到券商、军工、金融这些词汇。除此之外,在这两个图中,除了占比很大的“概念股”外,最为突出的是“震荡”这一词汇,这也是这段时间A股给大家的一个印象——一直处于震荡行情之中。

概念股对金融小白而言,是个很陌生的词汇。除去查询相关概念外,我们还可以通过数据看到描述概念股时会提及哪些词汇。

从上面这个词云图中可以看到独角兽、科技、租售、新区等这些在今年的宏观政策层面经常被提及的词汇,特别是独角兽。这些词云能让我们对A股这几个月的行情有一个大致的了解,那就是他一直处于震荡之中。

带着这样的一个背景,开始对股票做出研究。由于概念股很大程度上受到政策的影响,但由于政策的不可预见性,本次研究主要撇除政策影响,借由公司的财务数据以及由此计算得来的变量对股票的内在价值做模型的预测分析。

主要用到的是Adaboost分类算法,用金融机构经常关注的市值数据及三大财务报表数据,对涨幅较高的股票做出预测。随后通过直接获得或者是间接计算的方法,从企业的三大财务报表中拿到财务数据以及其公司的市值数据来作为我们的数据池。

市值数据其实就是在打开财经网站时经常会看到的一些变量,如股票换手率、公司总股本、公司流通市值、以及用来衡量公司价值的市盈率。

在真正运行模型的时候,我们会把所有数据分成两个部分,一是训练集,一是测试集。我们会在训练集上训练我们的数据,以此来让它达到更高的精度,形成一个强的分类器,再把这个算法应用到测试集上,看看我们的模型是否能在测试集上获得一个较好的结果。

Adaboost的算法在训练集上能够达到85%的精确度。但如果把它运用到测试集上,它的正确度就会降低到70%。在股票的选择中,是否能将一个70%的正确度作为选举股票的参考标准,其实还需要打上一个大大的问号。

从结果来看,当看到上边的指标重要度时,那些重要性较高的指标确实是在机构挑选股票时经常用到的一些指标,如总股本。在对金融行业的数据做了简单测试后,我们发现,既然不能运用这种方式来获得我们想要的结果,那是否能用我们自身优势,运用数据分析的方法挑选比较重要的指标?

▍用多因子策略挑优质股票

多因子策略是业内最常用最经典的策略,正如前面所说,国家政策对行业的发展、股票的涨跌有重大的影响,但由于政策无法量化和难以预测。我们决定剔除这些因素,单纯从数据分析角度出发,利用现有财务数据,创建多因子策略,来挑选具有升值潜力的股票。

影响股票的因素多种多样,多因子策略就是找出合适的多个因子对股票进行打分。得分最高的一些股票就是优质股票。

首先选取了沪市和深市共2700多支股票,并且获取了2016年间这些股票的每日股价,以及对应时间区间的三大财务报表数据,财务指标以及每支股票的概念板块,形成我们的变量池,共400多个。

随后要从400多个变量中挑选出某几个因子。先通过样本选取、变量recording、变量的筛选、缺失值的填充以及模型的选择和调整来达到初步筛选因子的目的,使变量的数目减少成了80个左右。

紧接着使用逻辑回归,以股票的涨跌(0/1) 变量作为因变量,并且通过不断调整因子,最终得出对股价影响最大的八个因子。在这八个变量中,除了市盈率是按天变化的,其余七个变量都是按照季度进行变化的,并且他们大多数都来自三大财务报表。

有了因子就可以构造策略,因子策略就是在所选股票池内将所挑选的因子线性组合起来,实现对每支股票进行打分,挑选出排名前十的股票,便是所需要的优质股票。

再用回测来证明所选股票,所谓回测就是在过去的时间段内运行策略对结果进行检验。

选用沪深300作为股票池,用冒泡排序的方法,选择因子得分Top10的股票模拟买入卖出操作,设定调仓频率为15天,即我们的策略每隔15天运行一次,并且运用2017年1月1号到本月初的历史数据,分不同时间段进行多次回测,来检验我们的策略。

从过去一年的回测结果来看,大盘的收益率为22.55%,而我们的策略收益率为67%,足足是大盘的三倍,并且该策略的最大回撤仅为7.8%。因此可以说该策略在过去一年中有不错的表现。接着我们以过去半年和过去三个月运行该策略,短期检验效果依然显著,打败了大盘。由于这一策略是每隔15天运行一次,每次Top10股票有进有出。以过去一年的策略运行结果为例,挑选出了持有时间最长的以下九只股票,其中有三支酒类股,六只为长期绩优、回报率高的白马股。在2017年白酒家电类股票表现很强势,以贵州茅台和格力电器为代表的消费白马股成为市场关注的焦点。而白酒板块作为消费类白马股的领军品种,多支酒类股从年初涨到年尾。从后面基金的持仓情况来看,白酒股成为不少绩优基金的重仓股。另外还有两只汽车概念的股票被多次选进策略中。

茅台的价格由去年年初的300多一路飙升到现在的700多,而它的收益也是有目共睹的。

对于上图的八支股票,每支线段的起点代表这支股票被选进策略,终点代表剔除策略被卖出。但有的股票如格力电器和牧原股份有多条线段,这就代表着两支股票先前被选入策略后又被剔除,在之后的某个时间段再次入选策略。而且最终不难发现,绝大多数股票卖出时的股价是高于买入时的股价的。

以上结果表明,多因子策略是经得住考验的,即使是在股价震荡的2017年,依然完胜大盘。

▍用数据带你认识优质基金

市场上的基金是根据投资对象来划分类型的,而不同类型的基金有不同的风险和收益。

  • 股票型基金是投资于股票市场的基金,其收益率高,但是收益与风险并存,它有专门的基金经理和公司自主决定买入哪只股票来进行资产的配置。因此它的收益率与掌控它的基金经理息息相关。
  • 债券型基金主要投资于像国券、国债、金融债的基金,它的收益稳定风险低,适用于对资产安全性要求较高,并且希望收益稳定的人群。
  • 货币型基金就是以货币市场工具为投资对象,例如余额宝。
  • 混合型基金是指既投资于股票债券还投资于货币市场工具的基金,它的回报风险要低于股票型基金,但是要高于债券和货币型基金。
  • 指数型基金以特定的指数,比如说沪深300为标的指数,是一种被动型的投资方式。
  • QDII是一种投资境外市场的基金。

为了进一步了解市场上的基金基本情况,我们用Python爬取了天天基金网上所有的公募、私募基金共7000余只,包括不同时期的收益率、风险类型、基金规模、所属基金公司及基金经理等数据。从数据中发现,这些基金归属于124家基金公司,有12万亿元的基金规模,被1300多位基金经理所管理。

从基金的类型占比来看,混合型基金由于它的投资选择多,配置比较灵活,更能满足投资和风控的需要,在数量上是占绝对优势的。 而股票型基金由于它的风险较高,在数量占比上要略低于债券型和指数型基金。从基金的规模来看,基金规模前十的基金公司控制了市场上近一半的基金资产。

从过去一年的平均收益率来看,各类基金的差别并不是很大。排名前十的基金有107%的年平均收益率,净值足足翻了一倍。这归因于第一支基金的年收益率太过抢眼,而拉高了整体的平均收益率。

在这Top10基金中,混合基金就占了六只,足以证明运作良好的混合性基金回报率甚至会超过高收益的股票型基金。

在对基金有了大致了解后,为了考察专业型基金经理持仓情况与用多因子策略挑选出的优质股票有何差异?我们将重点放在股票型基金上。

通过对去年年收益率排名前十的股票型基金分析发现,排名第一的易方达消费行业基金是APP强推的一只基金。在对它的标签做了一个大概的简述后,发现它首先是一只股票型基金,其次它是一个价值型基金,且它的权益基金占到了总资产的83%。选取了这只基金从2016年至2017年每个季度重仓持有的股票的数据,并算出其持仓比均值。

从上图中可以发现,第一名无一例外是去年表现最好的贵州茅台,第二名同样也是酒类股票五粮液,与用多因子策略挑选出的优质基金有重合之处;从它的基金名字“消费行业”中假想消费行业是否在去年总体呈现一个普遍上涨的行情?为了印证这一假想,选取了国泰国证食品饮料行业的指数这一具有普遍代表性意义的基金。

(图片说明:国泰国证食品饮料行业指数 160222)

而且从上图中可以看到,在去年年初到年末,这个代表行业的指数基金确实有着一个上涨的行情。

排名第二的基金是嘉实新消费股票基金。

从它的名字中就能发现这又是一只消费型基金,并且从它的重仓股来看,除了前几名的酒类之外,还有家电行业这些普遍是制造业行业的权重股。除了食品、饮料行业,是否整个制造业在去年都呈现出一个较好的行情?

(图片说明:招商制造混合 001869)

因此我们跟踪制造业整个行业表现的招商制造业混合基金来验证我们的想法。与上面的食品饮料行业相同,去年制造业也呈现着上扬的行情,但今年以来却出现了震荡行情。

注:以上内容根据周秀丽、秦湊在数据侠实验室的演讲实录整理。图片来自其现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。

作者 | 周秀丽、秦湊

编辑 | 王旭晶: wangxujing@dtcj.com

题图 | 站酷海洛

▍数据侠门派

本文数据侠周秀丽,现任南京电通Merkle数据分析师,主要从事CRM(客户关系管理)业务,业务内容主要包括协助世界500强的高科技企业出具业务报告、涉及营销活动、分析营销结果,并用模型帮助客户实现精准营销等等。喜欢阅读和旅行,热爱数据分析行业,希望借助数据了解不同的行业领域。

本文数据侠秦溱,现任南京电通Merkle数据分析师,从事数据分析近三年。熟悉业务分析技能,从数据分析到统计建模,为客户提供量化的营销策略。数据无处不在,希望通过挖掘数据背后隐藏的规律,了解生活,享受生活。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2018-04-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

为应对评分机器人,美国的大学生也开始背作文模版了

“(某一年)(写你最喜欢的大学)的(添加一个有声望的名字)教授做了关于(此处摘要辩论的关键)的研究,研究人员发现(在这里添加令人信服的数据),并且(这里提供更多...

9700
来自专栏新智元

神经网络教父 Hinton 传奇:从建筑学到物理学再到哲学,最后在人工智能取得成就

【新智元导读】 被誉为“神经网络教父”的 Geoffrey Hionton 的一生非常传奇,高曾祖父是发明布尔代数的布尔。他曾在剑桥先学了1个月物理就转了建筑,...

31530
来自专栏专知

深度学习理论在哪里?再思考- 中科院自动化所胡包钢研究员参加2017年NIPS会议感想

【导读】本文原本是为《基于信息理论的机器学习》教程中文注释后记准备的。但是上周我参加NIPS学术会议期间曾受《专知》邀请建议回来后写些会议感言。为简单将这感言与...

40540
来自专栏机器学习算法与Python学习

369亿估值的AI市场下,中国AI学习者的野心与实力

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 最近几天,在 2018 CES科技盛...

372100
来自专栏AI科技评论

干货 | 数学通大道,算法合自然?

算法对我们的生活中的有着各种潜移默化的影响,但算法是否存在被滥用的情况?本文对算法使用问题提出了自己的看法。

9320
来自专栏CDA数据分析师

Python股市数据分析教程(一):学会它,或可以实现半“智能”炒股

本篇文章是”Python股市数据分析”两部曲中的第一部分,内容基于我在犹他州立大学MATH 3900 (Data Mining)课程上的一次讲座。在这些文章中,...

80670
来自专栏量子位

AI通过了艺术创作图灵测试,你根本分不出来作者是不是人

安妮 千平 编译整理 量子位 出品 | 公众号 QbitAI 各位亲爱的文化圈权威,今年不用再看画了:近年来最大的艺术成就已经发生了。 这项艺术成就的诞生地,不...

41470
来自专栏AI科技大本营的专栏

关于用AI搞金融这件事,瞎BB吹上天没用,听听实战的人怎么说

金融学理论和计算机技术的不断革新,带来了基于数据处理与数据分析的量化投资策略的蓬勃发展,量化模型成为了预测市场和指导投资的有力工具。然而证券市场是一个复杂的非线...

31880
来自专栏AI科技评论

学界 | 只要社会存在偏见,即便是算法操控的机器也无法摘下有色眼镜

AI科技评论按:用网络上现成的语言资料训练机器学习模型已经是现在主流的做法。研究者们希望人工智能从其中学到对人类自然语言的理解,但是人工智能所能学到的内容还远不...

35850
来自专栏北京马哥教育

Python股市数据分析教程——学会它,或可以实现半“智能”炒股 (Part 1)

摘要:本篇文章是"Python股市数据分析"两部曲中的第一部分,主要介绍金融数据分析的背景以及移动均线等方面的内容。 本篇文章是"Python股市数据分析"两部...

418100

扫码关注云+社区

领取腾讯云代金券