专栏首页量化投资与机器学习量化投资里的无监督学习算法:聚类

量化投资里的无监督学习算法:聚类

0

前言

本文的作者是我们熟悉的老朋友:Marcos Lopez de Prado

公众号第一次介绍Marcos Lopez de Prado,则是来自他一篇论文:《The 7 Reasons Most Machine Learning Funds Fail》,公众号进行了解读,详见:

机器学习应用量化投资失败的7个主要原因

此后我们还对他的另一篇论文进行了解读:《The 7 Reasons Most Econometric Investments Fail》,详见:

计量经济学应用量化投资失败的7个主要原因

在国内大多数人眼中,最为出名的是他那本大名鼎鼎的《Advances in Financial Machine Learning》,堪称经典!

1

要点

1、金融领域的许多问题需要对变量或观察结果进行聚类:

  • 因子投资,相对价值分析
  • 风险管理、投资组合构建(例如:推导有效边界)
  • 降维(例如:分解债券收益驱动因素)
  • 多重共线性系统的建模(例如:计算p值)

2、尽管聚类很有用,但在计量经济学课程中几乎从未教授过它。

  • 没有一本主要的计量经济学教科书在讨论,只有少数的学术期刊文章在讨论金融数据集的聚类。

3、在今天的推文中,我们将回顾了两种常见的聚类方法:

  • 划分聚类
  • 层次聚类

4、不同特征/相似度度量将导致不同的聚类:

  • 关键是在拟订问题时要使结果具有经济意义和可解释性

2

什么是

1、聚类指根据一定的准则,把一份事物按照这个准则归纳成互不重合的几份。机器学习中,聚类指按照一个标准,这个标准通常是相似性,把样本分成几份,使得相似程度高的聚在一起,相似程度低的互相分开。

2、聚类的方法很多,有基于分层的聚类,基于划分的聚类,基于密度的聚类。不同的方法有各自的特点,适用于不同分布的数据。有的适用于大数据集,能发现不同的任意形状的数据。有的算法简单,适用于小量数据集。众多方法中又有无监督学习,和半监督学习

3、在金融领域,在投资过程的每一步都会自然而然地出现聚类问题。

具体的算法介绍这里不再叙述,接下来看一下与金融实际先关的一些应用。

3

因子投资/相对价值

  • 因子投资试图对具有某些共同特征的资产进行定价。
  • 传统上,经济学家根据单一特征对资产进行分组:
    • 例如:价值、规模、动量、质量、流动性等。
  • 忽略了已知的交互影响,例如价值与动量,以及层次依赖关系。
  • 一个自然的解决方案是在多个特征上对资产进行聚类,并让算法找到最优的聚类数量:
    • 然后我们可以评估每个聚类的性能,并评估风险溢价是否具有统计学意义。
    • 这种方法也适用于相对价值策略。

4

特征的重要性分析

1、考虑一个包含40个特征的二元随机分类问题,其中5个特征是具有信息的,30个是冗余的,5个是噪声的:

  • 信息特征(标记为“I_”)是用来生成标签的特征。
  • 冗余特征(标记为“R_”)是指通过向随机选择的信息特征添加高斯噪声而形成的特征。
  • 噪音特征(标记为“N_”)是指些不用于生成标签的特征。

2、聚类算法防止了替代效应对MDA或MDI分析的偏见:

寻找最优的集群数量:

将冗余的特征捆绑在一起,形成一个信息丰富的特征:

5

投资组合构建

1、当K个证券进行相关聚类时,凸优化方法(马科维茨、BL等)无法区分。

2、一个解决方案是应用NCO算法:

a. 对相关矩阵进行聚类。

b. 计算最优的簇内分配。

c. 计算最优的簇间分配。

d. 通过(b)和(c)的点积得到最优权值。

NCO算法介绍连接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3469961

步骤a和b允许我们将一个“Markowitz问题转化为一个well-behaved的问题。

NCO计算的最大夏普比率组合为马科维茨RMSE的45.17%,即RMSE减少了54.83%。

6

相关矩阵

1、人们普遍认为,经验相关性包括:

  • 导致不可靠估计的数值属性
  • 预测能力差

2、此外,基于因子的相关矩阵有其自身的注意事项。特别是,估计的因子通常是:

  • 无等级
  • 不允许在不同的层次上进行交互

3、我们可以从一个知识图中得到一个Forward-Looking相关矩阵:

Forward-Looking相关矩阵具体介绍:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3484152

顶部和底部实施理论隐含结构(GICS)之前和之后的相关矩阵图。

通过理论树状图添加信号,使相关模式更平滑、噪声更小,同时保留了层次结构。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx),作者:QIML编辑部

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 特征归一化:Why?How?When?

    在使用某些算法时,特征缩放可能会使结果发生很大变化,而在其他算法中影响很小或没有影响。为了理解这一点,让我们看看为什么需要特征缩放、各种缩放方法以及什么时候应该...

    量化投资与机器学习微信公众号
  • Alpha来自哪里?

    Warren Buffett(巴菲特), George Soros(索罗斯)和Ray Dalio(达利奥)他们之间是不能很好地完成彼此的工作滴。

    量化投资与机器学习微信公众号
  • 【高能】用PyMC3进行贝叶斯统计分析(代码+实例)

    问题类型1:参数估计 真实值是否等于X? 给出数据,对于参数,可能的值的概率分布是多少? 例子1:抛硬币问题 硬币扔了n次,正面朝上是h次。 参数问题 想知道...

    量化投资与机器学习微信公众号
  • 【机器学习】聚类算法总结

    聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算...

    陆勤_数据人网
  • 4种基本聚类算法应如何正确选择?这份攻略值得你收藏

    数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是,什么通用性参数可以给出最佳结果,以及什么才能称为“最佳”。

    华章科技
  • 数据科学家必须了解的六大聚类算法:带你发现数据之美

    机器之心
  • factoextra包 聚类分析(2)

    聚类分析是一种数据贵呀技术,旨在揭露数据集中观测值的子集。它可以把大量的观测值归为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间的...

    用户1359560
  • 聚类方法的区别解读:各种聚类分析呀呀呀

    k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量 系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统...

    学到老
  • 机器学习|聚类(下)

    接下来几周的时间,我们将会推出关于《西瓜书》读书笔记的连载文章,updating~

    数据山谷
  • 一文解读聚类中的两种流行算法

    原作:Anuja Nagpal 谢阳 编译自 Medium 量子位 出品 | 公众号 QbitAI 在这篇文章中,Nagpal以简明易懂的语言解释了无监督学习中...

    量子位

扫码关注云+社区

领取腾讯云代金券