金融中用机器学习的一个常见错误时同时学习仓位的方向和规模。具体而言，方向决策（买/卖）是最基本的决策，规模决策（size decision）是风险管理决策，即我们的风险承受能力有多大，以及对于方向决策有多大信心。我们没必要用一个模型处理两种决策，更好的做法是分别构建两个模型：第一个模型来做方向决策，第二个模型来预测第一个模型预测的准确度。很多ML模型表现出高精确度（precision）和低召回率（recall），即（正确预测为交易机会的次数/预测为交易机会的次数）很高，（正确预测为交易机会的次数/交易机会的次数）而很低。这意味着这些模型过于保守，大量交易机会被错过。F1-score 综合考虑了精确度和召回率，是更好的衡量指标，元标签（Meta-Labeling）有助于构建高 F1-score 模型。首先（用专家知识）构建一个高召回率的基础模型，即对交易机会宁可错杀一千，不可放过一个。随后构建一个ML模型，用于决定我们是否应该执行基础模型给出的决策。

Meta-Labeling的方法

要构建一个模型来决定是否买卖某个资产，我们需要：

1、确定头寸方向（side）

当价格涨或正收益到一定程度，做多
当价格跌或负收益到一定程度，做空
其他情况下，什么都不用做

2、确定头寸大小（size），甚至包括不下单（size = 0）

Meta-Labeling的核心优势在于将确定头寸的任务分解为了两个部分：头寸方向，头寸大小

对于二元分类，meta-labeling可以有效帮助我们提升F1-score。在确定头寸方向的过程中，我们首先建立一个ML模型 (primary model) ，尽力提高查全率 (recall)。随后我们对该ML预测的正例使用meta-labeling，并建立第二个ML模型 (secondary model) 来提高查准率 (precision)。第二个ML模型的主要目的是从已经挑选出的机会中再一次筛选投资标的。

Meta-Labeling的优点

1、元标签+ML则是在白箱（基础模型）的基础上构建的，具有更好的可解释性。

2、元标签+ML减少了过拟合的可能性，即ML模型仅对交易规模决策不对交易方向决策，避免一个ML模型对全部决策进行控制。

3、元标签+ML的处理方式允许更复杂的策略架构，例如：当基础模型判断应该多头，用ML模型来决定多头规模；当基础模型判断应该空头，用另一个ML模型来决定空头规模。

4、赢小输大会得不偿失，所以单独构建ML模型对规模决策是有必要的。

5、头寸方向和头寸大小的分解允许我们先简后繁。例如我们可以使用复杂模型分别对多头和空头进行专门训练确定头寸大小。

Meta-Labeling的案例

1、使用基本面模型挑选标的并确定头寸方向，使用元标签方法确定标签。

2、使用机器学习模型在元标签进行训练，得出概率可转化成头寸大小。

6、特征重要性

1、机器学习算法识别高维空间中的模式。

2、这些模式将特征与结果联系在一起。

3、这种关系的性质可能极其复杂，但我们总是可以研究哪些特征更重要。例如，即使机器学习算法不能推导出牛顿引力定律的解析公式，它也会告诉我们质量和距离是关键的特征。

在传统的统计分析中，由于模型的错误定义，关键特征经常被忽略。

在机器学习分析中，我们放弃封闭形式的规范来确定哪些变量对预测是重要的。

一旦我们知道了在起作用的因素是什么，我们就可以发展出一个理论。

7、信用评级/分析师建议

1、股票分析师应用许多模型和启发式方法来产生信用和投资评级。

2、这些决定并不是完全随意的，它们对应于一个复杂的逻辑，而这个逻辑不能用一组简单的公式或一个定义良好的过程来表示。

3、机器学习算法成功地复制了银行分析师和信用评级机构提出的大部分建议。

在穆迪的这个例子中：

下图显示了债券的散点图，作为两个特征(x,y)的函数，其中默认值被涂成红色。中间的图表显示，传统的计量经济学方法无法建立这种复杂的非线性关系的模型。右图显示一个非常简单的机器学习算法，其表现良好。

8、非结构化数据

在下图中，一种算法识别出了含有特斯拉股票相关信息的新闻文章：

蓝色：每日文章总数。平均为458篇/天，最大5000+篇
绿色：每日积极情绪的文章数。
红色：每日负面情绪的文章数。

再如国内的上市公司，ChinaScope数库对每篇文章的实体进行了情绪识别给出了正负面情绪，同时也对相关实体和整篇文章给出情绪值。这个值就可以应用在量化策略中去：

近期JPMorgan还采用此数据写了一篇基于A股的量化策略报告：

JPMorgan最新报告解读：基于NLP的A股交易策略

9、Execution

1、Credit：

场外交易。
流动性相对较差（可能几天或几周都不会交易）。

2、基于内核的方法根据“类似”交易的共同特征识别它们

一组通用交易使我们能够推导出理论价格。
如果我们以高于后续“类似”债券的价格购买债券，我们可以终止交易。

这张图显示了买（绿色）和卖（红色）的交易效率：

在这个例子中，投资组合的再平衡是有利可图的，因为它占据了买卖价差的约三分之一（约50个基点的价格）。

10、错误投资策略的检测

Y 轴显示给定数量的试验（x轴）的最大夏普比率(max {SR})的分布。较浅的颜色表示获得该结果的可能性较高，虚线表示预期值。

例如，在仅进行1000次独立的回测之后，即使策略的真实夏普比率为零，预期的最大夏普比率 (E[max{SR}]) 也是 3.26！

解决办法：

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3177057

结语

金融机器学习展示了与标准机器学习假设不一致的属性。一个机器学习算法总会找到一个模式，即使没有模式!

希望大家有所收获！

量化投资与机器学习微信公众号，是业内垂直于Quant、Fintech、AI、ML等领域的量化类主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、资管等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。

Quant必看技术&策略

Marcos Lopez de Prado：金融机器学习的10大应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐