Problem Definition: Portfolio Management 1 符号定义 t 个周期的收盘价格向量:
\boldsymbol{v}_{t} ,其中
v_{i, t} 为第
i 个资产在
t 个周期的收盘价格;
t 个周期的最高价格向量:
\boldsymbol{v}_{t}^{(hi)} ;
t 个周期的最低价格向量:
\boldsymbol{v}_{t}^{(lo)} ;
t 个周期开始时的投资组合向量:
\boldsymbol{w}_{t-1} ,其中
w_{i, t-1} 是资本重新分配后,第
i 个资产在投资组合中的比例。
Note 1 :投资组合中第一个资产表示的是现金,因此,
\boldsymbol{v}_{t} ,
\boldsymbol{v}_{t}^{(hi)} 和
\boldsymbol{v}_{t}^{(lo)} 的第一个元素总是
1 ,即
v_{0, t}^{(\mathrm{hi})}=v_{0, t}^{(\mathrm{lo})}=v_{0, t}=1, \forall t 。
Note 2 :
\boldsymbol{v}_{t} 即表示第
t 个周期的收盘价格向量,同时也是第
t+1 个周期的开盘价格向量。
2 在没有交易成本的情况下 由简入繁,首先考虑没有交易成本的情况下,有
t 个周期的 价格相对向量
\boldsymbol{y}_{t} 定义为
\boldsymbol{v}_{t} 与
\boldsymbol{v}_{t-1} 的元素相除:
\boldsymbol{y}_{t}:=\boldsymbol{v}_{t} \oslash \boldsymbol{v}_{t-1}=\left(1, \frac{v_{1, t}}{v_{1, t-1}}, \frac{v_{2, t}}{v_{2, t-1}}, \ldots, \frac{v_{m, t}}{v_{m, t-1}}\right)^{\top}
价格相对向量可以用于计算一个周期之内的投资组合价值变化。
p_{t-1} 为周期
t 开始时的投资组合价值,则在忽略交易成本的情况下,有:
p_{t}=p_{t-1} \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}
t 的 收益率
\rho_{t} 为:
\rho_{t}:=\frac{p_{t}}{p_{t-1}}-1=\boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}-1
t 的 对数收益率
r_{t} 为:
r_{t}:=\ln \frac{p_{t}}{p_{t-1}}=\ln \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}
\boldsymbol{w}_{0} 为欧几里得第一个基向量:
\boldsymbol{w}_{0}=(1,0, \ldots, 0)^{\top}
p_{\mathrm{f}}=p_{0} \exp \left(\sum_{t=1}^{t_{\mathrm{f}}+1} r_{t}\right)=p_{0} \prod_{t=1}^{t_{\mathrm{f}}+1} \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}
其中,
p_0 为初始投资金额。投资组合优化的目标就是最大化
p_{\mathrm{f}} 。
3 在考虑交易成本的情况下 在实际现实中,在市场上买卖交易需要收取一定的佣金,这些佣金就是交易成本。
假设佣金率恒定 ,有
t 开始时的投资组合向量为
\boldsymbol{w}_{t-1} ,由于存在市场价格波动,因此在周期
t 末,权重演变为:
\boldsymbol{w}_{t}^{\prime}=\frac{\boldsymbol{y}_{t} \odot \boldsymbol{w}_{t-1}}{\boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}}
其中,
\odot 为元素级乘法。投资组合优化的任务是在周期
t 的结束时刻,通过买卖相关资产,重新分配权重向量(
\boldsymbol{w}_{t}^{\prime} 变为
\boldsymbol{w}_{t} )。
p_{t}^{\prime} 相比于之前减少A了
\mu_t 倍。
\mu_t 被称为 交易剩余因子 ,
\mu_{t} \in(0,1] 。
p_{t}=\mu_{t} p_{t}^{\prime}
\begin{aligned}
&\rho_{t}=\frac{p_{t}}{p_{t-1}}-1=\frac{\mu_{t} p_{t}^{\prime}}{p_{t-1}}-1=\mu_{t} \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}-1, \\
&r_{t}=\ln \frac{p_{t}}{p_{t-1}}=\ln \left(\mu_{t} \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}\right)
\end{aligned}
p_{\mathrm{f}}=p_{0} \exp \left(\sum_{t=1}^{t_{\mathrm{f}}+1} r_{t}\right)=p_{0} \prod_{t=1}^{t_{\mathrm{f}}+1} \mu_{t} \boldsymbol{y}_{t} \cdot \boldsymbol{w}_{t-1}
Note 3 :第二节与第三节的区别在于,在第三节中由于存在交易佣金,因此
p_{t}^{\prime} \neq p_{t} 。
\boldsymbol{w}_{t}^{\prime} 变为
\boldsymbol{w}_{t} 的重新分配的过程中,需要出售部分或者全部的资产
i 。如果
p_{t}^{\prime} w_{t, i}^{\prime}>p_{t} w_{t, i} 或者
w_{t, i}^{\prime}>\mu_{t} w_{t, i} ,则 所售出资产后所得的现金总额 为:
\left(1-c_{\mathrm{s}}\right) p_{t}^{\prime} \sum_{i=1}^{m}\left(w_{t, i}^{\prime}-\mu_{t} w_{t, i}\right)^{+}
其中,
c_s 为售出资产的交易费率,
(\boldsymbol{v})^{+}=\operatorname{ReLu}(\boldsymbol{v}) 为元素级校正的线性函数,
(x)^{+}=x \text { if } x>0,(x)^{+}=0 \text { otherwise } 。
\mu_{t} p_{t}^{\prime} w_{t, 0} 将用于购买新的资产:
\left(1-c_{\mathrm{p}}\right)\left[w_{t, 0}^{\prime}+\left(1-c_{\mathrm{s}}\right) \sum_{i=1}^{m}\left(w_{t, i}^{\prime}-\mu_{t} w_{t, i}\right)^{+}-\mu_{t} w_{t, 0}\right]=\sum_{i=1}^{m}\left(\mu_{t} w_{t, i}-w_{t, i}^{\prime}\right)^{+}
其中,
c_p 为售出资产的交易费率,
p_t^{\prime} 在等式两边被消去。
\mu_t :
\mu_{t}=\frac{1}{1-c_{\mathrm{p}} w_{t, 0}}\left[1-c_{\mathrm{p}} w_{t, 0}^{\prime}-\left(c_{\mathrm{s}}+c_{\mathrm{p}}-c_{\mathrm{s}} c_{\mathrm{p}}\right) \sum_{i=1}^{m}\left(w_{t, i}^{\prime}-\mu_{t} w_{t, i}\right)^{+}\right]
上式只能迭代求解,不能解析求解。
Theorem 1
记函数
f(\mu):=\frac{1}{1-c_{\mathrm{p}} w_{t, 0}}\left[1-c_{\mathrm{p}} w_{t, 0}^{\prime}-\left(c_{\mathrm{s}}+c_{\mathrm{p}}-c_{\mathrm{s}} c_{\mathrm{p}}\right) \sum_{i=1}^{m}\left(w_{t, i}^{\prime}-\mu w_{t, i}\right)^{+}\right]
序列
\left\{\tilde{\mu}_{t}^{(k)}\right\} 定义为:
\left\{\tilde{\mu}_{t}^{(k)} \mid \tilde{\mu}_{t}^{(0)}=\mu_{\odot} \text { and } \tilde{\mu}_{t}^{(k)}=f\left(\tilde{\mu}_{t}^{(k-1)}\right), k \in \mathbb{N}_{0}\right\}
对于任何
\mu_{\odot} \in[0,1] ,该序列收敛至
\mu_t ,记上式的解。
上述定理提供了一种将交易剩余因子
\mu_t 近似为任意精度的方法。收敛速度取决于初始
\mu_0 与
\mu_t 的误差,
\left|\mu_{t}-\mu_{\odot}\right| 越小,则收敛到
\mu_t 的速度越快。当
c_p=c_s=c ,Moody 等人将
\mu_t 近似为
c \sum_{i=1}^{m}\left|w_{t, i}^{\prime}-w_{t, i}\right| 。
4 两个假设 在研究过程中,基本都需要考虑到下述两个假设:
零滑点:所有市场资产的流动性都足够高,因此每笔交易在下订单时都可以立即以最后一个价格进行。 零市场影响:软件交易代理投资的资金微不足道,对市场没有影响。 在现实的交易环境中,如果市场的交易量足够高,这两个假设就接近现实。
Reference [1] John Moody, Lizhong Wu, Yuansong Liao, and Matthew Saffffell. Performance functions and reinforcement learning for trading systems and portfolios. Journal of Forecasting, 17(56): 441–470, 1998.
[2] Jiang Z , Xu D , Liang J . A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem[J]. Papers, 2017.