量化投资里的无监督学习算法:聚类
标星★ 置顶 公众号 爱你们 ♥
作者: Marcos López de Prado
编译: 公众号编辑部
0
前言
本文的作者是我们熟悉的老朋友:Marcos Lopez de Prado
公众号第一次介绍Marcos Lopez de Prado,则是来自他一篇论文: 《The 7 Reasons Most Machine Learning Funds Fail》 ,公众号进行了解读,详见:
机器学习应用量化投资失败的7个主要原因
此后我们还对他的另一篇论文进行了解读: 《The 7 Reasons Most Econometric Investments Fail》 ,详见:
计量经济学应用量化投资失败的7个主要原因
在国内大多数人眼中,最为出名的是他那本大名鼎鼎的 《Advances in Financial Machine Learning》 ,堪称经典!
1
要点
1、 金融领域的许多问题需要对变量或观察结果进行聚类:
-
因子投资,相对价值分析
-
风险管理、投资组合构建(例如:推导有效边界)
-
降维(例如:分解债券收益驱动因素)
-
多重共线性系统的建模(例如:计算p值)
2、尽管聚类很有用, 但在计量经济学课程中几乎从未教授过它。
-
没有一本主要的计量经济学教科书在讨论,只有少数的学术期刊文章在讨论 金融数据集的聚类。
3、在今天的推文中,我们将回顾了两种常见的聚类方法:
-
划分聚类
-
层次聚类
4、不同特征/相似度度量将导致不同的聚类:
-
关键是在拟订问题时要使结果具有经济意义和可解释性
2
什么是
1、 聚类指根据一定的准则,把一份事物按照这个准则归纳成互不重合的几份 。机器学习中,聚类指按照一个标准,这个标准通常是相似性,把样本分成几份,使得相似程度高的聚在一起,相似程度低的互相分开。
2、聚类的方法很多,有基于分层的聚类,基于划分的聚类,基于密度的聚类。不同的方法有各自的特点,适用于不同分布的数据。有的适用于大数据集,能发现不同的任意形状的数据。有的算法简单,适用于小量数据集。 众多方法中又有无监督学习,和半监督学习 。
3、在金融领域,在投资过程的每一步都会自然而然地出现聚类问题。
具体的算法介绍这里不再叙述,接下来看一下与金融实际先关的一些应用。
3
因子投资/相对价值
-
因子投资试图对具有某些共同特征的资产进行定价。
-
传统上,经济学家根据单一特征对资产进行分组:
-
例如:价值、规模、动量、质量、流动性等。
-
忽略了已知的交互影响,例如价值与动量,以及层次依赖关系。
-
一个自然的解决方案是在多个特征上对资产进行聚类,并让算法找到最优的聚类数量:
-
然后我们可以评估每个聚类的性能,并评估风险溢价是否具有统计学意义。
-
这种方法也适用于相对价值策略。
4
特征的重要性分析
1、考虑一个包含40个特征的二元随机分类问题,其中5个特征是具有信息的,30个是冗余的,5个是噪声的:
-
信息特征(标记为“I_”)是用来生成标签的特征。
-
冗余特征(标记为“R_”)是指通过向随机选择的信息特征添加高斯噪声而形成的特征。
-
噪音特征(标记为“N_”)是指些不用于生成标签的特征。
2、聚类算法防止了替代效应对MDA或MDI分析的偏见:
寻找最优的集群数量:
将 冗余的特征捆绑在一起,形成一个信息丰富的特征:
5
投资组合构建
1、当K个证券进行相关聚类时,凸优化方法(马科维茨、BL等)无法区分。
2、一个解决方案是应用NCO算法:
a. 对相关矩阵进行聚类。
b. 计算最优的簇内分配。
c. 计算最优的簇间分配。
d. 通过(b)和(c)的点积得到最优权值。
NCO算法介绍连接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3469961
步骤a和b允许我们将一个“Markowitz问题转化为一个well-behaved的问题。
NCO计算的最大夏普比率组合为马科维茨RMSE的45.17%,即RMSE减少了54.83%。
6
相关矩阵
1、人们普遍认为,经验相关性包括:
-
导致不可靠估计的数值属性
-
预测能力差
2、此外,基于因子的相关矩阵有其自身的注意事项。 特别是,估计的因子通常是:
-
无等级
-
不允许在不同的层次上进行交互
3、我们可以从一个知识图中得到一个Forward-Looking相关矩阵:
Forward-Looking相关矩阵具体介绍: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3484152
顶部和底部实施理论隐含结构(GICS)之前和之后的相关矩阵图。
通过理论树状图添加信号,使相关模式更平滑、噪声更小,同时保留了层次结构。
7
论文下载
在 后台 输入 (严格大小写)
聚类Quant
2020年第 18 篇文章
量化投资与机器学习微信公众号,是业内垂直于 Quant、MFE、 Fintech 、AI、ML 等领域的 量化类主流自媒体。 公众号拥有来自 公募、私募、券商、期货、银行、保险资管、海外 等众多圈内 18W+ 关注者。每日发布行业前沿研究成果和最新量化资讯。
你点的每个“在看”,都是对我们最大的鼓励