量化投资里的无监督学习算法：聚类

2009 年 7 月 22 日

标星★ 置顶 公众号 爱你们 ♥

作者： Marcos López de Prado

编译：公众号编辑部

前言

本文的作者是我们熟悉的老朋友：Marcos Lopez de Prado

公众号第一次介绍Marcos Lopez de Prado，则是来自他一篇论文：《The 7 Reasons Most Machine Learning Funds Fail》，公众号进行了解读，详见：

机器学习应用量化投资失败的7个主要原因

此后我们还对他的另一篇论文进行了解读：《The 7 Reasons Most Econometric Investments Fail》，详见：

计量经济学应用量化投资失败的7个主要原因

在国内大多数人眼中，最为出名的是他那本大名鼎鼎的 《Advances in Financial Machine Learning》 ，堪称经典！

要点

1、金融领域的许多问题需要对变量或观察结果进行聚类：

因子投资，相对价值分析
风险管理、投资组合构建（例如：推导有效边界）
降维（例如：分解债券收益驱动因素）
多重共线性系统的建模（例如：计算p值）

2、尽管聚类很有用， 但在计量经济学课程中几乎从未教授过它。

没有一本主要的计量经济学教科书在讨论，只有少数的学术期刊文章在讨论金融数据集的聚类。

3、在今天的推文中，我们将回顾了两种常见的聚类方法：

划分聚类
层次聚类

4、不同特征/相似度度量将导致不同的聚类：

关键是在拟订问题时要使结果具有经济意义和可解释性

什么是

1、聚类指根据一定的准则，把一份事物按照这个准则归纳成互不重合的几份。机器学习中，聚类指按照一个标准，这个标准通常是相似性，把样本分成几份，使得相似程度高的聚在一起，相似程度低的互相分开。

2、聚类的方法很多，有基于分层的聚类，基于划分的聚类，基于密度的聚类。不同的方法有各自的特点，适用于不同分布的数据。有的适用于大数据集，能发现不同的任意形状的数据。有的算法简单，适用于小量数据集。 众多方法中又有无监督学习，和半监督学习 。

3、在金融领域，在投资过程的每一步都会自然而然地出现聚类问题。

具体的算法介绍这里不再叙述，接下来看一下与金融实际先关的一些应用。

因子投资/相对价值

因子投资试图对具有某些共同特征的资产进行定价。
传统上，经济学家根据单一特征对资产进行分组：

例如：价值、规模、动量、质量、流动性等。

忽略了已知的交互影响，例如价值与动量，以及层次依赖关系。
一个自然的解决方案是在多个特征上对资产进行聚类，并让算法找到最优的聚类数量：

然后我们可以评估每个聚类的性能，并评估风险溢价是否具有统计学意义。
这种方法也适用于相对价值策略。

4

特征的重要性分析

1、考虑一个包含40个特征的二元随机分类问题，其中5个特征是具有信息的，30个是冗余的，5个是噪声的：

信息特征（标记为“I_”）是用来生成标签的特征。
冗余特征（标记为“R_”）是指通过向随机选择的信息特征添加高斯噪声而形成的特征。
噪音特征（标记为“N_”）是指些不用于生成标签的特征。

2、聚类算法防止了替代效应对MDA或MDI分析的偏见：

寻找最优的集群数量：

将冗余的特征捆绑在一起，形成一个信息丰富的特征：

投资组合构建

1、当K个证券进行相关聚类时，凸优化方法（马科维茨、BL等）无法区分。

2、一个解决方案是应用NCO算法：

a. 对相关矩阵进行聚类。

b. 计算最优的簇内分配。

c. 计算最优的簇间分配。

d. 通过(b)和(c)的点积得到最优权值。

NCO算法介绍连接：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3469961

步骤a和b允许我们将一个“Markowitz问题转化为一个well-behaved的问题。

NCO计算的最大夏普比率组合为马科维茨RMSE的45.17%，即RMSE减少了54.83%。

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

量化投资里的无监督学习算法：聚类

机器学习应用量化投资失败的7个主要原因

计量经济学应用量化投资失败的7个主要原因

划分聚类

层次聚类

4

About The Author

php

机器学习应用量化投资失败的7个主要原因

计量经济学应用量化投资失败的7个主要原因

划分聚类

层次聚类

4

Related Posts

About The Author

php