10月26日晚,清华经管学院金融硕士项目2020年中国金融实务课堂系列之六-金融科技第六讲在舜德楼开讲,由博道基金首席量化分析师、基金经理杨梦老师授课,主题为“机器学习在投资中的运用”。本次课程由清华经管学院高峰教授主持。
课堂现场
在本讲中,杨梦老师将理论与实战相结合,向同学们介绍了投资中机器学习的算法分类与基本原理;同时也结合自身与同行的实际经历,分享了机器学习应用于投资中的实践案例。
杨梦老师首先从方法论的角度出发,介绍了投资的两大类方法:演绎法与归纳法。其中演绎法通常是对历史经验进行总结、提炼事件之间的因果关系、进而对未来做出逻辑自洽的判断,这种方法也是目前主动投资中的主流方法;而归纳法则是将历史经验总结、外推,通过工具提炼相关关系,依据统计规律进行投资决策的方法。一般而言,使用归纳法与相关关系的投资策略,都伴随着大量的数据处理与分析工作,因而需要量化模型的辅助,也使得机器学习在量化投资领域中有着用武之地。
杨梦为同学们作分享
以多因子选股模型为例,传统方法中,一般先对模型的条件进行主观设定,使用线性的方法进行模型搭建;而在机器学习的框架中,通常不先去假定模式,而是让算法自身去探索数据之间的关系,来获取与真实情况最接近、损失值最小的最优模式。换句话说,机器学习也是“更好地发现历史真相的过程”,而如何最小化损失值,也是机器学习中的关键点。
大体而言,机器学习可以分为无监督学习、监督式学习与强化学习三大类。无监督学习用来学习特征数据本身的分布特征,常用的有降维和聚类两种方法。降维方法指的是,在全样本的多维度数据中,通过因子分析、主成分分析等方式,提取这些维度中最具有代表性的几个维度,将庞大的数据集进行精炼的方法;聚类方法则是通过样本的相关性,将全样本分为多个小组,使得每个小组内的数据之间具有较高的相关性,而不同小组之间的数据相似性较低的方法。
课堂现场
与无监督学习相对应,监督式学习除了需要输入特征数据,还需要输入标签数据,主要用来研究从特征数据到标签数据之间的函数映射关系。监督学习目前在量化投资领域的应用较为广泛,而从算法原理来看,监督学习主要可以分为三种算法:线性模型、树模型与神经网络模型。
在线性模型中,我们假定数据的输入与输出之间可以用线性的方式进行描述,通过回归、逻辑回归、支持向量机等方式设计目标函数并进行最优化模型求解。尽管线性模型的拟合程度普遍不高,模型的误差也较大,但线性模型在当前市场的投资模型构建中仍然应用较广泛。这是由于相比于其他监督学习模型而言,线性模型的关系更容易理解,同时也更好把控。模型分析师可以在线性模型中很直观的看到因子可能存在的问题,也可以看到究竟是什么因素在影响投资决策与投资表现,使得投资逻辑“可掌控、可追踪”。
但是,随着投资决策中使用的数据集不断扩大、市场的发展不断完善,线性模型的解释力度也逐渐下降。近年来,投资机构普遍不再满足于使用线性模型描述资本市场,开始转向了更高维、更复杂的机器学习算法,这使得树模型、神经网络模型的使用也逐渐广泛了起来。
课堂现场
树模型的使用以决策树为基础。在决策树的每一个节点,都通过一定的规则将数据集合进行分裂,直至最后把数据集合分裂成覆盖整个空间且不可再分。在机器学习的过程中,单棵决策树的结果并不稳定,因此一般需要多棵决策树集合处理,而根据集合方式的不同,树模型又可以分为Bagging模型与Boosting模型两大类。在Bagging模型中,会并行随机生成多棵决策树,之后通过加权平均的形式获取统计规律;而Boosting模型则是使用决策树串行的方式,通过不断对上一课决策树的预测偏差进行重新建模,来实现数据规律的提取。
神经网络模型与树模型有着一定的类似性。神经网络模型以神经元为基础,一个神经元可以被看作是一个简单的计算器,计算给定输入的加权平均值,加权平均值通过一个激活函数的处理,如果处理值超过预定阈值则输出结果。输入的加权平均的过程是一个线性过程,而激活函数则是一个非线性的过程,所以神经网络模型的本质其实是线性和非线性的堆叠。一个神经网络系统一般是由多层堆叠的神经元组成,不同算法的差别来自层的组成结构及层与层之间的关系。目前应用比较广泛的几种网络结构包括多层神经网络,卷积神经网络和循环神经网络。
强化学习的思路和监督学习是反过来的,是由结果去反推最优过程。强化学习主要涉及三方面的要素:环境、动作、回报。在强化学习中,算法会在不同环境中采取不同动作,并通过这些动作产生的回报不断的优化自身行为,最终形成损失函数最小的投资策略。根据价值函数表达方式的不同,强化学习算法可以分为Q-Learning,DQN,POLICY GRADIENT等类别。强化学习是“利用机器算法进行投资”的比较终极的场景,相当于把行为规律的挖掘,到投资组合的构建,全部的流程都交给机器算法来解决,算法直接输出的是目标配置。但也正是因为其“包办”太多流程,需要对模型细节进行更加深入的把控,才能获得比较稳定的结果,目前在投资领域比较成功的运用多集中在交易领域,决策领域相对较少。
同学们积极提问
随后,杨梦老师通过博道基金的多因子体系构建的案例,介绍了机器学习在因子挖掘、因子合成、指数配置、指数择时等多方面的应用。在机构投资的过程中,无论是从庞大的因子库的构建、因子的筛选、具体交易中的资产配置,都有机器学习的“用武之地”。
最后,杨老师分享了她对量化投资的感悟。自从alpha-go一夜爆红之后,投资界也对于机器、算法的使用有着各种各样的讨论。杨老师认为,尽管从短期来看,在投资这件事上机器难以取代人类,但机器一定是辅助投资决策的“利器”。通过机器学习,我们可以大大缩短发现统计规律的时间,更好的发现历史规律、帮助投资决策。
主讲人介绍:
杨梦,博道基金合伙人、首席量化分析师、基金经理。