分类
免费外汇模拟账户

機器學習在演算法交易中的應用

深度学习自然语言处理

机器学习该如何应用到量化投资系列(一)

机械的定义避开不谈,回答也不追求全面准确。明确一点,机器学习的主要目的在于发现规律重现规律。(此处不谈非监督学习、强化学习,也不谈降维、集成算法)。什么是发现规律?譬如将决策树应用于多因子模型,试图从样本数据中找出具有较高收益的因子组合。什么是重现规律?譬如,拿来一篮子股票的样本(“训练样本”),假定当中y的值(连续值为回归、离散值为分类)与x1,x2. xn之间一些规律,那么我们用一个模型去学习这个规律,目的是使得这个模型应用于训练样本时误差最小,那么,当下一次出现一只新的股票,希望通过此模型预测这只股票未来的表现。而这个预测的原理是从训练样本中(过去的样本)学习得到的。

二、为什么机器学习重要

■ 例子1: 前段时间比较火的《跟踪聪明钱-从分钟线到选股因子》,作者认为聪明钱应该“订单报价更激烈”,因此构造一个指标衡量聪明程度,利用这个指标的确定投资策略。

如上划分找到聪明钱之后,我们就可以通过这些聪明钱的交易数据来构造聪明钱的情绪因子 Q

■ 例子2:

那么问题来了,上述两个例子的发现规律重现规律过程能否用机器学习代替?

上述两个例子本质也是分析过去的数据,从而发现规律或重现规律,这一过程与机器学习模型的本质是无异的。但是很遗憾,就目前的成果来看,若想在非监督情况下,利用机器学习模型来发现规律,这一点还是比较困难的(你就想象模型怎么找出例1研报中的“聪明程度”指标表达式),但是重现规律这一点,机器学习还是可以轻松做到的。

三、谈谈应用

■ 例子1:【国信证券——SVM 算法选股以及 Adaboost 增强】。以每个因子作为一层特征, 在 68 个因子的维度下,支持向量机算法能够有效的对股票组合的标签进行分类与预测。

SVM 算法的样本数据的标准化采用排序法。 因此,计算每个股票按某因子的排序然后除以总股票数,这样因子的值归到(0,1]。

然后,对下一期收益率从大到小排序,取前 30%作为强势股,后 30%作为弱势股,强势股划分类标为+1,弱势股划分类标为-1;中间百分之 40%的股票排出训练集,因为中间百分之 40%的股票收益并不强势也不弱势,相当于噪声数据。为了充分利用数据,找出相对稳定有效的因子,确保算法的稳定性,用过去 12 个月的因子数据作为输入样本。从 SVM 理论推导可以知道, 在得到最优超平面的解之后, 样本被划分为两类,而样本距离超平面的距离,则可以代表样本被正确分类的程度。 用公式表达为:

其中 x 为新的样本点, w, b 为 SVM 求解超平面的输出结果。根据距离结果, 同样将股票组合分为 10 档,选择收尾两档分别作为强势组合和弱势组合,并观察回测结果。

■ 例子2:你认为股指期货Tick数据的盘口与成交与价格未来的走势有关,就可以用机器学习模型(神经网络、深度学习网络)学习过去数据中盘口价量与之后的价格走势的规律,再应用于当前;诸如此类。(此处没有谈及也较常用的聚类算法,如GMM等。)

三、谈谈机器学习的利弊

数据样本的选取(因子变量的选取)、数据样本的预处理(变量的预处理、样本的平衡处理、极端样本的处理等)、人为的处理(一些变换等)、模型的选取、模型算法的选取、模型参数的选取,对欠拟合、过拟合的避免等等……撇开这些不讲,即使上述提及的过程合部处理恰当,训练结果良好,哪怕是测试样本效果也不错,应用于实际投资效果也不能保证一定好。为什么呢?

第一,这是因为我们的样本大多数时候是带有时间维度的(即训练样本、测试样本、实际投资所处的时间段都是不同的),它们并非截面数据,模型学习的市场“规律”或“偏好”,是会随时间变化的。第二,我们的模型往往只是学习某一些因子反映的规律,而除去这些因子以外的因素,影响市场变化的因素有很多很多(汇率、政策等),这些都是模型没有考虑的,一旦这些模型以外的因素成为主导市场“偏好”的时候,时间短还好说,最多也只是短期的一个回撤,如果时间较长,模型在此期间的效果就会大打折扣。

对于第二个问题,在股票多头策略中使用对冲、在多空投机策略中设置止损和失效判断(如连续n次投机连续失败时,可考虑一段时间内不再开仓投机等)也许是个好方法,对于第一个问题,使用时间跨度更长的样本进行训练并不一定能解决问题。(例如市值因子,哪怕从3年的回测跨度变成5年、7年,在过去都是较为显著的因子,但未来呢?)笔者认为这个问题需要具体分析。从数据的实际背景分析,模型所学习的规律是否可持续;如果担心这种规律变化过快,可以缩短训练样本的长度,并且采用时间滚动的样本作为训练样本。

机器学习在金融计量经济学中的应用

应用普通最小二乘法需要我们人为做出一些选择(例如,选择哪些解释变量,变量之间如何交互等)。而机器学习可以自动搜索解释变量并确定变量之间的交互关系。例如,一个典型的机器学习方法:回归树( regression trees)。像线性函数一样,回归树将每个向量的特征映射到预测值。预测函数采用树形式,在每个节点处分成两部分。在树的每个节点处,单个变量的值决定了算法选择左侧还是右侧的子节点。当到达终端节点——叶子节点时,返回一个预测。

1、正则化(regularization)。在上述回归树中,我们不是选择最好的整体树,而是选择一定深度树中的最佳树。树越浅,样本内拟合程度越差,但这也代表示更少的过度拟合。通过适当地选择正则化水平,我们可以平衡模型的灵活性和过度拟合。

2、经验调整(empirical tuning)。我们在原始数据样本内创建一个样本外数据。我们通过拟合样本内数据,选择合适的正则化水平下的样本外数据拟合最好的模型。

机器学习的缺点

机器学习的优点在于它们可以拟合出许多不同的模型。 但是这也会导致一个致命弱点:更多的模型意味着具有完全不同参数的两个模型可以产生相似的预测结果。 因此,我们如何在两种不同的模型之间进行选择值得研究。

正则化也会导致这个问题。 首先,我们会选择相对不复杂但错误的模型;其次,它可以引起遗漏变量偏差(omitted variable bias),当正则化排除一些变量时,可能会导致参数估计偏差。

本文基于学术论文

参考
Financial econometrics and machine learning,Ralph Sueppel

机器学习在量化交易中的应用

RAD极客会 | 智能硬件、人工智能大数据 2021/06/15 11:15

一、量化交易

二、机器学习对于量化交易的影响

新知达人, 机器学习在量化交易中的应用

三、机器学习在量化交易中的应用场景

近年来,知名的对冲基金和银行,如文艺复兴科技公司、Two Sigma、Citadel、D.E. Shaw、美林、JP摩根、高盛等也在扩充自己的机器学习团队。机器学习算法从广泛的市场、基础和另类数据中提取信号,并可应用于算法交易策略过程的所有步骤。

(一) 機器學習在演算法交易中的應用 提升执行效率

(二)实现α因子创建和聚合

(三)资产收益

(四)交易回测

(五)另类数据处理

(六)持续优化

四、机器学习应用的风险

一是不可预测性。

二是小样本数据。

极端的例子就是 08 年的金融危机,历史上只有这一个数据点用来学习,这就使得应用机器学习进行自动化学习变得非常痛苦。许多研究者最终采取的是一种非常中庸的方法,就是将不太频繁的统计数据与相对频繁的数据结合起来进行使用。

三是数据复杂性。

四是缺乏常识。

五、总结

来源 : CFETS FinTech , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

分享至:

更多“机器学习”相关内容

Spark机器学习.pdf

向AI转型的程序员都关注了这个号👇👇👇人工智能大数据与深度学习 公众号:datayxPDF 获取方式关注微信公众号 datay

机器学习的基础图表!

本科生如何自学机器学习?

《Python与机器学习实战》笔记+源码

近期神奇机器学习应用大赏

纺织鞋服 商贸零售

职业生涯 职场技能

智能影音 智能家居

网约车 出行服务

思维能力 个人提升

虚拟现实 VR/AR

手机 3C电子

招聘 人力资源

购物中心 商超百货

同城货运 运输

数据工匠俱乐部

首席数字官

Linux云计算网络

数据驱动智能

数据观

一个数据人的自留地

168大数据

深度学习与NLP

九乐 信息化

深度学习自然语言处理

优选课程 新知学院

¥ 199.00 林琳笨

© 2021 北京商状元科技有限公司 | 互联网ICP备案:京ICP备16045203号-2 京ICP证B2-20180963 | 广播电视节目制作经营许可证号:京字10574号

移动版

機器學習在演算法交易中的應用

简单的优点:算法交易中的机器学习模型
Big Data & Society ( IF 8.731 ) Pub Date : 2020-01-01 , DOI: 10.1177/2053951720926558 Kristian Bondo Hansen 1

  1. Department of Management Politics and Philosophy, Copenhagen Business 機器學習在演算法交易中的應用 School, Frederiksberg, Denmark

The virtue of simplicity: On machine learning models in algorithmic trading

Machine learning models are becoming increasingly prevalent in algorithmic trading and investment management. The spread of machine learning in finance challenges existing practices of modelling and model use and creates a demand for practical solutions for how to manage the complexity pertaining to these techniques. Drawing on interviews with quants applying machine learning techniques to financial problems, the article examines how these people manage model complexity in the process of devising machine learning-powered trading algorithms. The analysis shows that machine learning quants use Ockham’s razor – things should not be multiplied without necessity – as a heuristic tool to prevent excess model complexity and secure a certain level of human control and interpretability in the modelling process. I argue that understanding the way quants handle the complexity of learning models is a key to grasping the transformation of the human’s role in contemporary data and model-driven finance. The study contributes to social studies of finance research on the human–model interplay by exploring it in the context of 機器學習在演算法交易中的應用 machine learning model use.