书城投资量化投资的转折:分析师的良知
4301600000024

第24章 如果你想尝试打败市场——数量化的开端(8)

发现这个问题也是与同事讨论的结果。笔者有个习惯,就是每隔几个月就要买入一批市场书籍,一方面是看看有什么新鲜的思想,一方面也是为了留个备份,免得将来绝版找不到。笔者自认对投资方法的开放度极高,但其中一本《神奇的大均线》的书可谓是让笔者开了眼界。用均线没什么关系,实际上一直有种支持趋势类指标的声音,这在学术界的四因素模型有体现,说到这个问题的不止一本书了。可14.5年这么大的一个数值和经常以对抗常态应用规则的写作方式还是让笔者对该书的结论有几分戒备。考虑到人家是个教授,直接的校验结果未免有大不敬的嫌疑,所以我们换了个方式。当数据段选取2006年6月30日至2011年6月29日时,只考虑常规的操作策略,以均线作为依托,价格运行于某均线之上则为买入持有阶段,价格运行于某均线之下则为卖出空仓阶段。每次操作要受到佣金3‰、税率1.5‰的费用扣除。华夏上证50ETF在买入长期持有的策略下收益为1.875298。而依托均线系操作的收益率却有一个类似于抛物线形的分布。其中,该策略在参数40—60左右的区域策略收益率达到了峰值的同时还表现出了较好的稳定性。回到我们本段所涉及到的于教授那超长均线参数的问题上,14.5年意味着市场要在2005年9月中旬左右才开始有数值。这将均线的校验段直接放在了2006年的极端行情中。而长参数的直接后果就是反应慢,股价在此均线上运行基本上是板上钉钉,在此基础上常见的策略都会出现依托短期信号为主的现象,那这个策略本质上来说就是在告诉投资者:“极端上涨的时候买入就好了。”

当我们考虑均线问题的时候不能随便选个参数。当均线参数可变时,我们完全把它当作一个固定策略的参数优化问题。最后的结果是一个常规意义上的中短期均线成为了胜出的个体,但经验老道的同事还是一眼看出,这一策略在进入2010年之后收益率明显下降了。这是一个比获取优化的参数更值得思考的副产品。就事论事的角度来说,一种处理方式是引入“考夫曼自适应均线系统”。这方面的研究有很多,重点无非在于如何作出差异化以尽量避免与他人争夺同一策略的有限盈利空间。

更一般的角度来看,2006—2008年依托均线的数据模式可能与2010年之后的数据模式有明显的不同,然而,作为优化数据的时间段,5年的时间显然给出了一个融合了两种模式的综合输出,这其实并非是理想结果。哑变量是一种解决思路,但显然过于武断,因为我们不能指望事先就确定出模式迁移的判断信号。显然,如果能做到就等于在承认有人能事先知道股指能涨多高或类似的信息。另一种是以池子的方式同时跟踪数个较优参数,然后用策略收益率动态调配资金权重。这个问题我们会在后面的章节再讨论。

当然,模式迁移也并非都能用这种方式来得以解决。还有一些问题则一般我们认为可以做到等额度资金分配,但现实往往是做不到的。价格100元和价格5元的两只股票,对后者能做到执行价不影响,对前者往往就存在困难。要么更改策略设计,要么重新划定执行范围,这些现实因素往往都会在不经意间对结果产生较为复杂的影响。

(第十四节)数量化投资的注意事项

——算法依托的数据

开始本章节之前,我们还是回忆一下。“数量化算法对于数据的种类是否有明确的要求?”答案是否定的。如果愿意,读者可以使用宏观经济类数据、行业公司数据、二级市场数据。它也刚好说明了常见的三种分析逻辑和手段。

有首席经济学家说:“目前主流的股市预测一般都通过对经济周期的判断来预测股市”。这话至少在笔者的工作层面得到了证实。有一段时间,笔者和几位同事总是听到“朱格拉周期”、“变频”、“叠加”这种东西,以至于某同事私下聊天时还不忘调侃一下。

由于周期背后的逻辑关系不相同,一般来说很少会各个周期的低点同时出现,产生较为严重的共振影响谈论这个问题压力还真是很大,毕竟这是研究所首席的工作。而且,弄不好就和某些大佬的观点不一致遭到讨伐,我们会尽量躲在别人的身后。比如,普卢默就在其《金融市场预测》一书中指出:“并非康德拉契夫周期中所有的低点都是大萧条,因为,并非所有的斯特劳斯和豪周期的低点与康德拉契夫周期的低点相吻合。”

笔者本身对这个领域的兴趣并不高,部分原因在于某首席经济学家笔者一般很少关注各大券商的首席经济学家,部分原因在于指导操作意义有限。但此首席是个例外,原因也可能就是源于其敢于说出部分事实,哪怕对于卖方来说这些事实会引起困扰。指出的两个不确定性:“一是你能否准确预测经济波动的方向、拐点与走势,二是你能否预测经济波动将对股市走势产生怎样的影响。单纯看这两个环节,对于股市变化方向判断的平均准确率就只有25%,更何况你还要判断涨跌区间、描述走势图,则准确率就更低了。况且中国股市与经济走势的关联度从历史上看并不大,还有诸多影响股市的因素是很难量化的,这就使得预测股市走势几乎不可能。”

另外,武康平教授的《高级宏观经济学》中,在第二章经济周期理论里也谈到了这一点:“这种没有简单规律的波动,可谓是宏观经济短期波动的一个突出特点。也正是基于这一事实,当代宏观经济学才放弃了过去那种力图把经济周期解释为具有某种规则性的周期的做法,比如,放弃了过去那种解释为基钦周期、朱格拉周期、库兹列茨周期、康德拉契夫周期的传统做法,也放弃了过去那种力图通过各种长度不同的确定性周期的组合来解释和说明经济波动现象的做法。之所以放弃,是因为过去的这些理论对于解释当代经济波动现象机会没有多大用处。”当然,这还没有涉及从经济走势到股市走势的问题。

另一种思路是通过部分经济指标来考察股市问题。货币供应、信贷投放和CPI、PPI剪刀差等都曾经出现过。笔者对这一思路的态度是肯定的。因为这是一个逻辑和实证都能讲得通的领域。所以笔者倾向认为采用部分经济指标作为算法设计的依托是可行的。

行业公司数据是被研究机构挖掘最多的领域,不用笔者多谈。这也是普遍被认为存在利用价值的领域。但如果数据频率过低,就难免会有较大的风险。

二级市场数据是争议最大的一个部分。其中一个可以理解的原因在于走势的相关性究竟要如何体现。普卢默用道琼斯工业平均指数1天的百分比变动和5天的百分比变动试图说明一个问题:“分析的时间段越长,波动的幅度就越可能缺乏随机性。”摆在我们面前的疑问是,A股市场又如何呢?这个对比并不复杂,排除异常值对于结果没有什么实质影响。下图就是当涨跌幅分别取1、5、20三个参数所得到的结果其实,这里还有一个小问题:“我们是否曲解了普卢默的本意?”好在其书中提供了足够多的线索让我们排除了此种可能。笔者在使用wind数据库提供的道琼斯工业平均指数过后,发现此问题可以排除。有兴趣的读者可以自行尝试。毕竟我们不是为了去刻意证明一本书中的某种数据处理方法的对错而介绍这个问题,为压缩篇幅,我们仅介绍其数值处理方式下A股数据的一致表现和存在的问题。实际上,如果读者有兴趣,可以依托beta在不同时间周期上的取值计算得出一个直觉上的判断:“刻意延长分析期限可能与随机性无关。”。我们得到了与普卢默类似的图形结论。但如果就此认为“短期的指数变动是较难理出头绪的,但随着时间参数的改变,一种模式可能会产生于数据中”却未免有些牵强。事实上,另一种质疑的声音起于线性相关性问题。我们常用的相关系数,只能用来描述线性相关关系。一旦涉及到非线性问题就会出现意义有限的情况。比如,产生1—25的一个数字序列,用yi=(xi—x)2可以产生完美关联的两组数字序列,但线性相关系数为0。或许读者从这里也可以看出为何一个非线性问题可以对已有框架产生冲击。不过,必须承认普卢默提到的这种“奇异吸引子”问题要比去寻求非线性关系来的直白,尽管笔者最开始接触吸引子概念是在陈平教授的书中。笔者感谢李丹同事在此处提供的帮助。笔者用EXCEL的随机数函数生成的20000个分布于—1—1的数值,用类似的参数也能表现出良好的线性关系。当方差出现相应放大的情况下,单独一日的数据影响程度下降。这对于此类构造方式提供了一个公共部分。数据段除了首尾不同,其余皆相同的处境自然而然能带来高线性相关的结果。至于这到底是不是因为所谓的奇异吸引子,笔者愚以为也没必要再去细究了。反过来重新想想这一事例所暴露的问题才是必要的。一个人的能力是有限的,即便是思维再缜密的人也难免犯错。如果管理的资金有限,犯错往往还没有什么很大的后果。如果管理的资金过于庞大,则团队式的协作十分重要别忘了,连西蒙斯也不是单打独斗的管理大奖章。金融领域可以是个与数学结合很紧密的分支。笔者也只能在能力所及的范围内尝试着去分析问题。毕竟任何一个错误都可能是庞大的账面损失。

图9所谓奇异吸引子的类似表示

数据来源:wind金融数据库

简单的总结过后,我们发现经济类、行业公司类乃至二级市场类数据都可以作为数量化分析手段的应用。读者可能就此产生疑惑:“三种分析手段都适用,那这数量化到底算是个什么方法?”坦白说,笔者也很难在这样的层面上把它归结为任何一种。但很显然,只要是能够被数量化的分析手段,纳入其中就没什么根本障碍,它也不会对任何人的投资理念产生本质的冲击。强调交易纪律,不在“预期”中投资可能才是数量化的根本。