摩尔方德,算法交易,统计套利,胜率差,量化投资,红移投资
当前位置: 主页 > 红移投资 > 套利视点 >

公司消息面的量化策略

时间:2011-01-17 11:15

TAG 标签: 套利 对冲 摩尔方德 投资 股指期货 对冲基金

——摩尔方德观点:对冲流派之一,就是将计算机科学领域的知识应用到股指期货的产品设计中,通过量化分析的手段去解决问题。如何根据新闻,使用全计算机化的手段?
 

 

量化策略基本上可以分成两种,即alpha策略和beta策略。无论是哪一种策略,都需要下面的步骤:收集数据,产生初步交易信号,使用规则进行预测,利用历史数据进行模拟试验,产生模型,运行模型,生成动态权重,进行风险管理,关联度计算,设计市场冲击模型,通过投资组合优化模型(CAPM, Black-Litterman等)生成订单,通过计算机系统进行交易,最后进行风险分析和交易成本分析等。

 

模型的关键是预测,而预测可以分成以下几类。

 

第一、相对稳定量的预测。譬如印花税是相对稳定的量,预测印花税的改变对市场的影响就是一个针对相对稳定量的预测。

第二、对趋势(trend)的预测,又称对动量(momentum)的预测。简单地讲,昨天上涨的股票今天是否还会继续上涨,就是一个对趋势的预测。

第三、对均值回归(mean reversion)的预测。前几天一直在上涨的股票,今天会不会下跌,就是此类型的预测。

第四、事件对市场影响的预测。譬如大选和中选年的11月份选举就是一个会影响股市的事件。季报、美联储会议、以及普通新闻发布都会影响到股市。如果定量地预测事件对股票价格的影响,就是此类预测的本质。

本文就如何根据新闻,使用全计算机化的手段,对股票价格做预测进行初步讨论。

 

价格波动与新闻有关吗?


在普通人眼中,价格波动一定是与新闻有关的,不是吗?但是学术界围绕着确认价格波动与新闻的关系经过了很长时间的讨论。

萨莫斯(Summers),这位刚刚卸任的白宫财经顾问,现任财长是他的学生,他本人还是克林顿政府的财长,现在是哈佛大学经济学教授。

萨莫斯在1989年发表了题为“价格波动与新闻的脱节”(Disconnect between price movements and news, Cutler, Poterba and Summers 1989)的学术论文,正式提出了很难确定价格变动所对应的新闻这一问题;后人称之为萨莫斯疑问。

二十几年过去了,随着计算机技术的快速发展,信息采集技术得到了极大发展,计算能力得到了极大发展,包括Grid Computing在内的海量计算能力已不罕见,计算机处理自然语言(NLP)的能力也得到了极大发展,金融工程理论和实践也得到了极大发展。确定价格变动所对应的新闻已经不再是一个难题。

当然,二十年后的今天,与萨莫斯发表论文的时代相比,也面临着前所未有的挑战,特别是信息的极大丰富,传统PR(新闻发布会)的出现,2000年出现PR Wire,传统新闻发布会后10分钟新闻发布延迟的取消,非传统媒体出现:网站、bbs, 博克、微博等等。

前不久,一些疑似中国下一代战机的照片出现在网络一个星期之后,才出现在华尔街日报头版上;而上一季度Google和Microsoft 在自己的网站发布季报,20分钟后才出现在传统媒体,就是非常典型的例子。那些比市场快20分钟拿到季报的投资人可以轻易成为百万富翁。

是否可以将新闻的交给计算机处理,在新闻出现的第一时间,多数投资人尚未来得及做出反应、市场尚未消化时立即做出反应,在市场消化掉新闻之后退出,进行套利操作呢?

这是可以做到的。


新闻中的软信息:情绪

 


Peterson(2004)与Stein(2002)指出,信息可以分成两种,即硬信息和软信息。硬信息是很容易证伪的量化信息,譬如公司盈利、公司高管对盈利的预测等。软信息是很难量化的信息,或者量化后很难证伪的信息,譬如:新闻报道的乐观语气,情绪等。对新闻带有的软信息进行归类和打分,将新闻的情绪量化。这种量化的情绪分,就可以作为统计套利的建模基础。

如果雇佣研究人员阅读新闻并对新闻的情绪打分,估计每个人每小时可以处理10条新闻。香港股市每天有超过100条新闻,需要一个人工作10小时。不算别的,就是所花费的时间和造成的延误也是交易策略无法承受的。

计算机的自然语言处理(NLP或者Natural Language Processing)技术源自1950年的Turing Test,经过了90年代的语音打字阶段,现在已经相当成熟。使用计算机处理新闻软信息,可以在秒钟内即时处理掉所有当前新闻。

这种技术的核心是语言模型,包括语法、语义模型,以及语言字典。在处理股市新闻时,大家常常采用的是Loughran and McDonald (2010)字典,它包括了大量的Litigation Risk的词汇,以及Harvard IV-4 psychosocial dictionary,它们一共包括了2293 个正面词汇和1913个负面词汇。

一个NLP初级引擎只包括一本字典。根据字典中的正面词汇和负面词汇在新闻中出现的频率,可以给出一个情绪分数。

一个NLP高级引擎不仅包括一本字典,还包括了语法模型和语义模型。高级引擎可以更加准确地给新闻的情绪打分。参见下图。

 

譬如“我不能给你这个苹果”这句话,在人类读者看来它是负面的语句,在NLP初级、高级引擎看来它都是负面的。但是如果语句稍稍复杂化一点,处理引擎就会失效。

如果这句话改为“我不能给你这个又大又圆的苹果”,在人类读者看来仍是负面的语句,在初级引擎看来就变成了正面的。高级引擎仍可判断为负面。可见好的NLP引擎是不会轻易被骗过去的。

当然NLP引擎也有局限性,譬如它只能在语言层面正确工作,它终究不能像人类那样思考。举一个例子:“除非就业 市场明显好转,否则住房市场不可能出现奇迹般的复苏。”对于人类读者来说,美国就业市场很糟糕是尽人皆知的,因此这句话明显是负面的。如果使用初级引擎,简单地数词汇,会发现三个正面词汇(好转、奇迹、复苏)以及三个负面词汇,因此得出结论这是中性的。如果使用高级引擎,仍会发现这是一个中型语句,因为它是建立在一个假设上的,而这个假设对计算机来说没有意义。

因此NLP引擎对单独语句的纯语言学判读可能是正确的,但是市场环境、语义环境可能给人类不同的解读,这是NLP引擎所不知道的。譬如引擎不知道当今就业市场的情况。

 如何设计量化模型以利用NLP引擎的长处,避免它的短处,就是量化策略家需要研究的课题。

 

数据的选择


首先确定新闻数据的来源。鉴于企业报告的立场很难中立超然、而网站、blog、bbs等网络新闻易被操纵的特点,我们倾向于采用传统金融新闻媒体的新闻,这些传统媒体包括华尔街日报、路透社、彭博通讯社、道琼公司、福克斯电视台等。这些传统媒体公司的报道相对来说比较中性自恰、格式固定、来源稳定、风格保守。

如前面指出的,传统媒体的报道可能会有滞后效应。尝试了大量的企业内部报告、公司网站、Blog, bbs等后,倾向于接受这种滞后。

道琼公司和路透社的全球新闻总量在2003年1月到2010年11月间达到了每月15万条(见下图)。


同一个题材的报道一般形成一个系列,某一个新闻一般是一个系列中的一个。路透社和彭博通讯社的新闻系列结构往往是以一个非常简短的提示(Alert)开始,然后在5到20分钟后跟着一个完整的报道(Newsbreak),然后在20到30分钟内跟踪报道。一个小时内还会有后续报道等。

 

设计策略


如何设定量化标度是一个非常关键的问题。在大量相关研究的基础上,通常认为下面的量化标度是重要的。

第一、相关性。 一则新闻N次提到了股票,其中提到IBM一共m次,那么这则新闻与IBM的相关度就是m/N

有了这个标度,量化策略家就可以过滤掉相关性较低的新闻。

第二、正面度、负面度、中性度。其中正面度就是正面词语出现的总数,除以新闻中出现的字典词语总数,等等。每一条新闻都有这三个数值,三个数值相加等于1。

显然,正面度和负面度非常接近的新闻可能有NLP引擎解读不准确的问题。中性度偏高的新闻也可能有这种问题。此类新闻应该过滤掉。

第三、情绪指数,可以取值 1,0,-1,分别代表正面、中型和负面。在正面度数值超过负面度和中性度时,这条新闻的情绪指数就是1,如此等等。

第四、报道的序列号。可以想像,同一个系列报道中的第一个是最重要的、影响最大的。

我们倾向于只选取每个系列中的第一条新闻。


量化结果

针对个股的负面新闻出现之前60天到出现之后60天,香港股票价格(收盘价)累计变化超过恒生指数部分的平均值。

注意笔者把每一条新闻和一个交易日联系起来,从上一个交易日结束的时刻开始到本交易日结束的时刻为止的所有新闻都属于本交易日,因为这条新闻会对本交易日的收盘价产生影响。

 

可以看出,在新闻出现于传统媒体之前60天内,股票已经处在持续下跌的过程中,总跌幅超过1.5%。在新闻出现之后的3、4天内,股票仍继续下跌0.2%。

正面新闻出现前后60天股票价格相对于恒生指数的累计变化曲线。


同样,在正面新闻出现之前,股票已经处在持续上涨过程中,总涨幅接近1%。在新闻出现之后的3、4天内,股票仍继续上升0.2%。

这一观察表明,在信息成为公共信息之前,已经有投资者得到了信息并按照信息进行了交易,从而影响了股价。

香港的证监委(SFC)一直致力于打击内幕交易,也就是发行股票的公司高管乃至普通职员,以及大股东利用工作之便提前获取可能影响股票价格的内幕消息,并进入股市交易牟利的犯罪行为。

这里看到的消息泄露也可能是投资人自己主动跟踪研究所致。譬如要跟踪Home Depot(家乐宝)的销售情况,研究人员经常定点在几家连锁店址清点停靠车辆的数目、进出顾客的数目,或者与销售经理交谈等等。传统研究手段还包括研究基本面数据、研究报告等。这些传统研究手段虽常常有效,但手工特点明显,费时、费力,价格昂贵,规模小且无法保证结果的一致性、可重复性和成功率。一个基金经理如果能够这样跟踪10只股票就已经非常吃力了。

如果使用本文推荐的量化策略,在传统媒体发布新闻的第一时刻作出判断进行交易,可以在3、4天后获得0.2%的回报。0.2%比1.5%要低8倍,比1%要低5倍;但同样的策略可以交给计算机处理,并同时监视几百只股票,可以大范围、工业化成规摸进行,从而使综合回报远远超过传统研究方法。

 

对萨莫斯疑问的回答
 

下面这张图明确地回答了萨莫斯在22年前提出的疑问。

 

图中靠上的蓝色曲线代表所有香港股市新闻的正面度在那个月的总和,下面的红色曲线是恒生指数的每月平均价。可以看出,新闻的正面度和恒生指数呈正相关。并且蓝色曲线明显具有先导性;它几乎总是在恒生指数下跌之前下跌,反弹之前反弹,到顶之前到顶,触底之前触底。

仔细考虑后觉得这其实并不奇怪。投资人受到新闻报道情绪的影响不可避免地使股市受到同样的影响。

 

道高一尺,魔高一丈
 

当然,机器的策略一定有漏洞可被利用。

日常生活中,很多善于沟通者常常在负面消息中加入大量伪正面词汇,委婉传递坏消息。这常常可以欺骗初级引擎。

如果企业发言人知道了字典中的词汇,在发布新闻的时候,就可以有意避免使用字典中的词汇,改用字典中没有的负面词汇。这种做法甚至可以欺骗高级引擎。其实,西方的政治家常用这种做法欺骗选民。像使用“量化宽松”代替“滥印钞票”,“流动性短缺”代替“没钱了”等等就是同类做法。

此外,企业发言人还可以故意在发布坏消息的时候使用错误的语法,造成语法模型出错。或者故意制造自相矛盾的语义,造成语义模型出错。

譬如布什总统曾经说过:Our enemies are innovative and resourceful and so are we. They never stop thinking about new ways to harm our country and our people, and neither do we.  这等于是说“敌人伤害我们,我们也一样”。

发言人也可以故意制造语义错误,误导语义模型。某赛车评论员曾说过一句经典的语义矛盾的话:“领头的赛车设计得独一无二,而紧跟其后的第二辆赛车和它一模一样。”我们常说,“他死了,但他永远活着。”

最后指出,分析师完全可以把新闻情绪指标作为正交的自由度引入已有的动量趋势模型中或者均值回归模型中,从而达到提高模型Sharpe比率的作用。

类似的做法也可以在高频交易中使用。

 

------分隔线----------------------------