腾景宏观金融大势研判
2022-12-23 17:23 · 来自北京
腾景宏观快报
2022年12月23日
大数据疫情观察(二):全国疫情高峰过了么?
—— 基于腾景AI高频模拟和预测
腾景高频和宏观研究团队
本期要点:
针对预测到底准不准,全国疫情是否已经见顶的问题,我们增加了28个城市的地铁客运量日度数据进行辅助判断。非网民样本的缺失可能会导致预测结果有偏。
大数据不完美,应用大数据做宏观经济预测并非完美无缺,我们分析了谷歌流感趋势何以失灵。原因可能包括:媒体对谷歌流感趋势(GFT)的大幅报道导致人们的搜索行为发生了变化,用户的搜索行为反过来也会影响GFT的预测结果。
当前全国疫情或尚未达峰,但是达峰进程可能会有所提前。借助地铁客运量数据进行辅助验证,我们判断北京、石家庄、武汉、重庆等城市已经度过疫情峰值,成都、天津、长沙、南京、西安等城市尚未达峰。
一、预测到底准不准?预期与现实相互验证
在上期《大数据疫情观察:中心城市率先迎来峰值》报告中,我们分析并给出了北京和河北部分城市疫情已经迎来“拐点”,成都、昆明等城市将陆续见顶的预测判断。根据百度搜索指数数据,北京百度“发烧”搜索指数持续下降,“咳嗽”搜索指数后于“发烧”见顶,这基本上印证了我们模型的预测。但是,我们也注意到2022年12月17日(上周六)全国范围内“发烧”指数见顶,这是否意味着全国疫情的见顶?如果这样,这个数据与一些防疫专家的春节前后见顶的判断就有所出入。也有专家认为全国疫情可能虽然尚未达峰,但是进程缩短了。
但根据字节跳动的“巨量算数”,抖音“发烧”搜索指数于12月17日见顶,但头条“发烧”搜索指数仍在震荡上行。在朋友圈广为传播的知乎“数据帝”的预测里面,2022年12月20日前后大部分省市相继达到感染高峰,那么,很多研究者都想确认的是,站在2022年12月23日,全国范围内的单日新增感染有没有达峰?有人认为预测很准,和自己这些天在互联网上对疫情的感知较为一致;有些人则认为不准,认为身边的亲戚朋友们都阳了,而预测进度条还不到一半,个人体感和预测结果有较大差异。
与此同时,我们注意到了在2022年12月16日前后,全国几乎所有城市、省份“发烧”搜索指数迎来了“先扬后抑”的脉冲式增长,后续日度数据再也没有高于16日当天的值。这意味着疫情最艰难的阶段已经度过了么?通过对百度、头条疫情病症搜索引擎数据进行数据挖掘和建模分析,可以为疫情未来趋势研判提供重要参考。不过我们理解,为了定量评价疫情进展,还需要引入更多数据。
由于没有权威数据作为参考,各类疫情的预测仅仅是基于直觉、推理或演绎的带有参数的模型预测,预测准不准,缺乏客观权威作为结果比较,所以很难客观衡量预测是否准确,只能通过参与这件预测的所有观众和读者通过微观的数据,周围疫情扩散程度去验证预测结果,一个城市不同群体感染的先后,不同城市感染达峰的节奏,都会对预测是否准确有不一样的理解。
模型有局限性,逻辑假设的适用性,缺乏权威数据作为验证,难道就不需要预测了吗?托马斯·库恩(Thomas Kuhn)和卡尔·波普尔(Karl Popper)就“科学哲学”这个概念展开了20世纪最具影响力的对峙。他们都以自己的方式深奥地从哲学的角度质疑科学的基本前提。库恩的《科学革命的结构》(The Structure of Scientific Revolutions)指出,即使现有的范式所预测的结果在现实中存在反例,现有的科学家也不会认为其范式有问题;只有可替代现有范式的新科学范式出现,并且反例达到了一定的数量,现有科学范式才可能被证伪,科学革命才会发生。从批判的角度来看对预测过程的否定也是发现新预测方法的过程。
量子基金的乔治·索罗斯(George Soros)推崇的哲学家卡尔·波普尔(Karl Popper)最著名的观点是科学是通过“可证伪性”(Falsifiability)进行的——人们无法证明假设是正确的,甚至无法通过归纳法获得真理的证据,但如果假设是错误的,则可以反驳它。根据波普尔的观点,只有可被经验证伪的理论体系才应被赋予真正的科学地位。因此,波普尔提倡大胆假设,用证伪的方式去不断试错,不断修正,而不是提出假说,然后到处找支持自己理论的根据。“证伪”也是索罗斯所一直推崇与实践的思考方式。
二、地铁客运量作为疫情达峰的重要辅助观察指标
因此,我们从疫情出发,回到经济,从多维度验证疫情的峰值。地铁客运量无疑是很好的观察指标,一个有地铁城市的客运量受若干因素影响:1、出行管制,2、出行意愿,3、地铁的便利程度。
从数据上来看,北京、上海作为全国地铁保有量最高的两个城市,也是日均客运量最高的两个城市,地铁数据较高的反映了疫情的高低,同时地铁客运量的日度数据公布滞后1-3天,还算比较及时,从数据收集角度看,地铁数据来自于物联网设备自动采集,人工干预的影响较小,数据具有充分的客观性,可以作为疫情的第二类主要观察变量。
图:上海地铁客运量
▲数据来源:Wind、腾景AI经济预测
上图是2019年12月至今的上海地铁客运量数据,比较明显的是2020年初的武汉疫情,2022年4月的上海疫情,和2022年12月的全国疫情。由于地铁客运量遵循周一至周五高,周六日低的原则,日度数据信息量有些冗余,后续我们通过比较周度平均数据,可以过滤短期的日内数据波动。
图:上海地铁客运量(7日移动平均)
▲数据来源:Wind、腾景AI经济预测
比较北京地铁客运量,也可以看出2022年4月,上海地铁停运7周左右,北京虽然没有停运,但周度地铁客运量均值从近三年日常的800万降低到100万以下。值得注意的是,2022年9月之后的北京地铁客运量明显低于上海,这一方面是疫情,另一方面也是北京地铁需要全网查验72小时核酸,11月24日进一步缩短到48小时,12月5日起这一政策被解除。
图:北京地铁客运量(7日移动平均)
▲数据来源:Wind、腾景AI经济预测
图:十大城市地铁客运量7日移动平均,协同性高度一致
▲数据来源:Wind、腾景AI经济预测
基于此数据,我们认为北京疫情高峰已过,但全国整体疫情高峰并非如百度搜索指数和头条指数显示的那样已经见顶,而是处于快速发展期。我们建立了四阶段数据模型,辅助验证各城市是否达峰。如下图所示,北京、武汉、重庆、沈阳、石家庄、兰州、昆明地铁客运量已经企稳回升,目前处于第四阶段;成都、天津、长春、郑州、广州、厦门、深圳、西安、上海、南京等城市仍处于达峰进程中的第三阶段。由于移动平均有可能会带来数据滞后,后面,我们用真实数据做了测试。
图:疫情扩散进程
▲数据来源:腾景AI经济预测
图:国内部分城市地铁客运量(7日移动平均)
注:十大城市是指:北京、上海、广州、成都、南京、武汉、西安、苏州、郑州、重庆,下同。
▲数据来源:Wind、腾景AI经济预测
在以日度为单位的疫情进展中,如果当天地铁出行数据出现回升,应该主要看两个数据,第一是同比(例如本周一,相较于上周一的客流量),第二看环比(例如今天相较于昨天的客流量)。
根据日度数据,北京地铁出行,无论是环比还是同比,均处于上行阶段,这与见顶判断一致,其他有可能见顶的是武汉、重庆、成都。而上海、广州、南京、苏州、西安等地铁客运量仍在持续下滑,这表明疫情仍在达峰进程中。
图:国内部分城市地铁客运量
▲数据来源:Wind、腾景AI经济预测
由于地铁客运量同比数据(相较于上周本日的数据)下滑严重,我们判断:上海、广州、南京、西安、苏州、郑州等城市的疫情仍在达峰进程中,北京、武汉、重庆同比转正,预计已度过疫情高峰。
图:28个城市地铁客运量及周度同比
▲数据来源:Wind、腾景AI经济预测
三、预期如何与现实相互影响?
放开疫情管制后的经验有很多,无论是疫情见顶的节奏,对消费,劳动参与率的影响,都有较多国家可以参考。这无疑给了我们一些预期,14亿人口的放开和中等规模人口国家放开又有所区别。国内传染病专家也在各类媒体上表示春节前后,明年一季度疫情达峰等等,释放这样的未来见顶信号。但是从北京和多数城市的感知中,疫情似乎见顶的早于我们的认知,那么到底哪里会出问题呢?
(一)政策指标失灵:古德哈特定律
当多数互联网参与者都知道百度搜索指数能够间接代表疫情的时候,它可能就不准了,在某种程度上,它就是古德哈特定律(Goodhart’s law)在疫情上的体现。古德哈特定律是出自于英国经济学家查尔斯·古德哈特(Charles Goodhart)的说法,指的是:当一个政策变成目标,它将不再是一个好的政策。其中一种解释为:一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。
毫无疑问,在大多数人不知道“百度疫情指数”的重要性的情况下,它大概率还是有效的,内涵逻辑为搜索量大数据间接反映了大部分的居民自发的网络搜索行为,“发烧”搜索在一定程度上和阳性有症状是一回事。但是,在官方媒体和自媒体都在报道的情况下,这一指标会引发更多的搜索,而这些搜索和疫情本身并没有关系,而是互联网流量带来的效应。
(二)网民搜索行为的偏移可能造成数据污染
我们比较了石家庄、兰州、北京、武汉、重庆、沈阳、昆明、成都、天津等城市的地铁客运量,发现都经历了政策放松而上行,疫情攀升客运量下行,疫情高峰度过再度上行这一数据变化模式。目前大部分城市仍处在疫情攀升客运量下行这一阶段,全国疫情的顶峰目前并没有到来,而百度指数给出的“发烧”搜索指数已经见顶,我们判断12月16日及之后的百度“发烧”搜索指数可能出现了异常,核心逻辑是12月16日(上周六),全国所有城市都出现了一个攀升,随后下降,这种能够同一时间影响所有城市的因素大概率不是以一定规律传播的病毒造成的,而是其他因素造成的数据“污染”。
(三)样本缺失:60岁及以上老年人非网民群体
我们知道百度指数(Baidu Index)、头条指数(Toutiao Index)、微指数是基于海量网民行为数据进行数据挖掘分析的数据产品,因此非网民的行为数据自然被排除在研究样本之外。
中国互联网信息中心(CNNIC)2022年8月31日发布的第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,我国非网民规模为362亿,这是一个不小的基数。从地区来看,我国非网民仍以农村地区为主,农村地区非网民占比为412%。从年龄来看,60岁及以上老年群体是非网民的主要群体。据此可见,非网民地域上主要分布在农村地区,年龄上以60岁及以上老年群体为主。
这个基数不小的非网民群体检索行为的缺失导致本来应该出现的检索结果游离于样本之外,导致“发烧”等病症搜索指数被低估。根据美国疾病控制与预防中心 (Centers for Disease Control and Prevention)的报告,患重症COVID-19的风险会随着年龄、残疾和基础疾病的增加而增加。在后期的奥密克戎期间(2022年4月-6月),大多数院内死亡发生在年龄≥65岁的成年人(819%)和患有三种或更多种基础疾病的人群(734%)中。
图:世界各国家和地区每日确诊的COVID-19病例(7日移动平均值)
注:由于检测有限,确诊病例数低于真实感染数,数据截至2022年12月21日
▲数据来源:约翰·霍普金斯大学CSSE COVID-19数据库,ourworldindataorg、腾景AI经济预测
图:世界各地区每日确诊的COVID-19病例(7 天滚动平均值)
注:由于检测有限,确诊病例数低于真实感染数,数据截至2022年12月21日
▲数据来源:约翰·霍普金斯大学CSSE COVID-19数据库,ourworldindataorg、腾景AI经济预测
(四)大数据不完美,谷歌流感趋势为何失灵?
早在1980年,未来学家阿尔温·托夫勒(Alvin Toffler)在《第三次浪潮》(The Third Wave)一书中,就提出了“大数据”(Big Data)的概念。自古至今,预测一直是人们十分期待的能力,而大数据预测则是数据最核心的应用,其逻辑是每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。
利用大数据方法和技术进行宏观经济研究和分析,在国际上已有先例。在大数据分析的视野中,它不仅仅是要搞清楚宏观统计规律,更要弄清宏观数据中的精细结构。基于研究的视角,大数据时代为宏观经济分析提供强大的支持,正在改变宏观经济研究范式。
各国央行等主流金融机构研发并采用即时预测模型以实时追踪经济状态的变化,在被大量社会化信息淹没前就找到可靠的信息源,从而动态地调整对经济指标的预期。包括纽约联储的Nowcasting模型、WEI模型、亚特兰大联储的GDPNow模型以及英格兰银行(BOE)的MIDAS模型等。
根据Didier Sornette教授的“龙王”理论,极端事件的发生有两个条件:系统的一致性与协同性。当系统的一致性非常强时,黑天鹅式的极端事件容易发生。当系统的一致性和协同性同时加强时,会发生超越“黑天鹅”(Black swan theory)的更极端的“龙王”事件。
“黑天鹅”也好,“龙王”也好,都不是孤立的事件,而是一系列强烈关联的事件,体现了正反馈的强大作用。什么时候股市可以预测?关键就在于股市变化前后关联的程度。
2008年谷歌推出的Google Flu Trends系统,其动机是能够及早发现疾病活动并迅速做出反应可以减少季节性流感和大流行性流感的影响,通过分析收集到的大量Google搜索查询,以揭示人群中是否存在流感样疾病。这个逻辑和想法其实很简单直观——如果你生病了,你很可能会在搜索引擎上搜索以查找信息,比如如何治疗。谷歌决定要跟踪这些搜索,并使用这些数据来尝试和预测流感流行,甚至在疾病控制中心(CDC)等医疗机构能够做到之前。
2009年通过谷歌累积的海量搜索数据,“谷歌流感趋势”成功预测了H1N1流感在美国境内的传播,一战成名。有报告指出,谷歌流感趋势能够在美国疾病控制和预防中心(CDC)报告流感爆发前10天预测区域性流感爆发。GFT这种预测能力显然具有重大的社会意义,可以为整个社会提前控制传染病疫情赢得先机。
于是谷歌在其网站上创建了一个奇特的方程式来计算出究竟有多少人感染了流感。简单理解的数据逻辑是这样的:人们的位置+谷歌上与流感相关的搜索查询+一些非常聪明的算法=美国流感患者的数量。
线性模型用于计算流感样疾病(Influenza-like illness, ILI)就诊的对数几率和(ILI)相关搜索查询的对数几率:
P是医生就诊访问的百分比,Q是在前面的步骤中计算的与ILI相关的查询分数。β0是截距,β1是系数,ε而是误差项。
谷歌流感趋势已被证明不是一直准确的,尤其是在2011年至2013年期间,它高估了相对流感发病率,并且在2012年至2013年流感季节的一个时间段内预测就诊次数是CDC记录的两倍。2013年《自然》杂志发表的一篇文章称,谷歌流感趋势将流感病例高估了约50%。
可以看到,应用大数据做宏观经济预测并非完美无缺。经济学家、作家Tim Harford认为,“谷歌流感趋势的失败凸显了不受约束的经验主义的危险”。对GFT失败的一种解释是,新闻中充斥着关于2012年12月流感媒体恐慌情绪,而这些报道激起了健康人的互联网搜索行为。
图:谷歌流感趋势ILI估计与CDC估计的比较
▲数据来源:Improving Google Flu Trends Estimates for the United States through Transformation, Leah J Martin, Biying Xu, Yutaka Yasui, 腾景AI经济预测
2013年,谷歌调整了算法,并回应称出现偏差的“罪魁祸首”是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”。谷歌在2011年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。研究人员分析,这些调整有可能人为推高了一些搜索指数,并导致对流行发病率的高估。举例来说,当用户搜索“发烧”,谷歌会同时给出“喉咙痛和发烧”、“如何治疗喉咙痛”等关联推荐词,这时用户可能会出于好奇等原因进行点击,造成用户使用的关键词并非用户本意的现象,从而影响GFT搜索数据的准确性。用户的搜索行为反过来也会影响GFT的预测结果。在充斥媒体报道和用户主观信息的搜索引擎的喧嚣世界里,也同样存在“预测即干涉”悖论。国内搜索引擎指数上大概率也会出现类似的情况,这是我们结合GFT的经验对预期差异给出的一种解释。
图:巨量算数“发烧”关联搜索词
▲数据来源:巨量算数、腾景AI经济预测
(本文执笔:吴卫、赵宕涵;编辑:何峰峰)
参考文献
[1] CNNIC:第50次《中国互联网络发展状况统计报告》
[2]>
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)