大数据的尴尬:谷歌流感趋势的预测失败

如今,关于大数据的研究无论是在学术界还是非学术界可谓是风生水起,连寻常老百姓都能叨叨两句大数据。可以说,每个开始接触大数据的人都是被谷歌与流感的传奇故事所吸引的。谷歌的工程师们很早就发现,某些搜索字词非常有助于了解流感疫情,于是,2008年谷歌推出了“谷歌流感趋势”(GFT),这个工具根据汇总的谷歌搜索数据,近乎实时地对全球当前的流感疫情进行估测,但当时并没有引起太多的关注。直到2009年流感爆发前几周,Nature上的一篇介绍GFT的论文,成功预测了流感在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们震惊不已。与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标,不会像疾控中心一样要在流感爆发一两周之后才可以做到。

自此,谷歌流感趋势和疾控中心幸福地生活在一起。然而天有不测风云,2013年2月Nature上的一篇文章揭示了GFT预测的全国范围的流感样病例门诊数(占全国人口的比例)近乎是实际值的2倍。

google big data

同年3月,Science上发表的一篇名为“The Parable of Google Flu: Traps in Big Data Analysis”的文章就是以GFT的预测失败为案例,解释了大数据分析为何会背离事实。文章作者认为造成这种结果有两个重要原因:

1) 大数据的浮夸

人们理所当然地认为大数据完全可以取代传统数据的收集和分析,而并非作为传统方法的补充。

GFT容易出现数据过拟合:很多关键词看似与流感相关,但实际并无关联。谷歌流感趋势需对比5000万个词条的搜索率和已知流感发病率,统计其匹配情况,难免出现毫无关联却完全匹配的案例。以高中篮球为例,谷歌开发人员说,高中篮球和流感通常发生在冬天,因此篮球和流感相关搜索频率和时间分布十分匹配,导致篮球粉丝容易被当作流感患者。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现,使用疾控中心的滞后预测报告(通常滞后两周)来预测当前的流感疫情,其准确性甚至都高于GFT的预测结果。

2) 算法的改变

谷歌搜索算法并不是一成不变的,例如,谷歌官方博客仅在2012年6月和7月就报道了 86次搜索算法的变化。搜索引擎算法的改变和用户搜索行为的变化会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关词汇的搜索次数,进而影响GFT的预测。

从谷歌流感趋势的成功到失败,我们可以看到大数据在应用中出现的一些问题:大数据并不是万能的,数据也并不是越大越好。几乎所有介绍大数据和云计算的文章中,都会提到足够多的数据是实现技术的前提,并且数据越多,得出的分析结果越准确。可是,掌握大数据并不等同于拥有良好的数据,况且,在现有的技术不能保证数据来源准确性的情况下,大量的数据反而会加大分析的难度,就像前文提到的过拟合现象,很多搜索词表面看起来和流感有关,其实毫无关联。

因此,数据的价值并不仅仅体现在“大小”上。真正核心的改变在于利用创新的数据分析方法去分析数据,这样才能帮助我们更好的理解这个世界。

 

Chinese, Simplified(简体中文)