
最近发表在Science上的一篇论文指出,Google流感趋势掉进了大数据分析的陷阱。
Google流感趋势是Google于2008年推出的一款预测流感的产品。Google认为,某些搜索字词有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。
Google在网站中解释称,搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。Google会将自己统计的查询数量与传统流感监测系统的数据进行了对比,通过对这些搜索查询的出现次数进行统计,准确估测出世界上不同国家和地区的流感传播情况。但事实上,他们的估算并不总是那么准确。
在Google流感趋势发布后没过几个月,甲型H1N1流感就开始在全球范围内大流行。讽刺的是,Google流感趋势并没有预测到这场持续了一年多的疫情。一篇发表在Science上的研究称,自从2011年8月以来,Google流感趋势在108周的时间里有100周出了错。
Google从来没有披露过他们是采用哪些搜索关键词来追踪流感信息的。而事实上,以“流感”为关键词进行搜索的用户,实际上并一定代表他们得了流感。去医院看流感的人中,高达80%~90%比例的人实际上并没有得流感,他们在Google上的搜索行为并不能作为可靠的信息来源。
Google必须每年都对流感趋势所使用的模型进行调整,因为基于搜索的大数据模型存在太多影响精准度的噪音。尽管自Google流感趋势推出已经长达六年,但是他们仍然没有办法替代传统的流感监测模式。
题图出处:shutterstock
0 条评论
请「登录」后评论