点击标题下「大数据文摘」可快捷关注
作者:喻陆,解放军305医院教授
2010年《让子弹飞》中土匪张麻子在伏击县长马邦德时有一句经典台词:“别急,让子弹飞一会。”最终子弹成为胜负的关键一枪,也是这么一颗子弹串起了剧中所有人的命运。
用一个四年前的老电影故事的主要原因是,子弹在飞与击中目标的过程,以及过程中看客心态,射击者心态,与我们当下的一种环境十分相像:大数据与公共卫生建设。在过去的几年间,大数据技术之于公共卫生就像一颗高速飞出的子弹,一直飞在空中,无法真正为公共卫生提供成熟可操作的解决方案。
回望过去,2009年的一场甲型H1N1 流感是扣动大数据扳机的关键力量。在与这场夺去几百人生命的流行疾病战斗中,人们发现了流行疾病前置预测的重要性。传统的公共卫生管理中,一般要求医生在发现新型流感病例时告知疾病控制与预防中心。但这种处理方式有一个致命弊端:流行疾病的传播性远远快于后置传递的信息——人们都会在发病多日后才选择医院就诊,从就诊到医院发出诊断预警信息,这其中约有一至两周的滞后周期。这也就直接导致,当一场流行疾病真正在公众中爆发时,已经错过了最佳预警时期。
所以,在公共卫生流行疾病的管理中,如何抓住这往往被医疗管理者和大众都忽略的黄金一周成为关键。我们可以先回放,当一种流行疾病在一个个体上出现时,人们的行为都是如何应激的:第一天,他们会先忽略一些小小的不舒服,继续工作学习;第三、五天,甚至接下来的一周中,当病症扩大时,不舒适感增强,他们开始通过网络查询病症以及对应的治疗方案。这时,人们的行为出现分流,一部分人继续自我治疗,而另一部分人则选择到医疗机构诊治。
而这其中从第三天开始之后的一周到两周的时间中,发生的行为大数据成为预测的关键。这一时期中,人们在网络上询问各种关于病症的问题,以及自我治疗的方法。无论是询问病症关键词,还是药品关键词都可以成为大数据预警的触发机制。大数据公司可以通过实时监控,发现不同病症的地域分布、触及人群广度,并结合医疗工作者丰富的经验值来组合判断流行疾病爆发的可能性。
如谷歌的“流行感冒预测”就是目前海外认知度颇高的案例,他们把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,最终通过数学模型的搭建,构成了预测系统,在2009年发布了冬季流行感冒预测结果,与官方数据的相关性高达97%。目前,谷歌流行疾病预测包括了流感趋势、登革热趋势。
中国政府相关部门也在2010年开始尝试与百度等互联网科技公司合作,尝试通过大数据的挖掘管理,分析实现流行疾病预警管理。中国疾病预防控制中心副主任、中科院院士高福也认同大数据在公共卫生预防控制上的作用。他公开表示,通过大数据可以在流感到来之前为人们提供一些解释性信息,为流感的预防提供缓冲时间。
如今,中国已经不仅仅预测流感,还开始预测包括肝炎、肺结核、性病等4种主要疾病。提供这项大数据预测服务的是百度,数据源除了query数据之外,还用到了google没有用到的微博数据,以及百度知道的与疾病相关提问的趋势。借助其在移动互联网的14个过亿用户入口,移动数据也将为预测提供下一步更加意义深远的支持,如:各地疾病人群迁徙的数据特征,各地天气变化等等。据说,未来的预测将从现在的4种扩展到30多种主要疾病。
在具体的数据分析与挖掘方面,百度疾病预测将地区差异作为重要变量,针对每个城市分别建模,光是基于数据输出模型就达到300余个。加之后台数据的精心准备,让百度的疾病预测在最终的产品端可以提供全国331个地级市,2870个区县的疾病态势预测。
大数据终于不再只是飞,落地中国公共卫生管理也只是一个美好的开始,我们可以想的更多,这个数据库的模型可以更加丰富,例如:在数据收集端,通过智能移动健康设备实现个人健康数据实时监测,数据即可输送至公共卫生管理大数据库,也可以建立个人健康管理电子档案。在数据利用端,通过个人电子健康档案,可实现家族疾病以及慢性疾病的实时监控,并对此实现长期对症治疗。