数据分析没思路？疫情分析是最好的实战教材

PP鲁

发布于 2020-02-17 17:04:47

9670

发布于 2020-02-17 17:04:47

这些天新冠病毒肺炎疫情成了全世界关注的焦点，网上的各类言论满天飞，有散布焦虑的、有监督红会的，有买卖中药的、也有各类阴谋论的，很多文章毫无数据支撑，却得到了大量转发和支持。我认为，在这个数据时代，没有数据支撑的“大新闻”八成都是为了骗关注或者收智商税。这些天我也读了不少有关疫情分析的文章，突然发现，对疫情的数据分析思路与我平时工作中的数据分析简直如出一辙，这不就是我平时做的那些工作嘛！很多朋友说想入门数据科学，但是没有思路，所以这篇文章从数据科学的思维方式和独立思考的角度来谈谈如何解决疫情分析这个实际问题。建议对于数据科学感兴趣的在校学生、刚入行的数据分析师包括数据产品经理、数据运营、算法新人以及所有与数据相关的岗位都可以读读这篇文章，将一些数据分析思路与自己的实际工作比对一下，看看如何辩证地分析数据。

数据建模：思路比工具重要

当前任何学科的研究离不开各类数据分析工具或软件，各类科技新名词又层出不穷，比如大数据、深度学习、Python等等，这些名字听起来高大上，给新人一种难以接近的距离感。一些朋友认为做数据，就是学习如何使用这些工具。我却认为这是本末倒置了，数据科学的本质不是这些工具，而是建模思路，或者说是基于我们已有的知识来做出假设，解释现象。

比如，现在需要分析的一个重要数据是，到底有多少人感染了新型肺炎，官方给出的数据目前在2万左右，武汉六七千右（2月4日前）。关于这个数据，一些网络的个案报道似乎与之不符，比如早些天武汉发热门诊排队人数太多几乎无法就医住院，比如财经杂志的那篇《统计之外的人：他们死于“普通肺炎”？》。对于确诊人数这个问题，现在没有谁能预测对，因为人类还没有完全掌握这个病毒的全部知识，都是基于一些已有的信息和观测来建模，病毒对我们来说是一个未知数。因此，在建模过程中，都需要做一些假设，基于假设和已有信息来做推断。

现在的问题在于，湖北的医疗条件非常紧张，很多实际病人无法就诊，导致这个数据无法反应真实情况。那么如何推算实际数据呢？几位分析师都一致将目光聚焦到了国外撤侨的数据上。因为湖北的资源有限，但是撤侨的几个发达国家资源肯定是充足的，这个人群一下飞机就经历了非常严格的医学隔离、筛查和跟踪，因此这个数据相对来说是最可信的。下图来自凤凰网唐驳虎的分析：如果只是一个国家的侨民如此，那还可能是偶发性病例，但东西方多个不同国家侨民的被感染比例都差不多，这就相当程度能说明问题了。

作者从日本数据出发，以撤侨人数中各类症状出现的比例，反推出了每十万人的感染可能。这种建模方法使用撤侨数据估算整体感染人数，其假设是病毒在武汉随机传播，人群中有一定概率会被传染上。作者通过这种方法，初步推论为：目前900万在城人口的武汉，可以估测，携带病毒、且有明显症状需要治疗的人数在1.5万人左右，其中重症人数应在3000人左右。

有了前面的一个大概的估计，我们已经知道湖北和武汉的医疗资源可能无法确认很多病例。新华社1月30日文章称，湖北每日的检测能力是6000，但仅武汉一地可能就有五位数的感染人群，加上大量疑似病例，这个检测能力很有可能是不够的。知乎用户chenqin就说，海水不可斗量，去看斗的数量有什么意义呢？在国内发布的确诊数据上分析、拟合、预测，调用各类高大上的深度学习算法，可能得到的都是错误结论。

这里我并不评论这种方法去估算疫情到底有多准，只是想谈谈这个分析思路和方法。用日本的“小数据”，反推湖北的“大数据”，这在很多数据分析业务场景上是非常常见的。虽然我们现在有了大数据工具，可以收集每个人的数据，但是：第一，我们没有时间从大数据中把每个人都捞出来检查一遍；第二，大盘数据有各种各样的偏差，不同类型的人群在数据表现上的差异极大，找到一个置信的数据集比较难。这两个点是所有数据分析师实际工作都会面临的难题。在实际工作中，不是说使用某某大数据工具就能解决所有问题，而是要将问题化解和抽象，提取置信数据，反推一些结论。这里并没有用什么高大上的人工智能技术，一个Excel就能计算出来。

思考的快与慢：不要因直观感受而妄下结论

最近几天的确诊数据飙升，看着这成千上万的确认人数，有些人又不淡定了。飙升的数据是一个直观感觉，如何解读这个直观的数据呢？许多分析师认为，在当前的防控措施下，短期内武汉的确诊人数越多越好！

为什么说越多越好呢？面对这个数据，我们要结合各类信息，抛开直观感受，分析数据背后的逻辑。首先我们要了解病毒的传播原理，它主要依赖宿主进行繁殖，同时主要通过呼吸道传播。第二，我们要了解国家现在的防控措施：把病毒关在武汉，集中围剿，其他地区像打地鼠一样，各个击破。等过了潜伏期，病毒没有了宿主，也就不可能大范围的蔓延了。所以说，越快将所有潜在病毒携带者确认并隔离，越能把病毒集中控制住。

这种分析思路恰恰与我们工作中很多场景很相似，很多数据乍一看非常难看，直接把这个数字呈现给老板肯定是要挨骂的。比如，之前的项目中，我们在一个产品的基础上，推出了另一个相似的产品，老板一直质疑，新产品是否把老用户抢走了，反而让外面的竞品有了可乘之机。一开始，新产品本身的数据也确实不乐观，用户停留时长很短，仅凭直观感觉，不去依赖一些其他信息，得出的结论就是负面的。但是我们的数据分析师花了大量时间进行AB试验，对比各类数据后发现，新老产品加起来的总用户停留时长在明显增加，竞品的用户停留时长在缩短，这说明了：新产品基本没有争抢老产品的用户，反而是新老产品合在一起抢走了竞品的用户。

回到疫情问题上来，短期内武汉及周边地区出现爆发式增长可以理解，国家也正在整合资源集中解决这一地区的问题，但是如果包括北京上海在内的其他地区的确认病例不断增长，那形势就非常严峻了，说明病毒没有被很好控制住，正在人群中传播。

诺贝尔经济学奖得主丹尼尔·卡内曼在他的书《思考，快与慢》中指出，很多直观感受让人的大脑立即产生了一个结论，但这个结论往往是错误的，我们要避免掉入这些思维陷阱。这正是数据分析工作需要注意的：我们要透过现象看本质。

数据分析的终极目标：决策支持

数据分析的终极目标是为了提供更优的决策支持，否则都是在作秀。这次疫情下，国家也提出了科研机构应该集中力量进行抗击疫情，而不是为了发论文而发论文。那么，在疫情这个场景下，我们的数据分析如何支持决策呢？

从现有的一些经验上来说，新型肺炎比SARS致死率低，传染性高，比一般流感传染性低，致死率高。现在的恐慌在于，病毒造成了对医疗资源的挤兑。肺炎一般是一种需要住院救治的病，以当前的武汉为例，大量的患者急需医院床位，但医院的容量有限，无法短时间内接收如此多的患者，这种资源的挤兑造成了恐慌。这种现象背后的问题是，地方的医疗体系能提供多大救治能力，转换成数据来表达就是：患病人数和当地人口数的比值。一般当地医疗机构的配置是和当地人口数是正相关的。患病人数除以当地人口数，换算为每100万人口中患病人数更能反映一个地区的疫情严重程度。比如，两个地区都确诊100例患者，一个地区人口1000万，有十家三甲医院，几百张床位，另外一个地区人口200万，只有一两家三甲医院，几十张床位和有限的医学专家，那大量的患者可能住不到医院，不能住院的潜在危险就是携带病毒并且继续传播。

很多专家都基于现有数据对上面的指标进行了分析，北大新闻和社会学专家刘德寰和自媒体【数据化管理】作者黄成明均提出使用这种方法来分析当前各地区的形势。这两位作者分析，除了湖北压力极大外，都提到了江西新余，本文写作时已经有59例，百度百科上显示这个城市2017年人口数为120万，三甲医院只有一所，我这个北方人都没有听说过这个地级市。而如果只看病例数量，新余根本不会进入决策者的视野。

以上两图均来自【数据化管理】

数据分析要用来支撑决策。无论在哪个领域，资源都是有限的，决策者必须将有限资源用在有限的方向上。有了这些数据，可以快速定位需要重点支持的方向，将有限资源放在最需要的地方。

数据可视化：让数据能说话

我们不能忽略数据可视化的强大表达能力。微博大牛@江南剑心2 将天津的数据做成了可视化视图，这张图抽丝剥茧，展示了天津所有案例的基本信息，能够帮助人们了解病毒的传播特点。图中，红色为输入型，蓝色为非输入型。病毒从输入型人群传播到非输入型人群，一目了然。从这张图中，我们一眼就能了解病毒在天津的传播路径，其中两个聚集性案例为：

工作单位聚集传播，包括铁路员工和天津宝坻百货大楼的案例。2月3日晚一篇堪比推理小说的文章披露了百货大楼内，一个有过疫情地旅行历史的病例如何将病毒传播到了百货大楼几个售货员身上。
家庭亲属传播，几个家庭皆因输入型病例而被感染。

如果我们在工作单位上拿出这种高质量的图表呈现给老板，有力地支撑一些结论，一定得到老板的称赞和提拔。

小结

数据本身不会说话，数据分析也不是使用一些高大上的工具，而是建立一套思维方式，解释现象和预测未来，帮助我们做决策。数据分析新人总觉得没入手点，实际上是因为我们缺少相关实战经验，也不愿用心了解数据以及业务场景。疫情正是一个最好的实战教材，我们可以学习一些网络上一些博主对疫情的分析，看看他们如何收集并分析数据，如何下结论以及如何用可视化方案做展示。

参考资料：