应用数据科学需要蚂蚁、蜘蛛、蜜蜂三种学习方法

【财新网】(专栏作家 张小彦)小时候曾读过一篇有关学习的文章,其中提到一位西方哲人(据说是培根,但我没有考证)用蚂蚁、蜘蛛、蜜蜂形象地描述了三种不同的学习方法。

蚂蚁是大力士,能举起超过体重几倍的东西奔跑、搬运和堆积。蜘蛛仅凭肚子里的黏液就能织出一个捕捉昆虫的大网。蜜蜂博采百花粉,然后经过自身的加工生产出蜂蜜。蚂蚁的方法是堆积,蜘蛛的方法是构建体系,而蜜蜂的方法最有效:通过博采众长,加工提炼后产生更高层次的结晶。

在应用数据科学实现智能决策的实践中,我感到了学习方法的重要。不管是蚂蚁的堆积、蜘蛛的体系构建还是蜜蜂的提炼加工都不可或缺。下表是对数据驱动的智能决策过程一个归纳。

数据驱动的智能决策

数据采集、集合、梳理、清理、标准化、组合等都需要蚂蚁的精神和方法。数据分析的思路、模型离不开蜘蛛建立体系构建的能力。数据分析中的加工、提炼过程则正是蜜蜂方法的真实写照。

数据准备是一个琐碎、繁杂、费工、细腻、费时的工作。我们需要在学习蚂蚁不辞劳苦、兢兢业业精神的同时,想方设法地应用大数据技术高速有效地处理数据并使之标准化、自动化。产生数据分析模型的过程中需要创造性。蜘蛛的体系构建能力和方法值得借鉴。我们需要多学科、多领域的专家从不同的角度观察和解析数据,将蜘蛛的方法多样化。连接数据分析与结果展示的过程需要蜜蜂的加工提炼能力。人人都能吃蜂蜜,但没有几个人懂得花粉的成分和用途。数据分析的结果必须通过分类、加工、提炼、成为有用的信息和智能并通过直观易懂的形式(文字、图表、仪表盘等)展示给使用者,才能产生实用价值。应用数据可视化分析技术可以将蜜蜂的方法自助化,使决策者能直接互动地分析海量数据并实时地得到结果。

数据的分析和应用主要有两个目的:一是科学发现(认识世界),二是决策支持(改造世界)。而数据科学则是“用数据研究科学,用科学研究数据”(鄂维南院士语)。

作者为社会学博士,现任美国匹茨堡大学客座教授并兼任一家软件公司董事长和数据科学家

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180105C0D29G00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区