作者 | 齐伟
责编 | odd
说到数据可视化,大家可谓耳熟能详,设计师、数据分析师、数据科学家等,都用各种方式各种途径做着数据可视化的工作。
比如,做工作总结 PPT,要尽量字少有图; 展示报表,会选择柱状图;走在马路上,更容易被图形而不是文字吸引...... 这并不是因为我们聪明,只是大脑讨厌枯燥的数据,天生喜欢鲜明直观的可视化图形。
毋庸置疑,人工智能正在改变着现在和将来。数据可视化就是人工智能领域诸项技术的宠儿。
不仅如此,数据可视化还能作为独立的业务。同时,数据可视化还广泛存在于各种商业、政务、教育等领域的业务表述之中。
下面我们看个例子。
2018 年中美“贸易战”,美国的媒体为了向美国老百姓说明中国经济发展的情况,特别是对美国经济的威胁,一定要使用到中国经济和美国经济相关数字。那么,你觉得这些数字怎么展示?
图 1 常规展示中美 GDP
这是一张预测中美 GPD 走势的图示。看此图,我想,美国人也没有什么太被刺激的感觉,因为看看两条线,未来即使有高低之别,但差别也没有那么吓人,况且,预测还可能不准确呢。
再对比图 2。
图 2 可视化表示中美 GDP
虽然这张图中也包含了数字,但是,它同时配置了表示数字的图示,并且都很形象,人的视觉无形中就被图示所吸引了。把数字本来的抽象意义,用直观方式表达出来,更刺激人的大脑。
这是个普通的数据可视化案例。今天我们想跟大家分享的是数据科学领域的数据可视化。分享的过程中,我们会明白,数据可视化已经成为数据时代程序员的必备技能。
下图是综合了一些书籍所述和个人工作经验而来的。
图 3 数据工程流程
图的优势是能够把很多信息集中显示在眼前,给人以直观视觉化的体验,这也是“可视化”的优势。
这是“数据工程”的开始,从业者——数据工程师,必须对相应的业务有所了解,这也是数据工程师特有的市场价值之一。
理解商业问题,并非是成为业务高手,而是要能够从业务中梳理出与数据工程项目有关的环节,特别是将业务中某些问题转化为数据问题。
若要从数据层面解决上述问题,就必须把有关数据的问题提炼出来,用准确的语言表述,然后考查业务是否能够支持这些问题。
数据收集和前述理解商业问题,两者之间是一个互动关系。研究收集数据的方法,也是对商业问题的再度理解。
此外,数据收集还包含着从某个数据集中获得数据的含义。这里所说的数据集,包括但不限于:
假设已经通过某种合法的方式“不作恶”的途径得到了某些数据,接下来要做的是了解这些数据,主要通过以下两种方式:
有了“训练好”的数据之后,根据商业问题的目标,可以从事两个方面的具体工作。
(1)数据分析
应用各种数据分析的方法,最终得到一份分析报告。分析结果,除了用数字表达之外,可视化是不可避免的(又见“数据可视化”)。
(2)机器学习
机器学习是另外一个专门领域,目前正火热。通过机器学习算法,实现对数据的分类、预测和聚类等操作,在这个过程中,也难免要用“数据可视化”表达某种结论。
不论是机器学习,还是数据分析,其结果都要进行评估。
对于机器学习而言,有专门的模型评估方式。根据评估结果,确定是否采用机器学习所获得的模型,亦或数据分析的报告是否被采纳。
以上是数据工程项目的基本流程,从中可知,“数据可视化”并不是流程中的一个独立环节,它是几个环节中必不可少的实现手段。