关于“数据可视化思考者”的8条军规

文:数据观

经常在网络上看到这样的问题:“从零开始学习数据可视化,需要怎么开始?”《Data at Work》一书的作者Jorge Camoes在一次演讲中,提出了“数据可视化思考者”这一概念,并分享了他的12个想法。我们从中选取了最具价值的8个,进行了编译。

1、有数无形少直观,有形无数难入微

1973年,统计学家F.J. Anscombe提出了四组奇妙的数据。它们x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。但是,经过可视化之后,人们发现这四组数据有着天壤之别。

第一组数据是最“正常”的;第二组数据所反映的是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。 “有数无形少直观,有形无数难入微”。这个日后被称为“安斯科比四重奏”的例子告诉我们,在分析中,数据可视化与统计指标缺一不可,相辅相成。

2、“七三原则”

“数据可视化”这一表达,很容易让人觉得这是一个把70%的时间与精力花在“可视化”上的过程。但实际上,如果你真的用了大部分时间来保障图表炫酷,那么最后的成果只有30%的可能性是好的。真正的“数据可视化”,我们会把70%的时间花在减少错误、构建数据、确保概念正确等工作上。

(在线ETL功能,可以帮助您更顺利地完成那70%的“幕后”工作。)

3、可视化是门“杂学”

如今,从内部机制(如人脑认知系统)到外部机制(如社交规则,企业文化,同辈压力,受众画像等),都在影响着我们的可视化沟通方式。因此,有追求的数据可视化思考者应当追求成为“杂学家“,而不是局限于对可视化技巧与技能的学习。

俄国新闻机构TASS重新演绎了著名的《拿破仑远征图》。左边是随着故事线不断自动演绎变化的地图,右边是故事+信息图。像一本可以动的“小说”一样,利用叙事、色彩、动画等多种技巧,在可读性方面,完美致敬并超越了经典原作。

FRANCES CAALBREZZI对泰坦尼克号悲剧的数据可视化作品。她认为有千百种方法可以对数据进行可视化,但最终选择了冲积图。除了这种图表可以表现分类数据之间的流量与相关性之外,如水波暗涌一般的可视化效果,也更能让人回想起那一夜海上的惊心动魄。

4、数据是诠释

从你开始收集数据,到你阅读其它人的图表,这一切都是在诠释。你可以尽情地“折磨”数据,以压榨出各种各样的解释与观点。一个好的图表,会把数据想要说的话,尽善尽美地表达出来。也就是说,一个好的数据可视化作品,会是一个优秀的数据预处理系统,可以让人脑专注于更高层次的目标。但是光有数据可视化还不够:你必须拥有相关的知识,以识破和解读隐藏在可视化作品中的模式。

(优秀的可视化作品,可以让人拥有“数据视觉”,一眼看穿数据背后隐藏的模式、问题或机遇。将复杂的数据解读过程,变成简单的“比大小”、“看长短”、“辨深浅”、“明趋势”。)

5、数据可视化是一个提问与回答的过程

请注意自己所提的问题。它们通常不仅透露你想要知道的内容,还透露你实际知道的内容。更好的问题意味着更佳的理解。将问题分门别类,与各种图表类型配对,是个非常有趣的过程。一个有50个切片的饼图并不一定是坏的:通常,可视化失败并不是因为数据点太多,而是因为作者本身不理解数据,或是不关心数据传达出的信息。

(选择什么图表背后,隐藏着一个重要的问题——你想展示什么?)

6、注意简化

删除不相关的内容,最小化辅助的内容,调整必要的内容,添加有用的内容。

7、妙用色彩

把色彩当作是数据可视化作品的促进因素,思考它们的强度,功能,还有背后的象征意义。对于非专业设计师来说,可以先考虑数据可视化整体,再考虑配色。但请使用专业设计的配色模版,而不是默认的色板。

8、超越单图

尝试结构化或图表矩阵,多使用“看板”或“信息图”等表现形式,用图表与文字对数据进行连贯的叙述。在进行探索性分析的时候,“焦点+上下文”的表现形式,往往比“单图+过滤”更好。

(可实现“焦点+上下文”形式的看板。copyright@数据观)

数据可视化思考者,以数据可视化为工具,对工作、对企业、对市场、对世界进行思考。 数据观,帮助您踏出成为数据可视化思考者的第一步。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

为什么基于机器学习的产品很难见到?

作者:赵国栋,现任中关村大数据产业联盟秘书长,CCF大数据专委委员,北邮特聘导师,著有《大数据时代的历史机遇》一书。 大数据甚嚣尘上了三四年,如今创业不讲机器学...

3616
来自专栏AI科技评论

吴恩达亲自采访百度林元庆和谷歌 Ian Goodfellow,他们对AI入门者有何忠告?

AI 科技评论按:随着吴恩达公开 Deeplearning.ai 系列深度学习课程,他也出人意料地放出了一系列主题为“The Heros in Deep Lea...

2815
来自专栏新智元

【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子

【新智元导读】 不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人...

3395
来自专栏新智元

谷歌大脑工程师给2018学术顶会划重点:对抗性学习+强化学习

1263
来自专栏AI科技评论

吴恩达专访LeCun:即便在神经网络的寒冬,我也坚信它终会重回公众视野

时隔半年,终于等来了 Yann LeCun 回忆杀视频。 去年 8 月时,随着 deeplearning.ai 深度学习教学网站和系列课程的发布,吴恩达也在「t...

2645
来自专栏量子位

Google大脑科学家吐槽深度学习:瓶颈就是太不重视工程!

Google Brain团队成员Denny Britz在博客上发表了一篇文章,对深度学习研究界进行了一番吐槽,转到twitter后收获了数百转发,可见共鸣之广。...

1929
来自专栏人工智能头条

2000块GPU训练一个围棋AI,Facebook告诉你什么叫“真的壕”

1434
来自专栏机器之心

观点 | Yoav与LeCun深度学习之争后续:谷歌VP Fernando Pereira谈NLP研究「三幕剧」

选自EarningMyTurns 机器之心编译 参与:机器之心编辑部 近日,著名学者 Yoav Goldberg 发布的一篇批评蒙特利尔大学新论文《Advers...

1976
来自专栏机器之心

让人工智能发明自己的语言:OpenAI语言理解研究新方向

选自OpenAI 作者:Igor Mordatch 等 机器之心编译 参与:李泽南、蒋思源、微胖、黄小天 在本文中,OpenAI 展示了自己的新研究,让人工智能...

3167
来自专栏AI科技评论

学界 | 顶会见闻系列:ICLR 2018 和 ICLRA 2018

Alex Irpan 本科毕业于 UC 伯克利大学的计算机科学专业,在伯克利人工智能 AI 研究所(BAIR)做的本科毕业设计,导师为 Pieter Abbee...

843

扫码关注云+社区