关于“数据可视化思考者”的8条军规

文:数据观

经常在网络上看到这样的问题:“从零开始学习数据可视化,需要怎么开始?”《Data at Work》一书的作者Jorge Camoes在一次演讲中,提出了“数据可视化思考者”这一概念,并分享了他的12个想法。我们从中选取了最具价值的8个,进行了编译。

1、有数无形少直观,有形无数难入微

1973年,统计学家F.J. Anscombe提出了四组奇妙的数据。它们x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。但是,经过可视化之后,人们发现这四组数据有着天壤之别。

第一组数据是最“正常”的;第二组数据所反映的是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。 “有数无形少直观,有形无数难入微”。这个日后被称为“安斯科比四重奏”的例子告诉我们,在分析中,数据可视化与统计指标缺一不可,相辅相成。

2、“七三原则”

“数据可视化”这一表达,很容易让人觉得这是一个把70%的时间与精力花在“可视化”上的过程。但实际上,如果你真的用了大部分时间来保障图表炫酷,那么最后的成果只有30%的可能性是好的。真正的“数据可视化”,我们会把70%的时间花在减少错误、构建数据、确保概念正确等工作上。

(在线ETL功能,可以帮助您更顺利地完成那70%的“幕后”工作。)

3、可视化是门“杂学”

如今,从内部机制(如人脑认知系统)到外部机制(如社交规则,企业文化,同辈压力,受众画像等),都在影响着我们的可视化沟通方式。因此,有追求的数据可视化思考者应当追求成为“杂学家“,而不是局限于对可视化技巧与技能的学习。

俄国新闻机构TASS重新演绎了著名的《拿破仑远征图》。左边是随着故事线不断自动演绎变化的地图,右边是故事+信息图。像一本可以动的“小说”一样,利用叙事、色彩、动画等多种技巧,在可读性方面,完美致敬并超越了经典原作。

FRANCES CAALBREZZI对泰坦尼克号悲剧的数据可视化作品。她认为有千百种方法可以对数据进行可视化,但最终选择了冲积图。除了这种图表可以表现分类数据之间的流量与相关性之外,如水波暗涌一般的可视化效果,也更能让人回想起那一夜海上的惊心动魄。

4、数据是诠释

从你开始收集数据,到你阅读其它人的图表,这一切都是在诠释。你可以尽情地“折磨”数据,以压榨出各种各样的解释与观点。一个好的图表,会把数据想要说的话,尽善尽美地表达出来。也就是说,一个好的数据可视化作品,会是一个优秀的数据预处理系统,可以让人脑专注于更高层次的目标。但是光有数据可视化还不够:你必须拥有相关的知识,以识破和解读隐藏在可视化作品中的模式。

(优秀的可视化作品,可以让人拥有“数据视觉”,一眼看穿数据背后隐藏的模式、问题或机遇。将复杂的数据解读过程,变成简单的“比大小”、“看长短”、“辨深浅”、“明趋势”。)

5、数据可视化是一个提问与回答的过程

请注意自己所提的问题。它们通常不仅透露你想要知道的内容,还透露你实际知道的内容。更好的问题意味着更佳的理解。将问题分门别类,与各种图表类型配对,是个非常有趣的过程。一个有50个切片的饼图并不一定是坏的:通常,可视化失败并不是因为数据点太多,而是因为作者本身不理解数据,或是不关心数据传达出的信息。

(选择什么图表背后,隐藏着一个重要的问题——你想展示什么?)

6、注意简化

删除不相关的内容,最小化辅助的内容,调整必要的内容,添加有用的内容。

7、妙用色彩

把色彩当作是数据可视化作品的促进因素,思考它们的强度,功能,还有背后的象征意义。对于非专业设计师来说,可以先考虑数据可视化整体,再考虑配色。但请使用专业设计的配色模版,而不是默认的色板。

8、超越单图

尝试结构化或图表矩阵,多使用“看板”或“信息图”等表现形式,用图表与文字对数据进行连贯的叙述。在进行探索性分析的时候,“焦点+上下文”的表现形式,往往比“单图+过滤”更好。

(可实现“焦点+上下文”形式的看板。copyright@数据观)

数据可视化思考者,以数据可视化为工具,对工作、对企业、对市场、对世界进行思考。 数据观,帮助您踏出成为数据可视化思考者的第一步。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

MIT突破:自我监督系统DON,机器人可在检查随机物体后理解它们并拾取

几十年来,装配线等受控环境中的机器人能够一次又一次地拾取同一物体。最近,计算机视觉的突破使机器人能够在物体之间进行基本区分。尽管如此,系统并没有真正理解物体的形...

772
来自专栏PPV课数据科学社区

【学习】Spss 聚类分析案例—某移动公司客户细分模型

聚类分析在各行各业应用十分常见,而顾客细分是其最常见的分析需求,顾客细分总是和聚类分析挂在一起。 顾客细分,关键问题是找出顾客的特征,一般可从顾客自然特征和消费...

6479
来自专栏AI科技评论

ACL2018 明日墨尔本召开:总体论文接收率 24.7%,两大特邀讲者名单公布

雷锋网 AI 科技评论按:ACL2018 将于 7 月 15 日-7 月 20 日在墨尔本召开,这也是 ACL 第二次登陆澳洲。从 2006 年 ACL 首次在...

652
来自专栏AI科技大本营的专栏

AI 每周必读:The Ones

1. One Paper Neural Models for Sequence Chunking 链接: https://arxiv.org/abs/170...

3175
来自专栏CreateAMind

AI Insight:放弃幻想,搞 AI 必须过数学关

从2012年“大数据”概念兴起到2016年人工智能大热,已经四五年时间了,该看的热闹看到了,该爆炒的话题炒够了,该沉淀的也沉下来了。现在越来越多的人已经放下质疑...

1293
来自专栏大数据文摘

DeepMind早就不再下围棋了,新论文训练AI进行逻辑推理

1303
来自专栏达观数据

干货分享 | 人工智能如何驱动未来教育发展?

ABOUT 1月13日下午,在沪江北京研发中心、沪江智能学习实验室和CCtalk在京举办的“智能引擎,驱动教育”技术沙龙中,达观数据创始人&CEO陈运文作为受邀...

3649
来自专栏华章科技

机器学习进阶路上的五个境界

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上...

973
来自专栏新智元

【十大顶级专家】全球人工智能技术趋势(诺奖得主、KK等)

2015 年发生了机器学习的大事件?这背后折射出什么技术趋势?Edge 从全球 198 个顶尖专家中梳理了科技和技术大事件,新智元从中选择了关于人工智能的部分。...

2944
来自专栏机器人网

五本必读的深度学习圣经书籍,入门 AI 从「深度学习」开始

(以下以 Daniel Jeffries 第一人称撰写) 多年来,由于实验室研究和现实应用效果之间的鸿沟,少有人持续研究人工智能,AI 在很多领域停滞不前。...

3786

扫码关注云+社区