研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源

作者 | Ryan Mccready

编译团队 | 冯琛,吴蕾,蒋晔

一幅不错的数据可视化图形应具备哪些因素?每当我写关于数据的文章(链接:https://venngage.com/blog/hashtags-are-worthless/)时都会扪心自问。

十一月初的一场Priceonomics数据专家们的讨论,让我学到了不少东西。会后我研究了成百上千个Priceonomics图形和图表,从对信贷诈骗犯的可视化、到美国瑜伽之都的可视化文章。进行深度挖掘后,我找到了12条它们的数据可视化方式优于其它的原因。

我知道,我不能私自占有所有的信息,所以我将有效数据可视化的准则进行分解,如下所示。

1. 不要堆砌过多的图表

当撰写以数据为话题的文章时,你的工作应该是利用可视化帮助读者理解你的观点。但是以大量数据开篇的文章,往往很难决定将哪些最重要的数据变成可视化图形。很多人(也包括我)会使用过多的图形(链接:https://venngage.com/beam/)。

不要让读者淹没在各种可视化效果中。

既不需要可视化所有数据来叙述一个引人入胜的故事,也不需要从你的数据中获取每一个观点。

在撰写数据文章时,“简单”和“专注”应该作为撰写原则。当我读Priceonomics时,这是我注意到的第一件事:他们不仅让可视化图形简单,并且可以保证读者可以容易地跟着整篇文章的思路。即使粗读文章,他们也能够挖掘一些有趣的事实和图表。

Priceonomics控制它们的可视化图形数量,并且只可视化那些可以加入故事的数据点。事实上,Priceonomics每篇文章只应用了三个图形或图表,在前25名最受欢迎的文章中,有20篇文章包含3个及以下的可视化图形。

并且,最受欢迎的文章总共拥有1到4个图表、表格或者图形。在四个可视化图形之后,平均阅读量急剧下滑,直至最底端。

例如,“被禁播的最受欢迎的电视节目排名”(链接:https://priceonomics.com/ranking-the-most-beloved-tv-shows-that-got/)文章中只包含三个可视化图形,它获得了330000的阅读量。在每个可视化图形中,它们简单并且只包含可以为文章增加亮点的内容。

在这个例子中,可视化图形显示:“萤火虫”节目风靡一时,它不应该被禁播。当这三个图表相互结合,它们组成了一个没有过多信息的连贯故事。

并且,这些文章中有一大批只有一个可视化图形。这展示了Priceonomics团队很好地抓住了数据可视化图像的故事主线。

浏览数据也就是模板。

(链接:https://infograph.venngage.com/templates?utm_source=blog&utm_campaign=priceonomics_viz&utm_medium=cta&utm_term=dataviz&utm_content=templates)

2. 可视化处理应当简洁明了

但在这里“简洁”到底意味着什么呢?

在看完成百上千个Priceonomics图形和图表后,我发现最成功的可视化图形往往能在几秒钟内传递所要表达的思想。这些信息会融入在图像和图表中,为整个故事增砖添瓦。

这意味着当你绘制自己的图表和图形时,需要仔细考虑应该或不应该包含哪些内容在其中。这些决定最容易受到文字内容的影响。

例如,在这个关于TIDAL如何陨落的图表(链接:https://priceonomics.com/kanye-wests-tidal-flop/)中,他们用简单的线形图展示了TIDAL几乎没有在市场中取得份额。

这是一个非常简单的数据可视化,但是它能使人在很短的时间获取信息。那应该是所有的可视化的目标。

或者,从这个简单但是有说服力的例子中得到启发——特朗普参加竞选后,其酒店预定量有所下滑(链接:https://priceonomics.com/bookings-at-trump-hotels-plummet/)。

和我们一样,Priceonomicas作者囊括了所有数据信息,但是他们决定只专注于两点。这让读者更容易地吸收文章要表达的信息。

3. 图片可作为帖子缩略图

Priceonomics的人们经常这么做,并且我认为这是一个非常好的思路。这是一件很简单的事情,而且它能够吸引对数据可视化好奇的读者。

下图是美国难民分布(链接:https://priceonomics.com/the-united-state-of-refugees/)的数据可视化。

这篇文章阐述了内布拉斯加州是美国难民的中心,但它还展示了一些州并不像我们认为的那样有很多难民定居,比如德克萨斯州和纽约州。他们实际上更喜欢在中西部的州定居,并且诸如这种有趣的事实会获得更多的分享和观看。而且这些信息全部只来自于一幅帖子缩略图。

将图表作为帖子缩略图,使这篇文章更容易在社交媒体中传播。根据HubSpot(链接:https://blog.hubspot.com/marketing/visual-content-marketing-strategy#sm.000093d60k15ctcu3wqrblv4bvj3w)数据显示,带有图像的推文比不带图像的推文转发率高150%,并且这在图表和图形等有意思的可视化中尤为明显。

这也同样适用于以地图作为特定图像的文章,因为大家都喜欢看自己所在州或者城市的排名。他们极有可能分享给同一地区的朋友!

4. 图表标题双保险

有些人会认为图像或者图表除了一个简单的标题和说明不应该有任何文字。但是如果你看看目前为止我所展示的图形示例,Priceonomics并不是这样的。

事实上,Priceonomics的大部分可视化图形都用到标题和副标题。这可以更清晰地解释图表。

例如,下图来自于一篇关于世界各国身高的文章(链接:https://priceonomics.com/where-are-the-tallest-people-in-the-world/),他们运用副标题交代了背景信息。

副标题清晰地阐述了只有超过5英尺2英寸的人计入图表中,而不是仅仅假设1900年时所有国家的人初始身高都是5英尺2英寸。因此,他们通过副标题清晰准确地描述了数据集,而非让读者误读信息。

如果你要表述全部数据集中有趣的样本时,我建议添加多层标题。例如,在一篇关于每所学校进入NBA的篮球运动员的文章中,你可以运用副标题在可视化图形中明确,数据仅限于在大学满一年的学生。篮球迷都知道,通常优秀篮球运动员都是在一年之后逐渐变得专业起来,这是一个很有意思的数据。

现在,看一下下列图表中展示的最具素食者亲和力的城市(链接:https://priceonomics.com/ranking-the-most-and-least-vegetarian-friendly/)。

运用副标题的另一个原因,是人们能够不依赖背景信息理解图形。适当添加标签,每个可视化图形就不需要解释或者介绍了。明确地理解这个图表的表达内容,这使它在社交媒体中更容易被分享。

为什么我们不能运用文字去帮助读者理解我们在可视化图形中试图阐述的呢?它并不像数据点和文字那样,不能共存在同一图表上。

5. 囊括文章中的所有数据

研究期间,我注意到Priceonomics的作者在图表或图形中排列数据的时候,做了一件十分有意思的事情。他们用所有的数据得出最终结论,而不是只用最上面或者最底端的数据块。

这增加了每篇文章的说服力,意味着增加了希望分享它的人数,因为他们在数据中发现了某些自己认同的东西,那可以是他们的大学,他们的车或者他们居住的城市。

无论它是什么,你能囊括的数据越有意思,就会越好。并且,它能在宣传阶段即刻增多记者或者媒体曝光的数量。

以下举例是美国汽车在81个城市驾驶的文章(链接:https://priceonomics.com/you-are-what-you-drive-the-most-popular-cars-in/),这会比只给出前十名使人们更有分享的冲动和热情。

或者这篇关于多样性排名前100名的大学的文章(链接:https://priceonomics.com/ranking-the-most-and-least-diverse-colleges-in/),它用了大量的条形图表达观点。这也是我在会议中见到的改变了我整个数据可视化研究方法的图形。

它不仅增加了列表中大学的曝光率,而且让人们产生了寻找自己大学是否在表中的欲望。

囊括所有数据可能听起来有些夸张,但它描绘了一幅完整的画面。在这个研究中,人们可以了解到顶级大学较其它大学的优势所在。

开始创作一个完美的可视化图像吧!

6. 慎用地图

有时,最好的地图就是没有地图。

我猜想,许多人会自然而然地运用地图去可视化他们的位置数据。我以为,除非你的数据包含大量位置信息,比如说从美国50个州收集而来,那么使用地图是有意义的。

但真的如此吗?

在我看完整整上百篇文章后,我能给出的答案是…或许真是如此。比如那篇介绍难民分布的文章,用地图体现数据就非常清晰,但是其他情况下如鼠疫的案例,则应竭力避免。

用地图的好处在于能令读者轻松捕获作者的观点,如果达不到这样的效果,则不妨使用图片或者表格的形式来表达。

例如,在那篇讲述难民重新安置的文章中,Priceonomics想要从地理位置上突出内华达是主要的难民安置州。与此同时,也表达了预测到这点的人并不多。

这些数据的值相差比较大,能够被划分为不同的区间,再经组合就能够用不同的颜色加以区分,使之一目了然。

但是当数据相近,这种方式就不容易区分了。例如下面这组数据,显示的是美国不同州的瑜伽指数(链接:https://priceonomics.com/where-is-yoga-most-popular-in-the-united-states/)。由于数字非常接近,因此很难用地图对数据进行可视化显示。

在这篇文章中也运用了一张地图,却不如数据表格来得清楚,并且能够把每个州的很多有价值的信息囊括其中。老实说,在地图上我唯一能读出的信息就是“蒙大拿州热爱瑜伽!”。

最后看一下这个例子,讲的是哪些国家有最好的程序员(链接:https://priceonomics.com/which-country-would-win-in-the-programming/)。Priceonomics作者仅使用了简单数据表来进行说明,而不是用地图。

这个图表列出了前50个国家,如果用地图表示就很不好看。如果你决定使用地理方法,那需要一张大地图,如果只选取50个国家,填色都很困难。并且,它很难用颜色来进行有效的可视化区分和表达,因为有一些值的差距只有0.01%。

7. 图表应突出重点

如我一再强调,可视化是为了让数据更为一目了然。众所周知,Priceonomics团队在这方面做得很出色。我认为,他们对细节的处理特别讲究,所以他们做出来的可视化效果就更优秀。

有一点值得注意,他们会直接在可视化图片中注明,什么是读者需要关注的。

下图是从一篇关于美国监禁率的文章中摘出来的,这里就有直接的标注,指出了监禁率(链接:https://priceonomics.com/is-mass-incarceration-in-america-actually-on-the/)增加的25个州和降低的25个州的数据变化情况。

如果没有这两个提示,读者很可能在那里盯着图片数数,找里面到底有几个州,又或者是和我一样,根本无法理解作者用意。

下面再看个图,调查显示了A/B测试的有效性。

如果你是营销人员,就会了解A/B测试是用来比较两个不同版本网页的表现好坏的。

这个图就非常有用,直接指出了改版前后的网页浏览次数增加比例。作者特别提醒了读者,从这个图中应该获得哪些信息。

一般我们看这个图,会很容易注意到两列数据的差异,明白右边列的比左边列好。不过,应该不会有人去特地计算一下好多少,所以在图中标识出来尤为重要。否则的话,读者就接着往下看,可视化的意义就减弱了。

此外,给关键数据加上标记也能使可视化数据具有独立性,不必依赖于文字描述。所以,做好这些方方面面,可视化数据就能被轻松理解,受到读者青睐。

8. 节省空间显示法:横向放置条形数据

不知道大家是不是和我一样,有过一些恼人的经历,比如说用条形数据图的时候,特别占地儿,又很难看。

Priceonomics团队的解决之道很简单,将数据条横向显示就可以了。

看一下这个横向显示图,是关于获得STEM(Science, Technology, Engineering, Mathematics)学位的女性比例(链接:https://priceonomics.com/where-do-women-study-stem/)。

可视化做成这样,就显得赏心悦目且通俗易懂,更重要的是,节省了屏幕空间,使页面看上去更简洁明了。

如果图片以纵向显示,那么屏幕上就会留有大片空白,必须用到浏览器的滚屏,很浪费屏幕空间。

另外一个不用纵向显示的原因是两个数据相差很大,一个数据只有另一个数据的一半,这也造成了整个图片比较占地方。

这里还有另外一个案例,作者用横向显示来表达哪个政党更倾向于太阳能的使用(链接:https://priceonomics.com/are-republicans-or-democrats-more-likely-to-go/)。

从中可以明显看到,由于两个政党的意见差别很大,所以横向显示就很合适。下面,你可以比较两种显示方法。

用纵向显示所占用的屏幕空间,是横向显示的两倍。现在你应该能够理解如何有效运用横向显示了吧。

9. 每个图片上都要包含数据标签和图例

千万不要省略这个重要的步骤,因为可视化图片很可能会被单独截取和分享。

Priceonomics作者都是做数据标签和图例的大师,我研究过,他们做出来的每个图片都能够被独立摘取应用,丝毫不依赖于文章的其他文字部分,能够被自由分享至Instagram, 或者被其他文章直接引用。

在下图关于旅行者的调查文案里(https://priceonomics.com/which-country-has-the-meanest-tourists/),他们对所有的数据都进行了标注。作者用了图例,为读者进行了数据计算,强调了文章所包含的最重要的信息。这张图完全能够单独贴在推特上,或者其他的博客里,无需任何多余的文字解释。

我们来详细研究一下这张图的优点吧。

首先,在图片的顶端有各种颜色标签说明。然后,每个维度的标签信息都非常明确,这点很容易被遗漏。特别之处在于作者还添加了“净欢乐(Net Happiness)”分数,这也解释了排名的依据。

这样的话,如果你在其他地方看到这张图,也能够轻而易举得理解其含义,无需任何其他文字说明。

所以,我建议每个可视化图片里面,都应该给出图例,都应该可以拿出来独立存在,把故事讲清楚。应该竭力避免只在文章的第一幅图中含有图例的问题。

虽然这只是小细节,但很重要,当其分享至Twitter或Facebook时,它能使你在成千上万个可视化作品中脱颖而出。

观察下面这个图,作者认真地添加了图例,尽管在文章前面的图中已经标示过了。

10. 在你的图表上,打上品牌标记

我想,你应该是希望自己的可视化作品能够在网上被转载分享的吧?那么,读者怎么才能知道这些作品出自于何人之手?当你的作品成了媒体网红,你如何证明自己是原创作者呢?

Priceonomics在把作品交付给客户前,会为之打上品牌标记,从而避免这类问题的产生。他们会为赞助品牌编制文案,帮助其他品牌打造精彩内容,而使用内部数据的时候是有品牌访问权限的。只有给这些可视化数据打上品牌标签后,才能公布在网上。

例如下面这个地图,显示了做一次伴娘在不同地区的开销(链接:https://priceonomics.com/how-much-does-it-cost-to-be-a-bridesmaid/),Weddington Way的品牌标记很突出。

这些可视化作品会在网上被大量转载,人们也会清楚地知道其数据来源。所以说,就这么一个小小水印,就能大大改善品牌知名度,何乐而不为呢!

同时,我还建议在图片的右下方加上一个小logo,如同下图的Priceonomics一样。此外,如果想增强品牌关联性,也可以在图片中添加Twitter网站之类的相关信息。

创造一个美丽的数据可视化图像

11. 用对比色来区分不同数据组

当一片文章引用的数据包含了不同层次和地点信息,有时候会令人误解的。例如,如果你要对一个主题在州级和市级这两个不同层面上进行比较,做可视化处理,那是很容易让人摸不着头脑的。

对于这个问题,Priceonomics利用不同颜色来区分两组不同数据。

比如下面的例子,Priceonomics利用不同颜色来区分城市和州。

这个处理看上去微不足道,但足以让人清晰理解数据的含义和全文的观点。如此精心的小细节,令人称道。

这篇文章用不同颜色来表示哪些城市人们容易受骗,以及诈骗者经常在哪里作案。这两个标题很相似,作者采用对比色进行处理,意图就很明确,不会混淆了。

12. 使用交替色表格

想象一下,当你把一张很大的Excel数据表缩小后呈现在整块显示屏上,要看清一行数据是有多么不容易啊。

所以,请用交替色表格吧,比如说白色和浅灰色隔行显示,那会使你的表格看起来清楚多了。

Priceonomics的所有图表都做到了。向上滚动屏幕,你可以看到上一节的四个例子的表格均是如此。

例如下图,显示了通勤路途所花销的时间和工作时间比例(链接:https://priceonomics.com/which-professions-have-the-longest-commutes/)。

这样的交替色表格看起来非常舒服,清楚地显示了24种不同职业的通勤路途花销时间。

下面这个表格,罗列了100个数据项,记录了哪些学校的STEM课程拥有最多的女性学生(链接:https://priceonomics.com/where-do-women-study-stem/),用交替色表格表达也不让人觉得数据眼花缭乱。

就算我尝试阅读所有的100个大学的内容,我真的也不会感到头痛。

想象一下,如果用单色表格会是什么样子?你会不会看晕掉?

你是如何可视化数据的呢?

以上都是数据专家组Priceonomics上做的可视化经典案例。下面是做好可视化数据的一些要点,让我们再回顾一下吧:

恰当地可视化数据:

1. 不要堆砌过多的图表

2. 可视化处理应当简洁明了

3. 图片可作为帖子缩略图

4. 图表标题双保险

5. 囊括文章中的所有数据

6. 慎用地图

7. 图表应突出重点

8. 节省空间显示法:横向放置条形数据

9. 每个图片上都要包含数据标签和图例

10. 在你的图表上,打上品牌标记

11. 用对比色来区分不同数据组

12. 使用交替色表格

如果你能做到这些,我保证你的可视化作品就能变得不同凡响。如果还不够,那我建议看看下面这些链接:

The Top 9 Infographic Template Types

(链接:https://venngage.com/blog/9-types-of-infographic-template/)

How did we Increase Revenue and Traffic by 400%?

(链接:https://venngage.com/blog/increase-revenue-infographics/)

7 Essential Rules to Create Infographics

(链接:https://venngage.com/blog/7-essential-rules-create-infographics/)

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-01-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玉树芝兰

如何快速梳理领域文献

给研究生上课的时候,有一次作业是让他们就某一个具体领域做文献分析。这个作业基本上就没有很完满而愉快地完成过。

17820
来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

13820
来自专栏机器学习人工学weekly

机器学习人工学2018/1/7

新年快乐! 注意下面很多链接需要科学上网,无奈国情如此 1. Berkeley AI Research blog上发了篇文章讲physical advers...

39890
来自专栏大数据文摘

如何把各类难题变得数据可解?Get与数据科学家聊天的正确姿势

10340
来自专栏新智元

AI摩尔定律继续超速?2028年,1美元能买200GFLOPS计算力!

【新智元导读】摩尔定律不断给人这种感觉:就是在此时此刻,我们正处于人工智能行业独一无二的大变革时期。然而,只要计算力的增长继续遵循指数级的价格-性能曲线,那么未...

11730
来自专栏PPV课数据科学社区

目前数据科学和机器学习中使用的最多的20个包

CRAN包库有6778个常用的包。哪些是你知道的?下面对此进行以下的分析,同时在文章底部另请参见原始数据链接。 这些R包都是Kagglers里的技术大牛最青睐的...

36650
来自专栏IT派

用Python对用户评论典型意见进行数据挖掘

用户体验的工作可以说是用户需求和用户认知的分析。而消费者的声音是其中很重要的一环,它包含了用户对产品的评论,不管是好的坏的,都将对我们产品的改进和迭代有帮助。另...

18630
来自专栏新智元

【我不再使用TensorFlow的5大原因】谷歌最受欢迎深度学习框架日渐式微?

【新智元导读】一篇叫做“TensorFlow Sucks”的文章火了。上线不到两年便成为Github最受欢迎深度学习项目,谷歌开源深度学习框架TensorFlo...

44170
来自专栏AI科技评论

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势

进行深度学习的训练向来不被认为是CPU的强项,但是以CPU研发见长的英特尔并不甘心屈服于这个定位,在过去的几年里,英特尔及其合作伙伴一直在探索用CPU来进行快速...

37140
来自专栏机器之心

前沿 | IBM全新AI芯片设计登上Nature:算力是GPU的100倍

用 GPU 运行神经网络的方法近年来已经为人工智能领域带来了惊人的发展,然而两者的组合其实并不完美。IBM 研究人员希望专门为神经网络设计一种新芯片,使前者运行...

14800

扫码关注云+社区

领取腾讯云代金券