【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原始数据集,面对这些原始数据集,如何揭示事情的真相,这就是我们需要思考和行动的事情。 统计能化繁为简,帮助您让一堆堆令人困惑的数据发挥作用。换而言之,掌握统计知识和思维,可以帮助我们理解好数据,从而发觉数据的价值,看到数据所要表现的真相。 当你发现数据的真相之后,接下来就需要借助可视化的方法来表现,使之公之于众。对于数据的真相,如何进行可视化,选择可视化哪种方式,需要我们思考和践行,并且还要考虑受众的感觉和希望给予受众什么。【研究用户非常重要,知彼知己百战不殆】 统计无处不在 统计无处不在,统计无处不有,这是一个统计的世界。擦亮我们的眼睛,带上统计的思维认识和改造这个世界。 网页浏览、运动竞技、游戏排名、消费指数、人均工资等等,这些都与统计有关联。但凡人们目光所及,处处皆有统计量。 何谓“统计”? 统计是这样一种思想,他们通过某种有意义的方式对原始事实和数字进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。简而言之,统计让我们认识数据背后的有价值的东西。 统计的研究包括:统计数据的来源,计算方法及有效使用方法并得出结论。 统计数据来源,也就是清楚数据从哪里来,切记:好数据有好结果,坏数据有坏结果。 计算方法,也就是要理解统计的计算方法和使用范畴,什么问题需要用什么样的计算方法,这是要解决的。 使用方法,知道统计计算方法是前提,接下来要知道更具问题域进行方法的使用。 得出结论,利用方法进行处理后,要能够对结果进行解读和表示。

为何学习统计学? 这是一个统计的世界,学习统计学有利于人们更好地认识和改造世界。 借助统计方法可以了解到事情的真相和数据的本质。 一旦得到可靠的统计量,就能做出客观的决策,比如精确地预测或者以最有效的方式传达自己想传达的思想和观点。 统计有这么多好处,但是,任何事物都具有两面性。统计既能够揭示真相,也能够误导真相。因而,我们需要辨别什么是真的,什么是假的,后者说什么是真实,什么是谎言? 好好地掌握统计学,正确地利用统计学,我们将会拥有更好的手段去判断统计量是否正确,从而避免遭人愚弄或是欺骗。 软件无法代替你的思考 制图软件可以为你节省大量的时间,生成有效的图表,但你仍然需要了解事情的来龙去脉。常用的制图软件包括Excel、R语言、Python语言等。 对于数据,能否选择合适的图表有效展示和传达信息,这需要好好思考。 软件能够将数据转换成图表,至于图表是否正确,需要你来判断和保证。 饼图 饼图是把数据划分为有着明显区别的几个组或者几个类。饼图为圆形,被分割为几个扇形块,每一块代表一个组(类)。扇形块的大小表示这类数据占总体的比例。扇形块越大,该组(类)的相对频繁程度越大,一个特定组中的对象数目称为频数。 饼图体现比例,并且对于有着明显区别的基本比例进行比较时,饼图有用。 条形图 对于各个类的大小大致相同的情况,条形图是理想的图形,你能更精确地指出那个类的频数最高,也更容易发现细小的差别。 条形图可以是垂直的,也可以是水平。 条形图中的每一个长方形代表一个特定的类,长方形的长度代表某种数值。长方形越长,数值越大。所以长方形的宽度相等。 堆砌条形图和分段条形图,当你想比较频数,可以使用堆砌条形图;当你要同时体现频数和百分数时,可以使用分段条形图。 直方图 直方图与条形图外观相似,两个重要区别,一,每个长方形的面积与频数成比例;二,图上的长方形之间没有间隔。 直方图是一种专门用于体现分组数据的图形,它看起来像条形图,但每条长方形的高度是频数密度,而不是频数。频数密度指的是分组数据中频数的密集程度。 累计频数图 累计频数图,表示累计频数的一种图表。累计频数,即到某个特定数值为止的总频数,即频数的累计总和。 折线图 折线图能很好地体现数据的趋势,你将每一批数据画成点,然后将这些点连接起来。可以方便地在同一张图上显示多批数据。 折线图常用于显示随时间变化的数值。 折线图用于展示数值型数据,不应用于展示类别数据。 重要的统计量 频数:表示在一个特定组,或者说在一个特定的区间内的统计对象的数目,类似于数数。 类别和数字:类别数据,也叫定性数据,数据被划分为各种类别,用以描述类的性质或特征。数值型数据,也叫定量数据,它所涉及的是数字,数值型数据中数值具有数字的意义,但还涉及计量或计数。 对于各种数据结果,如何进行数据可视化? 一方面取决于我们数据结果的特性,是类别数据结果,还是数值型结果; 另一方面取决于我们希望向用户传达什么信息,记住:向用户最直观地传达最重要和价值的信息。 数据可视化的画图,我们可以利用各种软件工具,比方说Excel软件、R语言和Python语言等,因而,熟练地掌握和应用这些软件工具,也是我们认识数据、理解数据和应用数据的必备技能之一。 思考题: 1 数据可视化,怎么理解? 2 常用的数据可视化软件工具有哪些?你会使用那些? 3 常用的数据可视化表示方式有哪些,各自有什么差异?请举例说明。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

20年前的吴恩达,藏在一个数据集里

今天这张照片火了。连正主吴恩达都在推特上转发了这张黑白照片。吴恩达回忆说,这张照片拍摄于大概20年前~

9540
来自专栏数据科学与人工智能

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原...

25170
来自专栏MixLab科技+设计实验室

让机器预测平面设计作品的视觉焦点

这是一篇论文的解读,原文标题: Learning Visual Importance for Graphic Designs and Data Visualiz...

36150
来自专栏新智元

神“乐”马良:AI直接将音频转换成动画

【新智元导读】根据音乐信号预测身体的运动是一个极具挑战性的计算问题。来自Facebook、斯坦福大学和华盛顿大学的研究人员开发了一种基于深度学习的方法,该方法可...

15600
来自专栏PPV课数据科学社区

【干货】近200篇机器学习&深度学习资料分享(上)

编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief Hist...

43460
来自专栏量子位

真实到可怕!英伟达MIT造出马良的神笔

拿到神笔的马良,可以画物品、画动物、画食物,而且,这些画作都可以一秒钟从画面上出来,变成真实世界中存在的东西。

9330
来自专栏机器之心

观点 | Geoffrey Hinton:放弃反向传播,我们的人工智能需要重头再来

选自Axios 机器之心编译 三十多年前,深度学习著名学者 Geoffrey Hinton 参与完成了论文《Experiments on Learning by...

326100
来自专栏AI科技大本营的专栏

一文教你如何用Python预测股票价格

翻译 | AI科技大本营(rgznai100) 参与 | 刘畅 编辑 | 周翔 【AI科技大本营导读】最近,A股尤其是上证指数走势凌厉,让营长有种身在牛市中的错...

75870
来自专栏数据魔术师

机器学习|刘博士谈机器学习--机器的“是非观”

我开始写这篇公众号的时候已经是凌晨,希望我的头脑还能在写作过程中保持足够的清醒。在前两篇清谈型的文章后(没看过的还是要看一下),今天我终于要进入到机器学习的正题...

13940
来自专栏数据科学与人工智能

【风控】催收评分和不良贷款市场的机会

本研究的目标是在一家专门从事不良贷款组合的巴西公司254,914名客户的样本中开发一个催收评分模型,使用Logistic回归来识别那些更倾向于偿还不良贷款的客户...

33950

扫码关注云+社区

领取腾讯云代金券