首页
学习
活动
专区
工具
TVP
发布

数据小魔方

专栏作者
471
文章
1031645
阅读量
142
订阅数
左手用R右手Python系列之——迭代器与迭代对象
接触过Python的小伙伴儿肯定都知道,Python中关于迭代器和可迭代对象运用的很广泛。迭代器可以以一种非常友好的方式使用在循环中,不仅节省内存,还能优化代码。 在R语言中,其实也有迭代的概念,但是需要借助第三方包的辅助。 今天要介绍的包是iterators和itertools,这两个包在最新开发的软件包工具中使用的非常频繁。迭代器作为一种特殊的容器,生成之后,只能按照顺序迭代完内部对象之后,便失效了,要想重新迭代就必须重新生成一个迭代器。 而我们在普通场景下构造的循环,一般都利用R语言内部的现有的数据结
数据小磨坊
2018-04-12
1.3K0
R语言数据清洗实战——高效list解析方案
list是R语言中包容性最强的数据对象,几乎可以容乃所有的其他数据类型。 但是包容性最强也也意味着他对于内部子对象的类型限制最少,甚至内部可以存在递归结构,这样给我们提取数据带来了很大的困难。 如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下,自建循环无论是性能还是代码量上都很不经济。 好在确实有开发者在针对list数据结构进行操作上的优化,任坤老师的大作——rlist就是一个强大的list解析神器,它可以让我们像
数据小磨坊
2018-04-11
2.4K0
R语言数据清洗实战——复杂数据结构与list解析
数据清洗从来都不是一件简单的事情! 使用httr包结合浏览器抓包工具进行网页数据抓取虽然非常方便,但是获取的数据后期处理工作量却非常庞大的。 因为大部分json数据包返回之后都会被转换为R语言中的非结构化数据类型——list。 也就是说,对于list数据结构的处理熟练程度,将会决定着你在数据清洗中所花费的时间与精力。 list数据结构本身即可简单也可复杂,当list中存在递归结构时,其处理难度就大大增加了。(不幸的是大部分json数据包都是递归结构的) 对于list数据结构的处理,你可以通过手动构造循环来处
数据小磨坊
2018-04-11
1.5K0
左手用R右手Python系列10——统计描述与列联分析
数据统计描述与列联表分析是数据分析人员需要掌握的基础核心技能,R语言与Python作为优秀的数据分析工具,在数值型数据的描述,类别型变量的交叉分析方面,提供了诸多备选方法。 这里根据我们平时对于数据结构的分类习惯,按照数值型和类别型变量分别给大家盘点一下R与Python中那些简单使用的分析函数。 R语言: 描述性统计:(针对数值型) library("ggplot2") myvars<-names(diamonds)[c(5,6,7)];myvars [1] "depth" "table" "price"
数据小磨坊
2018-04-11
3.4K0
左手用R右手Python系列5——数据切片与索引
今天这篇跟大家分享我的R VS Pyhton学习笔记系列5——数据索引与切片。 我之前分享过的所有学习笔记都不是从完全零基础开始的,因为没有包含任何的数据结构与变量类型等知识点。 因为一直觉得一门编程语言的对象解释,特别是数据结构与变量类型,作为语言的核心底层概念,看似简单,实则贯穿着整门语言的核心思想精髓,所以一直不敢随便乱讲,害怕误人子弟。还是建议每一个初学者(无论是R语言还是Python,都应该用一门权威的入门书好好学习其中最为基础的数据结构、变量类型以及基础语法函数)。 今天我要分享的内容涉及到R语
数据小磨坊
2018-04-11
2.8K0
Word天呀,气泡图居然还有这种操作~
在之前写实习僧爬虫可视化案例之时,曾经用过一个很类似气泡图的图表——气泡云图(superbubble)。 它的图表信息呈现与文字云非常相似,都是在控制一组元素的大小,文字云的大小是文字,气泡云图的大小是形状(气泡)。 虽然看起来,它与普通气泡图比起来非常相似,但是实质上数据信息含量已经大相径庭,气泡图实际上使用了三个指标变量,而气泡云图仅适用了两个(而且仅有大小变量是数值型的)。 实际上以上对比是为了启发大家一种认识图表的思路: 通常情况下,我们被各种课程或者书籍指导着,认识到的可视化无一例外的是从数据如何
数据小磨坊
2018-04-11
1.2K0
那些培训师都不曾告诉你的关于Excel图表的秘密~
之前在Excel图表合集那篇文章了曾提了几点Excel与其他可视化工具以及编程类软件在可视化理念方面的粗浅理解,有小伙伴儿在后台回复说还是没有听明白。 可能是我当时没有说清楚,今天这篇,我专注于Excel的作图规则,深入的研究下Excel由数据源到可视化图表之间的关系是如何对应的,倘若你已经在工作中横跨好几种可视化工具(包括Excel),那么本文可以更好地帮助你理解Excel与其他工具的区别。 倘若你还一直局限在Excel的圈子内,那也没关系,仔细体会这一篇内容,后续记得跟踪我针对其他可视化工具作图理念的
数据小磨坊
2018-04-11
1.8K0
竟然是一个升级版的数据透视表,Tableau真的没有那么神秘~
前一篇跟大家详述了关于Excel在作图理念上的诸多细节,今天让我们把聚焦于多分类维度的数据呈现问题。 当然今天这篇我会把视角从Excel切换到Tableau,没错就是Tableau。可能很多小伙伴儿已经了解过这款商务智能工具,这是一款目前市面上最成熟、最人性化的桌面端可视化工具(没有之一,至于PowerBI,我之后会写专门的体验贴来说明)。 ---- 相信很多小伙伴儿(特别是已经在职场已经混迹很多年的)对Excel中的数据透视表非常熟悉,没错Tableau就是一款升级版的数据透视表。 它不仅仅可以将原始的一
数据小磨坊
2018-04-11
4K0
左手用R右手Python系列——因子变量与分类重编码
今天这篇介绍数据类型中因子变量的运用在R语言和Python中的实现。 因子变量是数据结构中用于描述分类事物的一类重要变量。其在现实生活中对应着大量具有实际意义的分类事物。 比如年龄段、性别、职位、爱好,星座等。 之所以给其单独列出一个篇幅进行讲解,除了其在数据结构中的特殊地位之外,在数据可视化和数据分析与建模过程中,因子变量往往也承担中描述某一事物重要维度特征的作用,其意义非同寻常,无论是在数据处理过程中还是后期的分析与建模,都不容忽视。 通常意义上,按照其所描述的维度实际意义,因子变量一般又可细分为无序因
数据小磨坊
2018-04-11
2.5K0
Leaflet在线地图进阶宝典——json素材操纵与图层面板控制
这篇教程憋了很久,其实算是3个月前leaflet在线地图系列的进阶篇,但是因为当时对于leaflet地图的数据源结构理解有限,技能勉强操控shp数据源,对于json数据源所知甚少,一直拖了这么久才更新。 随着近期在json数据结构的理解不断加深,对于list结构和向量化运算的掌握也多有提高,这才能熟练的在leaflet系统中操控json数据。 本篇主要分为两大部分: 如何自如的操纵json数据来打造leaflet所能识别的数据源和style属性; 如何操控leaflet控制台版面中的地图图层和数据图层。 想
数据小磨坊
2018-04-11
2.7K0
一篇文章教你搞定JSON素材,从此告别SHP时代~
最近几天推送频率之所以下降了,不是因为偷懒,是在攻克一个难题~ 还记得前一篇推送,关于山东省财政数据可视化那一篇,因为没有精准、最新的山东省县级市边界地图素材数据,花了好多冤枉功夫,搜地图素材各种碰壁,最后的得到的地图数据并不尽如人意。 现在shp的素材相比json整体都不太流行了,无论是制作成本上还是占用内存上以及与实际行政区划的更新速度上,json地图素材轻便、时效、易获取,很多网站都提供这种轻量级的数据文件。 可是json文件遵循的JS语法,导入R中之后,全部被强制转化为各种嵌套的list、data.
数据小磨坊
2018-04-11
1.7K0
R语言数据处理——数据合并与追加
数据结构的塑造是数据可视化前重要的一环,虽说本公众号重心在于数据可视化,可是涉及到一些至关重要的数据整合技巧,还是有必要跟大家分享一下的。 在可视化前的数据处理技巧中,导入导出、长宽转换已经跟大家详细的介绍过了。 今天跟大大家分享数据集的合并与追加,并且这里根据所依赖函数的处理效率,给出诺干套解决方案。 数据合并操作涉及以下几个问题: 横向合并; 1. 是否需要匹配字段 1.1 匹配字段合并 1.1.1 主字段同名 1.1.2 主字段不同名 1.2 无需匹配字段合并 纵向合并:(情况比较简单,列
数据小磨坊
2018-04-11
4.6K0
图表案例——简约却不简单的图表制作技巧
我们通常看到的小而美的图表,一般都是经过图表制作者深层次加工过的成品。 而要想了解一个规范的商务图表制作过程,对图表的拆解与还原就显得非常重要。 今天的案例是关于三家电子消费业巨头:三星、苹果、华为的
数据小磨坊
2018-04-11
1.3K0
Xcelsius(水晶易表)系列17——动态地图应用
本节教程非常简单,一个美国地图同时作为数据呈现与选择器,控制统计图呈现各州的对应时间段的税收数额指标。 案例截图如下: 数据文件如下: 简要分析下数据结构:A1为整个图表的标题,黄色部分是地图的州名
数据小磨坊
2018-04-11
7790
think-cell chart系列18——复合图表与次坐标轴
今天跟大家分享的是think-cell chart系列的第18篇——复合图表与次坐标轴。 今天要跟大家讲解如何在think-cell chart中开启次坐标轴,让一个图表可以容乃多维序列。 以上图表中
数据小磨坊
2018-04-10
16.5K0
think-cell chart系列13——簇状堆积柱形图
今天跟大家分享的是think-cell chart系列13——簇状堆积柱形图。 关于柱形图这一部分,有很多图表的变形,用来展示多重信息,每一种都其特定的应用场景。 今天要跟大家讲的簇状堆积柱形图曾困扰过本宝宝好长时间,一直以为这个图表看起来,貌似是一气呵成,觉得肯定可以通过数据结构的特殊组织,在think-cell chart菜单中一次插入完后。 可是很遗憾,没有找到所谓的捷径,也看了think-cell chart的 casestudy文件,问过培训课的讲师,都没有答案。 所以只能使用笨办法:做三个堆积
数据小磨坊
2018-04-10
6.3K0
think-cell chart系列8——百分比堆积面积图
今天跟大家分享的是think-cell chart系列的第8篇——堆积面积图。 实在是没有找到合适的案例图,所以今天就一步一步自己做案例了。 作图表先要有数据,数据比较好准备,重要的是知道在thin
数据小磨坊
2018-04-10
1.7K0
think-cell chart系列5——堆积不等宽柱形图
今天要分享的是think-cell chart系列的第五篇——堆积不等宽柱形图。 其实要问我为什么对think-cell chart这么情有独钟,现在给出答案—— 那就是有些用excel要用巨大工作量
数据小磨坊
2018-04-10
1.9K0
交叉柱形图
今天继续跟大家分享一组交叉柱形图的制作技巧! 该图表是从一本图表书中看到的,可以在同一幅图表中以两种视角展示同一组年度数据指标,步骤相对比较复杂,甚至有点炫技之嫌,不过还是有实用价值的,特别是对于练习
数据小磨坊
2018-04-10
1.7K0
细分饼图
今天跟大家分享的是一种叫做细分饼图的图表制作技巧! 它所用到的技巧很简单,表达的数据也不很复杂,就是三层数据结构,每一层都是上一层的细分数据。 首先我们还是来看一下它所呈现的效果: 它的数据结构也如它
数据小磨坊
2018-04-10
2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档