首页
学习
活动
专区
工具
TVP
发布

数据小魔方

专栏作者
471
文章
1039018
阅读量
142
订阅数
R-wordcloud: 词云图
好几位读者来信说,《R语言数据可视化之美》(增强版)的词云图的代码有问题,我今天更新了一轮,这主要原因在R语言及其包的更新,导致源代码有可能运行错误。R语言的优势在于其开源,有世界的专家学者一起开发新的包,以及其R语言本身不断更新迭代增强;这也是它的问题,因为很多时候不同包由于版本问题,会导致老版本的程序运行有误。
数据小磨坊
2020-09-10
2K0
用编程赋能工作系列——高德地图开发
作为菜鸟分析师一枚,日常工作中需要处理大量地理位置相关(如城市、辖区、街道、商场、楼宇等)数据。分析报告中总是用吐了的柱形图、条形图,不仅自己看着辣眼睛,老板也审美疲劳。
数据小磨坊
2020-02-25
1.2K0
用编程赋能工作系列——解锁合并单元格问题
能把学习的编程技能用在实际工作中,提升效率、解决痛点、释放生产力,个人觉得是学习编程技能ROI最高的回报,而非都要挤破头成为数据科学家、算法工程师,毕竟这些职业的门槛一直都在,但让工作更轻松却是任何一个职业都有的真实诉求。
数据小磨坊
2020-02-25
6880
一个R语言中操纵矢量空间数据的标准化工具—sf
摘要 Simple features是一种在计算机中编码矢量空间数据(点、线、面等)的标准化方法。sf包在R语言中引入了simple features对象,它基本具备和sp、rgeos、rgdal一样的矢量空间数据处理能力。本文主要描述此包的基本功能,其在R语言诸多扩展生态系统中的地位,以及在连接R语言与其他空间计算系统中的潜在价值。
数据小磨坊
2019-09-17
4K0
Python可视化笔记之folium交互地图
leftlet给R语言提供了很好用的交互式动态地图接口,其在Python中得API接口包名为folium(不知道包作者为何这样起名字,和leaflet已经扯不上关系了),可以满足我们平时常用的热力图、填充地图、路径图、散点标记等高频可视化场景。
数据小磨坊
2018-07-25
2.8K0
使用Python中的folium包创建热力密度图
最近探索出来一个在Python中创建热力图非常高效的方法,使用folium包来创建热力图,实际效果非常赞,过程简单,代码量少。
数据小磨坊
2018-07-25
4.7K0
空间数据可视化与simple future模型应用
这是一篇关于关于空间地理信息数据可视化与simple feature 模型应用的笔记小结。
数据小磨坊
2018-07-25
1.2K0
R语言数据分析笔记——Cohort 存留分析
相信经常做数据分析的同学都听说过Cohort 分析,特别是互联网运营中,用于分析客户存留等场景,以往这种分析大都借助SQL+Excel完成。
数据小磨坊
2018-07-25
1.3K0
左手用R右手Python系列之——字符串格式化进阶
关于R语言字符串格式化之前无论是专题还是案例教程中均有所涉及,今日这一篇之所以重提是因为又找到了一个很好用的字符串格式化包。 这个包的语法源于Python风格,这样可以让那些从Python迁移过来的R语言学习者无需额外的记忆负担,即可平稳掌握R语言中的字符串格式化语法。 提到字符串格式化语法,我们一定能想到paste/pasteo函数,或者str_c函数,这两个函数的用法差不多,都是通过字符串与变量之间的拼接完成字符串格式化任务,但是问题是R语言中的字符处理并不想Python中那么灵活(仅靠“+”即可拼接字
数据小磨坊
2018-04-12
1.1K0
R语言多任务处理与并行运算包——foreach
相信大部分R语言初学者,在刚开始入门之处,都曾被告诫在处理多重复任务时,尽量不要使用显式的for循环,而要尽可能的使用R语言内置的apply组函数,这样可以极大地提高代码运行效率。 但是实际上除了内的apply组函数之外,你还有另外一个更好地选择,就是利用一些支持并行运算的扩展包,来发挥本地计算机的多和计算优势。 本篇要讲解的包是foreach包,这是一个支持在R语言中调用多进程功能的第三方包,之前在对比显式循环、矢量化函数以及多进程在数据抓取的效率一文中,曾经演示过具体的代码。 library("fore
数据小磨坊
2018-04-12
2.7K0
R语言学习笔记之——多进程与并行处理包parallel
上一篇中,主要介绍了使用foreach包来在R语言环境中实现任务的并行处理,其实在R语言中还有另外一个多进程包同样可以完成多进程任务,那就是parallel包,其语法与R语言内置的apply组函数以及plyr包内的_pply组函数一致。 library("parallel") detectCores() #计算计算机核心数: detectCores(logical=F) #获取实际物理核心数 以下可以通过这两个包来对比一下,同样的代码环境下,两者之间的性能如何。 library("h
数据小磨坊
2018-04-12
1.7K0
R语言学习笔记——R语言面向对象编程系列2
最近在看任坤大神的新作——《R语言编程指南》,其中对于编程语言中非常流行的面向对象编程范式(OOP)在R语言中的实现进行了非常详尽的讲解,强烈推荐各位有志于进阶R语言编程的小伙伴儿进行阅读。 R语言内目前可以实现OOP范式的一共有四套标准:S3、S4、RC、R6,其中关于S3、S4两种范式在早期的各种扩展包中使用比较多,是基于泛型函数而实现的,之前在学习Python的面向对象编程系列时曾经做过粗浅的练习: 左手用R右手Python系列——面向对象编程基础 S3与S4之间的差异: 1.在定义S3类的时候,没
数据小磨坊
2018-04-12
1.8K0
R语言学习笔记之——数据处理神器data.table
数据处理在数据分析流程中的地位相信大家都有目共睹,也是每一个数据从业者面临的最为繁重的工作任务。 在实际应用场景下,虽然SQL(SQL类专业的etl语言)是数据处理的首选明星语言,性能佳、效率高、容易培养数据思维,但是SQL没法处理构建全流程的数据任务,之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在
数据小磨坊
2018-04-12
3.6K0
MySQL基础入门——MySQL与R语言、Python交互
MySQL作为z最为流行的关系型数据库管理平台之一,与绝大多数数据分析工具或者编程语言都有接口,今天这一篇分享如何将MySQL与R语言、Python进行连接。 R语言中与SQL管理平台通讯的接口包有很多,可以根据自己使用的数据库平台类型以及习惯,挑选合适的接口包。因为我个人笔记本使用的MySQL平台,所以本篇仅以MySQL为例分享。(如果你需要其他平台的接口导入方案,可以直接在csdn博客上搜关键字,有很多博客资料可以参考)。 我习惯使用的接口包是RMySQL,里面的核心函数主要涉及数据库连接,数据读写,
数据小磨坊
2018-04-12
1.3K0
左手用R右手Python系列——使用多进程进行任务处理
数据抓取中的密集任务处理,往往会涉及到性能瓶颈,这时候如果能有多进程的工具来进行支持,那么往往效率会提升很多。 今天这一篇分享在R语言、Python中使用调用多进程功能进行二进制文件下载。 导入待下载的文件: library("dplyr") mydata<-read.csv("D:/Python/File/toutiaoreport.csv",stringsAsFactors = FALSE,check.names = FALSE) 抽取报告的url和报告名称: mydata1<-mydata[1:10
数据小磨坊
2018-04-12
1K0
左手用R右手Python系列——多进程/线程数据抓取与网页请求
这一篇涉及到如何在网页请求环节使用多进程任务处理功能,因为网页请求涉及到两个重要问题:一是多进程的并发操作会面临更大的反爬风险,所以面临更严峻的反爬风险,二是抓取网页数据需要获取返回值,而且这些返回值需要汇集成一个关系表(数据框)(区别于上一篇中的二进制文件下载,文件下载仅仅执行语句块命令即可,无需收集返回值)。 R语言使用RCurl+XML,Python使用urllib+lxml。 library("RCurl") library("XML") library("magrittr") 方案1——自建显式循
数据小磨坊
2018-04-12
8530
左手用R右手Python系列——面向对象编程基础
面向对象编程是程序设计中一种重要且高效的编程规范,它区别于常见的面向过程编程。在R语言以及Python的程序包开发过程中,大量使用了面向对象的编程范式。 百度百科关于面向对象编程的权威解释是: 面向对象程序设计(英语:Object-oriented programming,缩写:OOP)是一种程序设计范型,同时也是一种程序开发的方法。其最重要的三大特征是封装、继承、多态。 对象指的是类的实例。它将对象作为程序的基本单元,将程序和数据封装其中,以提高软件的重用性、灵活性和扩展性。 R语言中的面向对象编程是通
数据小磨坊
2018-04-12
1.2K0
R语言抓包实战——知乎live二级页面获取
之前曾经写过一篇关于知乎live课程信息爬取的短文,那个直接遍历的知乎live主页上展示的部分课程,仅仅是很小的一部分。 今日这一篇将是该小项目的升级版,直接对live主页的课程按照模块进行二级页面的遍历,这样可以抓取更加丰富的课程信息,本次一共获取课程数目将近800+ 对于课程页抓包分析详情,这里不再赘述,想要了解的可以看这一篇旧文,本篇内容仅对二级页面的遍历思路进行整理。 R语言爬虫实战——知乎live课程数据爬取实战 因为课程数相对较多,这里使用cookie直接登录,需要获取cookie值。 lib
数据小磨坊
2018-04-12
1.2K0
左手用R右手Python系列——百度地图API调用与地址解析/逆解析
地理位置信息的解析与逆解析可能是我们在分析地理位置数据时所面临的最棘手的问题了,好在现在很多主流的在线 地图厂商地给开发者提供了免费的API接口调用。 这一篇以百度地图API为例,演示如何在R语言以及Python中通过调用API实现地理位置的解析与逆解析,即将地址转换为具体经纬度,将经纬度转换为具体的地址。 免费API调用需要开发者自己在百度地图开放平台上注册APPkey,每日限调6000次,因为是免费的,所有人都可以申请注册,注册地址如下。 http://lbsyun.baidu.com/apiconso
数据小磨坊
2018-04-12
1.7K0
这个包绝对值得你用心体验一次!
这一段时间在研究R里面的数据抓取相关包,时不时的能发掘出一些惊喜。 比如今天,我找到了一个自带请求器的解析包,而且还是嵌入的pantomjs无头浏览器,这样就不用你再傻乎乎的再去装个selenium驱
数据小磨坊
2018-04-12
2.1K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档