首页
学习
活动
专区
工具
TVP
发布

菜鸟学数据分析之R语言

专栏作者
77
文章
138021
阅读量
23
订阅数
基础知识 | 踏实做事,不要偷懒,之前偷的懒,以后都是要补回来的
01 表格之间的处理 上一篇文章推出【R语言】基础知识 | 为了偷懒,我不择手段!,想了想,人还是踏实一点比较好,别老想着走捷径,不然有一天会摔的很惨,咱还?️ 把基础打扎实~ data1文件夹中
黑妹的小屋
2021-01-28
9500
【R语言】基础知识 | 为了偷懒,我不择手段!
听说上周领导下发了一个通知给10+公司,要求各公司按照下表要求填写表格反馈结果,意味着下周我要汇总10个表格,于是琢磨着怎么样才能偷懒又能按时交差,最重要的是还能有时间玩手机~
黑妹的小屋
2021-01-28
3600
【R语言】基础知识 | 两个表格之间的合并它更简单?
两个表格之间的合并 银行分布与期货公司合并前表格查看往期文章 【R语言】基础知识 | 别再只会用vlookup了,合并表格它更简单!! 1、full_join > 银行分布 %>% + full_join(期货公司, by = "地区") # A tibble: 8 x 3 地区 银行 期货 <chr> <chr> <chr> 1 鼓楼 中国农业银行 兴证期货 2 台江 中国银行 <NA>
黑妹的小屋
2021-01-28
2K0
【R语言】基础知识 | 别再只会用vlookup了,合并表格它更简单!!
面对left_join+right_join 不必恐慌 1、创建数据框1 银行分布= tibble (地区 = c("鼓楼","台江","晋安","马尾","闽侯"), 银行= c("中国农业银行","中国银行","中国建设银行","中国工商银行","中国邮政储蓄银行")) > 银行分布 #查看 # A tibble: 5 x 2 地区 银行 <chr> <chr> 1 鼓楼 中国农业银行 2 台江 中国银行 3 晋安
黑妹的小屋
2021-01-28
6750
【R语言】文本挖掘| 网页爬虫新闻内容
#用浏览器打开网页,右键单击-检查,查看网页源代码特点,可以知道每条新闻位于h2,a节点读取网页节点。
黑妹的小屋
2021-01-28
1.6K0
【R语言】利用高德地图批量处理银行网点地址获取经纬度和行政区
批量处理后的数据暂无缺失值,若存在个别缺失值很正常,通常是因为数据源地址结构不是省+市+区县+街道格式,若数据源地址结构无明显规律,建议url代码中添加“&city”,运行过程中有啥问题,请私聊我可改进代码~
黑妹的小屋
2021-01-28
1.4K0
文本挖掘| 某作者文章的词频统计排序
其实,现在的互联网数据大多数是非结构化的,比如谷歌,雅虎,搜狐等网站的文本数据已经泛滥成灾。文本挖掘有很多的用处,比如了解患者对罕见癌症的关注度,统计政府演讲报告词频高低,情感分析,作家常用词等等,接下来了解一下喜欢的作者列夫·托尔斯泰的代表作品中的常用词有哪些?
黑妹的小屋
2020-08-06
7820
基础知识 | R语言数据管理之SQL语句
SQL语句中的select可以对数据进行整合,在单表中可以选择列,过滤行,对变量排序,分组以及删除重复值。也能够对多表进行横向和纵向连接。
黑妹的小屋
2020-08-06
1.1K0
基础知识 | R语言数据管理之数据选择
在数据分析时,经常需要选择数据的子集进行统计分析或者检验部分观测值是否正确,R语言中,可以采用下标法、记号法$以及函数法选取数据框中的观测值。
黑妹的小屋
2020-08-06
1.6K0
高维数据 | R语言数据可视化之日历图
日历图,在环境与生态指标的动态监测中应用普遍,特别适用于显示不同时间段的指标情况。比如污染物中重金属含量、空气中PM2.5变化情况。在金融行业中检测股票收盘价、回测信号等指标中也很常见。生物医药领域的血糖或血压日记录值,新型冠状病毒的逐日确诊数量等等。通过时间分布的日历图动态监测数据,以弥补普通线图的不足。
黑妹的小屋
2020-08-06
1.8K0
高维数据 | R语言数据可视化之热力图
热力图,在生信研究中是最常见的数据表现手法之一。特别是展示各种基因或RNA在不同样本中的表达情况,了解其表达模式。热图其实是将有规则的矩阵转化成或者映射成颜色色调的一种可视化方法。在实际应用中,由高通量测序得到的几万个基因或者几千个样本的表达量数据通过分组或K均值聚类算法得到热图。
黑妹的小屋
2020-08-06
2.2K0
基础知识 | R语言数据处理之日期值的转换
可能,刚开始学习R的人都会觉得日期值的处理非常简单,却常常在数据的深度分析,特别是利用时间序列绘制循环静态图、日历图、旭日图、螺旋图或者动态GIF/VIDEO等时出现Bug,罪魁祸首往往是因为日期值与字符型变量的相互转换、日期值的算术运算以及函数使用错误导致的。
黑妹的小屋
2020-08-06
7.1K0
基础知识 | R语言数据分析之控制流
正常情况下,R 语言的程序语句是从上至下顺序执行的。控制流通常在希望重复执行某些语句,仅在满足特定条件的情况下执行另外的语句的时候发挥作用。包括循环语句,条件语句。
黑妹的小屋
2020-08-06
6150
高维数据 |R语言数据可视化之t-SNE
t-SNE算法是最近开发的一种降维的非线性算法,也是一种机器学习算法。与PCA一样是非常适合将高维度数据降低至二维或三维的一种方法,不同之处是PCA属于线性降维,不能解释复杂多项式之间的关系,而t-SNE是根据t分布随机领域的嵌入找到数据之间的结构特点。
黑妹的小屋
2020-08-06
3.5K0
高维数据 | R语言绘图基础之主成分分析
在视觉性方面,人类普遍能够感知的是二维和三维空间。对于高维数据的可视化是将高维数据投影到二维或三维空间,去掉冗余属性,同时保留高维空间的数据和特征。说白了,高维数据的可视化就是使用降维度方法,主要分成线性和非线性两大类,关于非线性的非度量多维尺度分析NMDS见往期文章非度量多维尺度分析(NMDS),关于线性的PCA方法,见往期文章PCA做图最佳搭档-ggbiplot,本文主要针对迷弥小粉丝关于绘制线性PCA图数据处理过程遇到的问题进行记录。
黑妹的小屋
2020-08-06
1.8K0
基础知识 | R语言绘图基础之柱形图
在视觉性吸引方面,人类绝对是动物界的另类。当一张一张数据分析的统计表摆在眼前时,人们并不能快速的洞察其中的关系。然而,当一张张精心绘制图形展现零散数据时,往往会让人兴致盎然,阔然开朗,并能够快速的从视觉角度呈现洞察关系,作出非常有意义的比较。
黑妹的小屋
2020-08-06
1.8K0
基础知识 | R语言绘图保存的pdf图片无法显示中文怎么办?
在用ggplot2绘图时,经常发现图片中的中文无法显示或者中文字体格式不对,这种情况下,展现的图片是残缺不全的,为了解决R语言图片保存时,无法显示中文的问题,现对showtext()和Cairo包进行简单的运用。
黑妹的小屋
2020-08-06
8.7K0
基础知识 | R语言高级数据管理之函数
在做任何数据分析的第一步,是根据个人需求创建数据集,存储数据的结构是多样的,包括向量,矩阵、数据框、因子以及列表等。其实,以上几个R语言的独特术语,在C++中也会经常用到,导致很多人都会误认为自己很熟悉了,然而在实际的应用中,却经常出现错误。最近在处理一波量大的数据,在运行程序的过程中,因为前期数据处理错误却出现各种bug,经过检查数据集发现是数据管理的问题,为了巩固R语言的基本数据管理,特地重新基础知识。
黑妹的小屋
2020-08-06
5850
基础知识 | R语言数据管理之数据集取子集
在做任何数据分析的第一步,是根据个人需求创建数据集,存储数据的结构是多样的,包括向量,矩阵、数据框、因子以及列表等。其实,以上几个R语言的独特术语,在C++中也会经常用到,导致很多人都会误认为自己很熟悉了,然而在实际的应用中,却经常出现错误。最近在处理一波量大的数据,在运行程序的过程中,因为前期数据处理错误却出现各种bug,经过检查数据集发现是数据管理的问题,为了巩固R语言的基本数据管理,特地重新基础知识。
黑妹的小屋
2020-08-06
2.4K0
基础知识 | R语言数据管理之缺失值
在做任何数据分析的第一步,是根据个人需求创建数据集,存储数据的结构是多样的,包括向量,矩阵、数据框、因子以及列表等。其实,以上几个R语言的独特术语,在C++中也会经常用到,导致很多人都会认为自己很熟悉的错觉,然而在实际的应用中,却经常出现错误。最近在处理一波量大的数据,在运行程序的过程中,因为前期数据处理错误却出现各种bug,经过检查数据集发现是数据管理的问题,为了巩固R语言的基本数据管理,特地重新基础知识。
黑妹的小屋
2020-08-06
5960
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档