首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据清洗实战——世界濒危遗产地数据爬取案例

List_of_World_Heritage_in_Danger" 经过自己尝试,作者书中的代码已经无法运行,这里我借助RCurl结合readHTMLTable函数完成了数据抓取,当然你也可以使用rvest会方便一些...以下函数除了sapply之外,我都在最近几篇的推送中有所涉及,特别是正则表达式本次数据清洗中起到了很大的作用,如果你对正则还不太熟悉,可以参考这篇文化文章。...%>% rename("Year"="Year (WHS)") heritage_Current$Year<-as.numeric(heritage_Current$Year) 因为两张表格内容格式一致...,所以只是修改了表名,其他的没有任何改动。...shiny动态仪表盘应用——中国世界自然文化遗产可视化案例 其他爬虫相关文章: R语言版: 用R语言抓取网页图片——从此高效存图告别手工时代 经历过绝望之后,选择去知乎爬了几张图~ 一言不合就爬虫系列之

2K60

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

一、日期分组 1、关于时间的包都有很多很好的日期分组应用。...介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式:R语言的cut()函数。...vDates <- as.Date(c("2013-06-01", "2013-07-08", "2013-09-01", "2013-09-15")) #as.Data()函数的作用非常重要;如果没有它,R语言会认为以上内容仅仅是数字串而非日期对象...其中 sapply 的用法和 lapply 的区别只参数上,如下: sp<-split(orders,orders[,c("SELLERID","CLIENT")],drop=TRUE) result1...进一步地,data.table某些情况下执行效率更高。(参考来源:R高效数据处理包dplyr和data.table,你选哪个?) ?

20.5K32
您找到你想要的搜索结果了吗?
是的
没有找到

R语言︱数据分组统计函数族——apply族用法与心得

笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句。...=list apply 都需要数据框格式,可以与list合用,返回仍是list list用法 sapply=simplify apply=unlist(lapply) 都需要数据框格式,可以与list合用...其中X为List对象(该list的每个元素都是一个向量), 其他类型的对象会被R通过函数as.list()自动转换为list类型。...函数sapply是函数lapply的一个特殊情形,对一些参数的值进行了一些限定,其使用格式为: sapply(X, FUN,..., simplify = TRUE, USE.NAMES = TRUE)...同时,lapply(x,fun),这个x的格式很重要,如果灌入的是list,使用的时候,其实是先把x[[1]],之后然后放入fun之中。也就是说,先拨开的list,然后再灌入。

3.4K30

R语言中的apply函数族

但是,由于R语言中apply函数与其他语言循环体的处理思路是完全不一样的,所以apply函数族一直是初学者玩不转的一类核心函数。...很多R语言新手,写了很多的for循环代码,也不愿意多花点时间把apply函数的使用方法了解清楚,最后把R代码写的跟C似得。...调用格式如下: apply(X, MARGIN, FUN, ...) X: 是一个数组(array),也就是说输入必须都是相同类型的数据,要么都是数值型,要么都是字符型。...,sapply增加了2个参数simplify和USE.NAMES,主要就是让输出看起来友好,返回值为向量,而不是list对象。...vapply函数 vapply类似于sapply,提供了FUN.VALUE参数,用来控制返回值的行名,这样可以让程序健壮。

4.4K52

社交网络分析的 R 基础:(四)循环与并行

while (condition) { # TODO } R 语言中还存在特殊的关键字 repeat, repeat 控制块内的语句将会无限的执行。...对一个矩阵的行求和使用 apply() 函数简单,但效率上不如 sapply()。...不使用向量运算的前提下计算向量的平方,使用 sapply() 函数可以这样: > v <- c(1, 2, 3) > sapply(v, function(item) { return(item ^... R 语言中并行计算有 snow 和 parallel 两个包可选,两个包功能上一样,这里使用 parallel,最直接的原因是 R 语言集成了这个包,无需额外安装。...进行复杂的并行任务时,需要将包或者变量传递至集群中: > clusterEvalQ(cl, { library(igraph) }) # 为集群引入包 > clusterExport(cl, c(

1.2K10

R语言中 apply 函数详解

作者 | PURVA HUILGOL 编译 | Flin 来源 | analyticsvidhya 概述 数据操作是机器学习生命周期中最关键的步骤之一 让我们学习最广泛使用的apply函数集来转换R中的数据...因此,Python和R中都有大量的函数和工具可以帮助我们完成这项任务,这一点也不奇怪。 今天,我们将使用R并学习R中转换数据时使用最广泛的一组“apply”函数。...我们现在要看一个复杂的列表: data <- list(l1 = c(1, 2, 3, 4), l2 = c(5, 6, 7, 8), l3 = c...尾注 到目前为止,我们学习了R中apply()函数族中的各种函数。这些函数集提供了一瞬间对数据应用各种操作的极其有效的方法。本文介绍了这些函数的基础知识,目的是让你了解这些函数是如何工作的。...我鼓励你复杂的数据集上尝试复杂的函数,以充分了解这些函数有多有用。

19.9K40

玩转数据处理120题|R语言版本

R解法 #转化后该列属性是 字符串,R中对时间格式要求严格 df$createTime % str_replace('2020-','') 26...R解法 df %>% ggplot(aes(`涨跌幅(%)`)) + geom_histogram() # 可以指定bins 60 数据可视化 题目:让直方图细致 难度:⭐⭐ 期望结果 ?...(cut(日期,"1 week")),"[") res_max <- sapply(res,function(n)max(n$`收盘价(元)`),simplify=TRUE) as.data.frame...(col3,col2,everything()) 94 数据提取 题目:提取第一列位置1,10,15的数字 难度:⭐⭐ R语言解法 df[c(1,10,15) + 1,1] 95 数据查找 题目:查找第一列的局部最大值位置...,如果能坚持走到这里的读者,我想你已经掌握了处理数据的常用操作,并且之后的数据分析中碰到相关问题,希望你能够从容的解决!

8.7K10

隐式循环及function函数

写在开头 最近在复习数据挖掘课程内容,hhh确实是兜兜转转从去年学到了今年 去年的课程笔记整理:#R语言数据挖掘 今年重新学习一遍,所以准备补充一些知识点,以及找几个GEO芯片数据实战分析一下。...隐式循环 单细胞分析中,我们读取多个单细胞数据集时通常会用到lapply()函数,循环读取多个数据集 比如在技能树最近如何整合多个单细胞数据集推文中,就多次用到了lapply()函数 dir='GSE152938...lapply是apply()函数的变种,主要用于处理列表/向量(列表/向量没有行和列的概念,所以会比对矩阵/数据框的操作简单一些),也适用于批量读取数据或者处理统计数据 基本语法为: lapply(...Vapply类似于sapply,但它有一个预先指定的返回值类型,因此使用它可能安全(有时更快)。...写函数的函数——function() 使用apply或者lapply函数时,都有FUN参数,就是我们执行循环时需要用的函数,这个函数可以是内置的比如mean或者sum等函数,也可以由我们自己构建 如果需要写对应需求的函数

10710

R」apply,lapply,sapply用法探索

本文节选自张丹的《R的极客理想》系列。 1. apply的家族函数 apply函数族是R语言中数据处理的一组核心函数,通过使用apply函数,我们可以实现对数据的循环、分组、过滤、类型控制等操作。...但是,由于R语言中apply函数与其他语言循环体的处理思路是完全不一样的,所以apply函数族一直是使用者玩不转一类核心函数。...很多R语言新手,写了很多的for循环代码,也不愿意多花点时间把apply函数的使用方法了解清楚,最后把R代码写的跟C似得,我严重鄙视只会写for的R程序员。...对于上面的需求,还有第三种实现方法,那就是完成利用了R的特性,通过向量化计算来完成的。...4. sapply函数 sapply函数是一个简化版的lapply,sapply增加了2个参数simplify和USE.NAMES,主要就是让输出看起来友好,返回值为向量,而不是list对象。

4.4K32

R语言中的循环函数(Grouping Function)

R语言中有几个常用的函数,可以按组对数据进行处理,apply, lapply, sapply, tapply, mapply,等。这几个函数功能有些类似,下面介绍下这几个函数的用法。...其格式是: Apply(数据,维度Index,运算函数,函数的参数) 对于Matrix来说,其维度值为2,第二个参数维度Index中,1表示按行运算,2表示按列运算。...Sapply Sapply函数和Lapply函数很类似,也是对List进行处理,只是返回结果上,Sapply会根据结果的数据类型和结构,重新构建一个合理的数据类型返回。...调用格式如下: Apply(数据,运算函数,函数的参数,simplify = TRUE, USE.NAMES = TRUE) 对于其中的simplify参数,就是指明是否对返回的结果集重新组织,如果为FALSE...还是上面的例子,只是把lapply换成sapplysapply(s,function(x){if(is.numeric(x)){mean(x)}else{length(x)}}) name

1.5K20

R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况

加载和预处理数据 现在我们需要检查缺失值,并使用sapply()函数查看每个变量有多少个唯一值,该函数将作为参数传递的函数应用于数据框的每一列。...sapply(function(x) sum(is.na(x))) ? sapply(function(x) length(unique(x))) ? 绘制数据集并突出缺失值。...拟合广义线性模型时,R可以通过拟合函数中设置一个参数来处理它们。 然而,我个人喜欢 "手动"替换缺失值。有不同的方法可以做到这一点,一个典型的方法是用平均数、中位数或现有数值来替换缺失的数值。...is.na(Embarked),\] 进行拟合之前,数据的清洗和格式化很重要。这个预处理步骤对于获得良好的模型拟合和更好的预测能力是非常重要的。 模型拟合 我们把数据分成两部分:训练集和测试集。...ROC是不同的阈值设置下,通过绘制真阳性率(TPR)与假阳性率(FPR)产生的曲线,而AUC是ROC曲线下的面积。根据经验,一个具有良好预测能力的模型的AUC应该比0.5接近于1(1是理想的)。

2.5K10

R不规则数据长变宽

交流群看到小伙伴提问:有一个数据,大概如下所示 : a a b a c a b c c c a 1 3 3 3 2 5 7 2 1 9 8 想要转换为如下格式: a b c 1 3 2 3 3 2 3...TPM_mtx_filter_asMtx[row.names(TPM_mtx_filter_asMtx)==i,]) } #将list转换为等长dataframe df_dataFrame<-as.data.frame(sapply...(df, "[", i = 1:max(sapply(df, length)))) #存为文件: write.csv(df_dataFrame,file = 'Lrrc4/time_all_split.csv...就可以得到如下所示的列表啦 : $a [1] "1" "3" "3" "5" "8" $b [1] "3" "7" $c [1] "2" "2" "1" "9" 但是提问的小伙伴把需求搞复杂了,生成了列表之后一定要变成数据框...R的特点就是内置了大量的函数,基本上你认识的英文单词都可以是一个函数,即使不是,你也可以自定义为函数。搞清楚了函数和变量,就可以看懂大部分的R代码了。

56230

R语言的数据结构(包含向量和向量化详细解释)

更多内容请参考《R语言编程艺术》 ——————————————— 向量类型是R语言的核心。深入理解向量对R中数据结构及其操作,函数的开发和应用有着重要意义。...标量只含有一个元素,R中没有0维度或标量类型。单独的数字或字符串本质是一元向量。...注意sapply是simplify apply的缩写,简化结果,但不是简单。它也可以用于列表操作,使得结果输出不再是列表,而是向量。类似本处结果的逆操作。最终目的是让结果看起来自然简洁。...4.2对矩阵的行和列调用函数 apply函数(矩阵的各行和格列上调用制定的函数) apply(m,dimcode,f,fargs) m为矩阵 dimcode为维度编号,1代表对每一行应用函数,2...lapply和sapply 因为数据框技术上就是列表,所以lapply和sapply可以应用于数据框。

7K20
领券