《R for Data Science》: http://r4ds.had.co.nz/
我之前预告过的 R 语言新书,起名为《R语言编程—基于tidyverse》,本书的目的是为了在国内推广 R 语言和 R 语言最新技术。本书非常适合新手 R 语言入门,老手 R 知识汰旧换新。
tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法,包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats。出版有《R for Data Science》(中文版《R数据科学》),这本书详细介绍了tidyverse的使用方法。
因为一些网络素材引用不规范,我们的这个笔记被网络吞掉了一次。很多朋友在公众号后台催更,还好鲍志炜抽空抢救回来了,不负大家的等待。
汇总函数 summarise(),可以将数据框折叠成一行 ,多与group_by()结合使用
在对数据进行可视化之前我们往往需要进行数据转换以得到可视化所需要的数据内容与格式。这里我们使用dplyr包操作2013年纽约市的航班起飞数据集(2013)。
除了函数,减少重复代码的另一种工具是迭代,它的作用在于可以对多个输入执行同一种处理,比如对多个列或多个数据集进行同样的操作。
前几天去新疆培训,制作了R语言的基础教程,在翻阅资料时,看到了知乎张敬信关于R学习的观点,很是赞同。
Hadley (羞涩脸):“那总比别人叫他们 Hadley-verse好吧!” ╮(╯▽╰)╭
这里推荐几本线上的电子书,作者都在不断的更新,网页版的电子书,copy代码无障碍,无广告,很流畅。
本文的写作由来是知识星球一个朋友对如何在 tidyverse 系列包中使用公式函数(单侧公式)不太熟悉,所以通过本文分享一下我的心得。
https://hbctraining.github.io/Intro-to-R/lessons/04_introR-data-wrangling.html
很多人推荐《R语言实战》这本书来入门R,当然,这本书非常不错,我也是通过这本书开始接触的R。这种入门的学习路径属于base R first,学习的流程基本是先了解变量的类型、数据的结构,再深入点就会学到循环与自定义函数。有些类似于先认识编程,再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。
由于R语言生态系统内容繁复并在不断发展,人们往往容易忽视一些切实有用的知识。这些技巧往往非常简单,但对于完成工作有很大的帮助。
dplyr的函数由于使用tidy evaluation(R中的一种非标准执行(NSE)实现方式)的方法,可以使得其具有更好的易用性:变量不需要绝对引用和引号包裹。
最近工作需要绘制ROC曲线,对该曲线的计算细节进行了一番摸索。当前搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前使用逻辑回归(我的响应变量是0-1类型)对数据建模分析。实则不然,ROC曲线适用于任何判断0-1类型(真假、成功失败等二分类)响应结果阈值分割效果的评估。
刚开始接触R语言是因为单细胞数据分析的需要,那时完全是零基础,学习过程是边抄别人的代码,边理解这些代码的含义,遇到了比较多的坑,包括软件安装,环境配置,R包安装,代码换了参数就报错等。这种纯实战虽然可以快速“上手”,但是没有基础很难提升,而且很难写出自己的代码。
之前因工作需要绘制ROC曲线,所以对该曲线的计算细节进行了一番摸索。刚开始我搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前应当使用逻辑回归等模型对数据建模分析。实则不然,ROC曲线适用于任何判断0-1类型(真假、成功失败等二分类)响应结果阈值分割效果的评估。这个道理我在2018年前后是不懂的,当时一想到画ROC、计算AUC就懵逼。
逻辑运算是数学运算的重要组成部分,但其更是计算机计算的底层设置。作为一门数据处理语言,逻辑运算在R中承担着非常非常重要的作用。本专题就专门为大家整理一下R语言中的逻辑运算:TRUE/FALSE.
我在简书和公众号上已经分享了很多之前学习的数据分析笔记和文章,覆盖了各方面的内容,数据分析方面以后不会再个人分享特别基础的东西了。接下来我会让师弟师妹们定期分享自己的学习过程。
Tidyverse中包含一个purrr程序包,之前在看数据处理分析时候,一直看到别人的code中,涵盖purrr,map函数,但是一直不知道这个是干什么的,现在发现purrr真的是极大的加速了数据处理流程,减少了code的编写。
数据库技术,泛指熟练使用SQL技术,不仅是各种关系型数据库的SQL,还有各种大数据平台的SQL,例如Hive-SQL、Spark-SQL等。 对于SQL技术这块,我们重点要掌握增删改查的四种操作,以及与编程语言的交互。 通过SQL技术,我们可以有效完成如下工作:
考虑到公众号后台数不胜数的提问其实并不是生物学知识或者数据处理知识的困惑,仅仅是绘图小技巧以及数据转换的困难。所以我们一再强调系统性掌握编程知识的重要性,在这个打基础方面我让实习生“身先士卒”,起码每个人在每个编程语言上面都需要看至少五本书而且每本书都需要看五遍以上,并且详细的记录笔记。
因为5份数据集以csv格式存储,首先就是获得存储路径下所有的csv格式文件的文件名,用到的命令是
以项目的方式管理R代码和文件,可以很大程度规避 1)工作路径不对,2)找不到文件 ,3)代码和文件不对应 ,等常见的问题。
原文:R is for Research, Python is for Production
在做数据分析时,常常遇到的一个场景是,1,2,3 需要转换成其对应的"a","b","c"。比如在对结果进行分类统计的时候。
rlang v0.4.0引入了新的非标准计算操作符 {{。这大大方便了dplyr重编程。
是用于清洗数据的工具,如dplyr一样,其中每一列都是变量,每一行都是观察值,并且每个单元格都包含一个值。 “ tidyr”包含用于更改数据集的形状(旋转)和层次结构(嵌套和“取消嵌套”),将深度嵌套的列表转换为矩形数据框(“矩形”)以及从字符串列中提取值的工具。它还包括用于处理缺失值(隐式和显式)的工具。
默认情况下,readxl包会通过excel中的变量类型,决定读入r的变量类型,但是多数情况下,还是会出错的,后续章节再讨论
API是获得Web数据的重要途径之一。想不想了解如何用R调用API,提取和整理你需要的免费Web数据呢?本文一步步为你详尽展示操作流程。
整齐的数据是Hadley Wickham (Wickham 2014)主要定义的概念。整齐的数据具有以下三个特征:
机器学习已经成为继理论、实验和数值计算之后的科研“第四范式”,是发现新规律,总结和分析实验结果的利器。机器学习涉及的理论和方法繁多,编程相当复杂,一直是阻碍机器学习大范围应用的主要困难之一,由此诞生了Python,R,SAS,STAT等语言辅助机器学习算法的实现。在各种语言中,R语言以编程简单,方法先进脱颖而出,本次机器学习基于现代R语言,Tidyverse,Tidymodel语法。
「可重用」是什么意思?在你的数据科学职业生涯中的某个时刻,你编写的代码将被使用不止一次或两次。也许你会对一些不同的图像文件集运行相同的预处理管道,或者你有一套用于比较模型的评估技术。我们都复制并粘贴了相同的代码,但是一旦你发现自己复制了相同的代码不止一次或两次,那就应该花点时间使你的代码可重用。重用好的代码并不是欺骗或懈怠:它是对时间的有效利用,并且被认为是软件工程中的最佳实践。
然后发现诡异的报错,是这个包无法被下载,这个时候我没有紧张,下意识的认为是清华镜像问题,所以我重新下载;
最近有老师问如何计算多个育种值的综合育种值,因为选择育种时,需要考虑多个性状,而这些性状单位不一样,怎么合并计算?
我买了很多R语言的书籍,很多时候我是想通过买书来鞭策自己多多学习,毕竟,实体的书籍花的是真金白银,沉默成本在哪里,不看就太可惜了。
我是R语言的忠实粉丝,并且靠它吃饭。特别提一下Tidyverse,它是一个功能强大、简洁易懂且文档齐全的数据科学平台。我在此向每一位初学者强烈推荐免费的在线电子书R for Data Science。
当你在新的环境下, 安装R语言时,你需要安装很多包,比如tidyverse,比如data.table,这里你可以写一个函数,将所有需要的包写进去,然后进行批量安装
readxl软件包使从Excel到R的数据获取变得容易。与许多现有软件包(例如gdata,xlsx,xlsReadWrite)相比,readxl没有外部依赖性,因此在所有操作系统上都易于安装和使用。它旨在与表格数据一起使用。
Tidyverse 是 Rstudio 公司推出的专门使用 R 进行数据分析的一整套工具集合,里面包括了readr,tidyr, dplyr,purrr,tibble,stringr, forcats,ggplot2 等包。https://github.com/tidyverse/
这里记录一段时间我在互联网上看到的有意思的内容与信息,防止它们在我的脑袋里走丢了。
这么久以来,这是我最喜欢的一个R脚本,解决了我一直以来函数编写的问题,以前都是使用eval(parse(text=“代码字符串”))来实现自定义函数的传递功能,另外R for data science,这本书贵不贵?,想买一本看看。
本次主要介绍了一些基本的正则表达式用法以及公式的创建和使用,然后介绍使用 tidyverse 组合拳进行批量建模和可视化。
R包的依赖处理非常奇怪,随着安装R包的数量变多,有较大概率会遇到R包依赖崩溃的情况。
tidyverse是一组处理与可视化R包的集合(人称“极乐净土”,但我并不喜欢这个称呼),其中ggplot2与dplyr最广为人知。
领取专属 10元无门槛券
手把手带您无忧上云