首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习| 一个简单的入门实例-员工离职预测

ggplot2包是使用R进行数据可视化的重要工具。...在调用ggplot2函数前需要下载并安装该包(install.packages(“ggplot2”)),第一次使用前还需要进行加载(library(ggplot2))。...其中针对收入水平变量,我们通过dplyr包中的mutate()函数和forcats包中的fct_relevel()函数将数据集中的salary变量按照指定的低、中、高的顺序进行排列,因此在调用之前先安装和加载...dplyr包和forcats包(install.packages(“dplyr”)、install.packages(“forcats”)),第一次使用前还需要进行加载(library(dplyr)、library...3.划分训练集和测试集 使用sample函数进行抽样,按7:3产生训练集和测试集。 ? 4.模型建立 在R中可以通过rpart、rpart.plot包来实现决策树模型及其可视化。

3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R数据科学|第十一章内容介绍

    使用forcats处理因子 因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。...准备工作 使用forcats包来处理因子,这个包提供了能够处理因子的工具,其中还包括了处理因子的大量辅助函数。...library(tidyverse) library(forcats) 创建因子 假设我们想要创建一个记录月份的变量: x1 <- c("Dec", "Apr", "Jan", "Mar") 使用字符串来记录月份有两个问题...,那么会将按字母顺序排序的数据作为水平: factor(x1) #> [1] Dec Apr Jan Mar #> Levels: Apr Dec Jan Mar 若想让因子的顺序与初始数据的顺序保持一致...修改因子水平 可以使用fct_recode()函数,它可以对每个水平进行修改或重新编码。该函数会让没有明确提及的水平保持原样,如果不小心修改了一个不存在的水平,那么它也会给出警告。

    61820

    R for data science (第一章)①Chapter1 使用ggplot2进行数据可视化

    Chapter1 使用ggplot2进行数据可视化 简介 “简单的图表为数据分析师提供了比任何其他设备更多的信息。”...例如,ggplot2 :: ggplot()明确告诉您我们正在使用ggplot2包中的ggplot()函数。...这是积极的吗? 负?线性?非线性? mpg数据框 您可以使用ggplot2(又名ggplot2 :: mpg)中的mpg数据框测试您的答案。 数据框是变量(列)和观察(行)的矩形集合。...要将aesthetic映射到变量,请将aesthetic的名称与aes()中的变量名称相关联。 ggplot2将自动为变量的每个唯一值分配唯一级别(这里是一种独特的颜色),这个过程称为缩放。...ggplot2一次只能使用六个形状。默认情况下,使用形状美学时,其他组将进行非开槽。 对于每种美学,您使用aes()将aesthetic名称与要显示的变量相关联。

    2.8K20

    tidyverse:R语言中相当于python中pandas+matplotlib的存在

    tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法,包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats...library(tidyverse) #加载以下tidyverse中核心的packages: ggplot2:画图,可视化数据 dplyr:操控数据,过滤、排序等 tidyr:清理数据 readr:(...从文件中读取数据 purrr:(提供好用的编程函数 tibble:data.frame升级款 stringr:处理字符,查找、替换等 forcats:处理因子问题 ?...install.packages("tidyverse") #安装包 关联的包比较多,耐心等待一会儿 library(tidyverse) #使用前,记得载入包 以下讲:readr(读)、tibble...#key:将原数据框中的所有列赋给一个新变量key #value:将原数据框中的所有值赋给一个新变量value #…:可以指定哪些列聚到同一列中 #na.rm:是否删除缺失值 widedata <-

    4.2K10

    R入门?从Tidyverse学起!

    这种入门的学习路径属于base R first,学习的流程基本是先了解变量的类型、数据的结构,再深入点就会学到循环与自定义函数。...tidyverse就是他将自己所写的包整理成了一整套数据处理的方法,包括ggplot2,dplyr,tidyr,readr,purrr,tibble,stringr, forcats。...(处理因子问题) tidyverse的安装也很简单,在R中输入以下命令: #安装包 install.packages("tidyverse") #使用前,记得载入包 library(tidyverse...数据整理 tibble格式 R中的对多变量数据的标准保存形式是 dataframe,而tibble是dataframe的进化版,它有如下优点: 1....这些函数允许在长数据格式(long data)和宽数据格式(wide data)之间进行转换(功能类似于reshape包,但是比reshape更好用,并且可以用于管道%>%连接)。

    2.6K30

    如何通过R语言制作BBC风格的精美图片

    在BBC数据团队开发了一个R包,以ggplot2内部风格创建可发布出版物的图形,并且使新手更容易到R创建图形。 例如: ? 加载所有所需的R语言包 通常在R中创建图表需要安装和加载某些软件包。...以下代码显示了在标准图表制作工作流程中应如何使用bbc_style()。 这是一个非常简单的折线图的示例,使用了来自gapminder包的数据。...+ geom_hline(yintercept = 0, size = 1, colour = "#333333") 构图 如果想将可视化的数据按某个变量进行拆分,则需要使用facet_wrap或facet_grid...按大小重新排序栏 默认情况下,R将按字母顺序显示数据,但按大小排列则很简单:只需将reorder()包装在要重新排列的x或y变量周围,然后指定要变量 重新排序。 例如。...image.png 修改柱状图柱子顺序 有时,您需要以不按字母顺序或按大小重新排序的方式对数据进行排序。

    13.1K10

    tidyverse

    背景 Tidyverse 是 Rstudio 公司推出的专门使用 R 进行数据分析的一整套工具集合,里面包括了readr,tidyr, dplyr,purrr,tibble,stringr..., forcats,ggplot2 等包。...tidyr 与 dplyr 包是用 R 语言中用来处理各种数据整合分析的包,可以说是 R 数据整合的“瑞士军刀”,tidyr 包负责将数据重新整合,dplyr 包可以完成数据的排序,筛选,分类计算等都等操作...官网:https://www.tidyverse.org/ 一、tidyr 数据整理 tidyr 包用于将数据重新整合,替代之前的 reshape 和 reshape2 包,用于数据的重塑与聚合...这些概念非常形象地描述了数据转换的过程。melt 将数据转换为长数据,cast 重新调整变量。tidyr 数据转换也是类似的方法。

    1.7K10

    tidymodels菜谱:数据预处理

    在前面的推文中我们介绍了数据预处理的重要性以及演示了caret包中的数据预处理方法: 预测建模常用的数据预处理方法 R语言机器学习caret-02:数据预处理 一定要先看上两篇推文,因为一些方法解释和原理都在前面解释过...今天列举常见的数据预处理方法,使用recipes包。...主要包括以下几个部分内容: 缺失值插补 作用于单个预测变量 离散化 哑变量和编码 交互项 中心化标准化 作用于多个预测变量 移除预测变量 样本(行)选择 其他 加载R包 library(tidyverse...,第一步是建立recipe,然后是选择预处理步骤,在recipes中,所有的数据预处理步骤都是以step_xxx这种形式出现的; 然后是预处理应用于哪些变量,可以直接写变量名字,和dplyr中一模一样的方法...比如创建哑变量等,还包括对因子型变量的常见处理,和forcats包做的事情非常相似,大家可以参考我们的forcats包系列推文: R语言处理因子之forcats包介绍(1) R语言处理因子之forcats

    27820

    「R」数据操作(四):初学者学习tidyverse

    资料来源:DataCamp tidyverse是一组处理与可视化R包的集合(人称“极乐净土”,但我并不喜欢这个称呼),其中ggplot2与dplyr最广为人知。...R的函数编程 tibble - 新一代数据框 stringr - 提供函数集用来处理字符数据 forcats - 提供有用工具用来处理因子问题 有几个包没接触过,R包太多了,这些强力包还是有必要接触和学习下使用...# tidyverse与其他包的冲突 tidyverse_conflicts() # 列出所有tidyverse的依赖包 tidyverse_deps() #获取tidyverse的logo tidyverse_logo...) 汇总 summarize()函数可以让我们将很多变量汇总为单个的数据点。...散点图 散点图可以帮助我们理解两个变量的数据关系,使用geom_point()可以绘制散点图: iris_small % filter(Sepal.Length > 5

    1.7K30

    不确定性可视化太难?!一行代码搞定~~

    今天给大家推荐一个专门用于不确定性可视化的绘图工具-R,可以方便的绘制一些统计图表的相关指标。详细介绍如下: 简介 ungeviz包的目的是为ggplot2提供有用的附加功能,以实现不确定性的可视化。...该软件包特别关注假设结果图(HOPs),并提供自举和抽样功能,与ggplot2的API很好地整合。...,在ggplot2图层中代替数据使用。...可使用stat_smooth_draws()中是自动化完成的,其工作原理与stat_smooth()类似,但生成的是多个可能性相同的拟合线,而不是一条最佳拟合线。...语言ungeviz包在绘制一些常见的统计图形时非常有用,特别是涉及多组数据的一些统计指标的绘制时,可以完美替代ggplot2包中的stat_summary()类函数。

    38120

    新书《R语言编程—基于tidyverse》信息汇总

    同样是讲 R 基本语法,本书不同之处在于,用tidyverse中更一致、更好用的相应包加以代替:用tibble代替data.frame、用forcats包处理因子,用stringr讲字符串 (及正则表达式...、R连接数据库、中文编码问题及解决办法),数据连接(数据按行/列拼接、SQL数据库连接),数据重塑 (“脏”数据变“整洁”数据,长宽表转换、拆分与合并列),数据操作 (选择列、筛选行、对行排序、修改列、...分组汇总)、其它数据操作 (按行汇总、窗口函数、滑窗迭代、整洁计算),以及data.table基本使用 (常用数据操作的dplyr语法与data.table语法对照)。...建模技术包括三个内容: (1) 用broom包提取统计模型结果为整洁数据框,方便后续访问和使用; (2) modelr包中一些有用的辅助建模函数; (3) 批量建模技术,比如要对全世界 170 多个国家的数据分别建立模型...第六章,文档沟通 将讨论如何进行可重复研究,用R markdown家族生成各种文档,介绍 R markdown的基本使用,R 与 Latex 交互编写期刊论文/幻灯片/书籍、R 与Git/Github交互进行版本控制

    2.4K21

    R tips: rlang中的expression操作符

    : 不存在叫‘package’这个名字的程辑包 可以发现在library函数中,package变量并不会被替换为它的值,而print函数就会打印出它的值:ggplot2,在library函数中就像是把...代表立即执行和拆解执行 其实如果要将冻结的变量重新解除冻结,可以使用!!操作符来处理。这是一个rlang包中定义的一个操作符函数。...操作符处理后,package变量已经被替换为它的值ggplot2。只不过此时它依然是冻结状态,使用eval或者eval_tidy即可执行它,然后ggplot2包就被导入了。 而!!!...操作在tidyverse系列包中很常见,比如可以将因子变量的水平值重新编码的函数fct_recode: ### 定义一个因子变量 test_factor 进行强制执行为它的值:一个字符串‘Species’,也可以进一步转换为symbol以满足dplyr的选择变量的语法。 {{}}是执行冻结的变量值的值 {{}}其实就是!!

    1.5K10

    R语言tidyverse包使用杂记:删除行、设置因子水平、指定列小写转大写

    首选是构造一份数据集 image.png 数据是excel存储,读取数据使用R包readxl中的函数read_excel() 读取数据 library(readxl) df<-read_excel...20210910.xlsx") 删除行 library(tidyverse) df %>% rows_delete(tibble(var="AAA")) 设置因子水平 library(ggplot2...aes(x=var,y=value))+ geom_col(aes(fill=var)) image.png df %>% arrange(value) %>% mutate(var=fct_relevel...value))+ geom_col(aes(fill=var)) image.png 指定列大小写转换 df %>% mutate_at("var",toupper) 欢迎大家关注我的公众号...小明的数据分析笔记本 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记

    2.3K10

    学会这个BBC,你的图也可以上新闻啦!

    为了方便清洗可重复数据和绘制图表,BBC数据团队用R对数据进行处理和可视化,经年累月下于去年整理绘图经验并开发了R包-bbplot,帮助我们画出和BBC新闻中一样好看的图形。...加载需要的R包 使用pacman[1]软件包中的p_load函数通过以下代码一次性加载。 #安装pcaman软件包并对其他R包进行加载 if(!...下面的代码显示了如何在标准图表制作工作流程中使用bbc_style()。这是一个非常简单的折线图的示例,使用了gapminder程序包中的数据。...它实质上修改了ggplot2主题功能(ggplot2学习笔记之图形排列)中的某些参数。 例如,第一个参数是设置图标题元素的字体、大小、和字体颜色。...如果将需要可视化的数据按某个变量划分,则需要使用函数facet_wrap或facet_grid。 #准备数据 facet % filter(continent !

    4.1K20

    一步解决R中中文字符问题

    ❝今天会员交流群内有朋友询问图片预览遇到问题该如何解决,本节就来详细介绍一下R中图形预览及导出会遇到的问题,个人观点仅供参考。...❝Cairo是R中的一个包,用于创建向量图形(如PDF、SVG)和位图图形(如PNG、BMP、GIF、JPEG)。它基于Cairo图形库,该库是一个跨平台的图形API,支持多种输出设备。...❞ 安装cairo包 install.packages("Cairo") 修改Graphics设置 ❝要访问和修改这些设置,可以在RStudio中按照以下步骤操作: 1.打开RStudio 2.在菜单栏中...,重新运行代码可以看到在右侧图形进行展示时也能正确显示中文。...以上操作为Macos系统 windows系统则需要在代码中使用showtext包进行字体渲染,若不进行渲染则导出pdf时字体会乱码 install.packages("showtext") library

    67110

    「R」ggplot2数据可视化

    最常见的元素是坐标轴上的刻度线和标签(还有图例)。 接下来以三个数据集解释ggplot2的使用。第一个是lattice包中的singer数据集,它包括纽约合唱团歌手的高度和语音变量。...分组指的是在一个图形中显示两组或多组观察结果。小面化指的是在单独、并排的图形上显示观察组。需要注意,ggplot2包在定义组或面时使用因子。 这里我们使用mtcars数据集查看分组和面,并进行绘图。...用几何函数指定图的类型 ggplot()函数指定要绘制的数据源和变量,几何函数则指定这些变量如何在视觉上进行表示。目前,有37个几何函数可供使用。以下列出常用的函数。...分组 在R中,组通常用分类变量的水平(因子)来定义。 分组是通过ggplot2图将一个或多个带有诸如颜色、形状、填充、尺寸和线条类型的视觉特征的分组变量来完成的。...将多个ggplot2包的图形放到单个图形中最简单的方式是使用gridExtra包中的grid.arrange()函数。我们需要事先安装这个包。 让我们创建3个ggplot2图并把它放在单个图形中。

    7.4K10

    这些条形图的用法您都知道吗?

    在R语言的ggplot2包中,读者可以借助于geom_bar函数轻松地绘制条形图。对于条形图大家对其的印象是什么呢?又见过哪些种类的条形图呢?在本篇文章我将带着各位网友说道说道有关条形图的哪些品种。...ggplot2的语法讲解 ---- 如果读者对R语言比较熟悉,一定听过或使用过ggplot2的绘图体系了。...,有两点需要说明,一方面,在ggplot2绘图过程中均采用图层思想,将多个图形进行叠加和设置;另一方面,图层思想是通过代码中的加号(+)表现出来的。...单离散单数值变量的条形图 # 加载第三方包 library(ggplot2) library(gridExtra) # 已汇总数据--单离散变量条形图的绘制 df 使用grid.arrange函数将两张图组合在一个图框内,其中左图是使用geom_bar函数直接生成的原始图形,右图则是在左图的基础上添加了三项功能,分别是条形图的排序(代码中reorder

    5.6K10
    领券