首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

玩转数据处理120题|R语言版本

R解法 # 默认是6,可指定行数 head(df,5) 23 数据计算 题目:salary列数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...位置有缺失值 列名:"日期", 第[327, 328]位置有缺失值 列名:"前收盘价(元)", 第[327, 328]位置有缺失值 列名:"开盘价(元)", 第[327, 328]位置有缺失值...列名:"最高价(元)", 第[327, 328]位置有缺失值 列名:"最低价(元)", 第[327, 328]位置有缺失值 列名:"收盘价(元)", 第[327, 328]位置有缺失值 ........R解法 rownames(df) <- NULL # 如果是tibble索引始终是按顺序 备注 有时我们修改数据会导致索引混乱 65 异常值处理 题目:删除所有换手率为非数字 难度:⭐⭐⭐...数组创建DataFrame 难度:⭐ 备注 使用numpy生成20个指定分布(标准正态分布)R语言解法 df3 % dplyr

8.6K10

R语言基础-数据清洗函数pivot_longer

如果长度为 1,创建一个包含 cols 指定列名列。如果长度>1,创建多个列。在这种情况下,必须提供 names_sep 或 names_pattern 之一来指定如何拆分列名。...您还可以利用两个额外字符值:NA 丢弃列名相应组件。“.value”表示列名相应组件定义了包含单元格值输出列名称,完全覆盖 values_to。...names_sep 采用与单独()相同规范,可以是数字向量(指定要中断位置),也可以是单个字符串(指定要拆分正则表达式)。...names_transform, values_transform:(可选)列名-函数对列表。或者,可以提供一个函数,该函数应用于所有列。如果您需要更改特定类型,请使用这些参数。...values_drop_na:如果为 TRUE,删除 value_to 列中仅包含 NA 。这有效地显式缺失值转换为隐式缺失值,并且通常仅应在数据中缺失值由其结构创建时使用。

6.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

玩转数据处理120题|Pandas&R

),] 16 数据查看 题目:查看最后5数据 难度:⭐ Python解法 df.tail() R解法 # R中head和tail默认是6,可以指定数字 tail(df,5) 17 数据修改 题目:删除最后一数据...Python解法 df.head() R解法 # 默认是6,可指定行数 head(df,5) 23 数据计算 题目:salary列数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...]位置有缺失值 列名:"简称", 第[327, 328]位置有缺失值 列名:"日期", 第[327, 328]位置有缺失值 列名:"前收盘价(元)", 第[327, 328]位置有缺失值 列名:..."开盘价(元)", 第[327, 328]位置有缺失值 列名:"最高价(元)", 第[327, 328]位置有缺失值 列名:"最低价(元)", 第[327, 328]位置有缺失值 列名:"收盘价(...(drop=True) R解法 rownames(df) <- NULL # 如果是tibble索引始终是按顺序 备注 有时我们修改数据会导致索引混乱 65 异常值处理 题目:删除所有换手率为非数字

6K41

《高效R语言编程》6--高效数据木匠

将你数据整理好是一个可敬、某些情况下是至关重要技能,所以作者使用了数据木匠这个词。...tibble会打印每个变量类,data.frame不会 stringAsFactors默认转换 输出时,只输出前10 使用tidyr与正则表达式整理数据 整理数据包括数据清理和数据重构,前者是重定格式与标记脏数据...tidyr方便了收集与分割两个常见操作 gather()收集是列名换成新变量,宽表变成长表,spread()是实现相反过程函数。...用法是:gather(data,key,value,-religion),分别是数据框,要转换成分类列名,单元值列名和清除收集变量 使用seperate()分割联合变量 分割是指一个实际由两个变量组成变量分割成两个独立列...RODBC是一个资深包,提供R与SQL server接口。DBI包提供了通用接口与驱动程序类集,RSQLITE,是访问数据库统一框架,允许其他驱动程序以模块包添加。

1.9K20

数据处理第2节:列转换为正确形状

为此,首先指定要拆分列,然后指定列名,以及用于拆分分隔符。示例代码显示基于'='作为分隔符分隔成两列。...您指定列名称,然后指定要合并列,最后指定要使用分隔符。...连接本身就是一个章节,但在这种特殊情况下你会做一个left_join(),即保持我主表(在左边),并从另一个向右添加列。 在by =语句中,您指定哪些列相同,因此连接知道要添加位置。...示例代码将把不同保护状态描述添加到主msleep表中。 主要数据包含一个额外“domisticated”标签,我想保留。 这是在表最后一用ifelse()完成。...NA 函数na_if()特定值转换为NA。

8K30

R」使用gt包创建表格入门

是的,我们正在尝试数据表格(tibbles、data.frame)和你在网页、期刊文章或者杂志中表格区分开来。后面这种表格可以称为展示表格、汇总表格或者真实表格。下面是一些网站上例子: ?...它们每一个都可以(1)提供一个名或列名向量(2)1个索引/列索引向量(3)包含在vars()函数中列名(4)选择帮助函数starts_with()、ends_with()、contains(...针对,我们可以使用以列名为变量条件语句(例如size > 15000)。 这里有一个如何添加脚注简单例子。...根 根(Stub)是表格左边包含标签(也可以包含标签组)、汇总标签部分。子要素可以划分为不同组。根头(Stub Head)提供了描述根标签位置。根是一个可选要素,有时候它不是那么有用。...至于如何自定义组名设定和选择,不妨发挥你们得想象力 列标签 类似于组,使用tab_spanner()可以多个列划分为不同组。

4.3K21

tidyverse:R语言中相当于python中pandas+matplotlib存在

tibble包,也是由Hadley开发R包。...tibble对data.frame做了重新设定: tibble,不关心输入类型,可存储任意类型,包括list类型 tibble,没有名设置 row.names tibble,支持任意列名 tibble...; 查看数据时,不再会一显示不下(会自动隐藏一部分,自带head);有两种方式来创建tibble格式数据: 1..../ 03 — %>%:管道函数 ——左侧值应用到右侧数据data位置 管道函数在tidyverse中,管道符号是数据整理主力,可以把许多功能连在一起,而且简洁好看,比起R基本代码更加容易阅读...#key:原数据框中所有列赋给一个新变量key #value:原数据框中所有值赋给一个新变量value #…:可以指定哪些列聚到同一列中 #na.rm:是否删除缺失值 widedata <-

3.9K10

R」使用gt包创建表格

另外,该包作者表格相关包做了个汇总,我也把它更新到了本文下方。本文应当可以成为读者使用 R 构建表格一大入口,值得点赞收藏。 RStudio 提供了出版级表格解决方案gt包。...是的,我们正在尝试数据表格(tibbles、data.frame)和你在网页、期刊文章或者杂志中表格区分开来。后面这种表格可以称为展示表格、汇总表格或者真实表格。...它们每一个都可以(1)提供一个名或列名向量(2)1个索引/列索引向量(3)包含在vars()函数中列名(4)选择帮助函数starts_with()、ends_with()、contains(...针对,我们可以使用以列名为变量条件语句(例如size > 15000)。 这里有一个如何添加脚注简单例子。...根 根(Stub)是表格左边包含标签(也可以包含标签组)、汇总标签部分。子要素可以划分为不同组。根头(Stub Head)提供了描述根标签位置。根是一个可选要素,有时候它不是那么有用。

2.7K10

MySQL 教程上

它使用是列位置,因此 SELECT 中第一列(不管其列名)将用来填充表列中指定第一个列,第二列将用来填充表列中指定第二个列,如此等等。这对于从使用不同列名表中导入数据是非常有用。...注意,除非表有一个 PRIMARY KEY 或 UNIQUE 索引,否则,使用一个 REPLACE 语句没有意义。该语句会与 INSERT 相同,因为没有索引被用于确定是否新复制了其它。...MySQL 字段属性应该尽量设置为 NOT NULL 指定 NULL 在指定 NOT NULL 时,多数 DBMS 认为指定是 NULL,但不是所有的 DBMS 都这样。...某些 DBMS 要求指定关键字 NULL,如果指定将出错。关于完整语法信息,请参阅具体 DBMS 文档。...REVOKE,用它来撤销特定权限。

3.4K10

R︱Rstudio 1.0版本尝鲜(R notebook、下载链接、sparkR、代码时间测试profile)

但是另外一台电脑在低版本R中,3.1好像需要加装tibble 1.0,并且尝试了还是用不来,报错: tibble1.1 is required but 1.0 is available 会让你check...(2)兼容其他语言 R Notebooks不仅可以运行R代码,还可以运行 Python, Bash, SQLor C++ (Rcpp).直接用SQL语句,牛牛! ? (3)其他:丰富输出格式。...1、分析结果解读一:代码运行步骤 在分析结果中主要有两块内容:上部,是代码本身,以及执行每一所消耗内存及时间;下部是一个火焰图(什么鬼),显示R在执行过程中具体干了啥,横向从左到右代表时间轴,纵向代表了调用栈也就是当前调用函数...导入界面很亲民,同时把调用代码也显示出来,新手可以来这看看,免去了很多麻烦!! ? 1、功能点一:指定输入数据是否需要名 ? 于是我们指定跳过6记录,并且不要将第一作为列名。...但是有些字段明明是数字却被显示成了字符串,可以直接在列名下拉框里进行修正。(来源公众号:子豹)

1K50

数据清洗与管理之dplyr、tidyr

通过行列值引用:数据集[值,列值] 值或列值仅1个数字,表示仅引用该行或列数据 > iris[1,] #引用第1数据 Sepal.Length Sepal.Width Petal.Length...,其中因数据过长,使用head()函数取前5个数字 [1] 5.1 4.9 4.7 4.6 5.0 值或列值为组合数据,则表示引用组合行列交叉位置数据 > iris[1:5,1:3] Sepal.Length...,或者替代异常值等 在R中重新编码数据常用逻辑运算符,通过TRUE/FALSE等返回值,确定编码位置。...> df <- iris #Petal.Length列等于1.4位置重新编码为“” > df$Petal.Length[df$Petal.Length == 1.4] <- "" > head(...key #value:原数据框中所有值赋给一个新变量value #…:可以指定哪些列聚到同一列中 #na.rm:是否删除缺失值 widedata <- data.frame(person=c('Alex

1.8K40

翻译|给数据科学家10个提示和技巧Vol.2

1 引言 第一章给出了数据分析一些技巧(主要用Python和R),可见:翻译|给数据科学家10个提示和技巧Vol.1 2 R 2.1 基于列名获得对应值 数据框如下: set.seed(5)...例如,我们可以创建: Year Month Weekday Hour Minute Week of the year Quarter 如何在R中对一个DateTime对象创建这些属性,建议一些特征weekdays...3.2 基于列名获得对应值 利用pandas库中DataFrame构建一个数据框: import pandas as pd df = pd.DataFrame.from_dict({"V1": [66...3.4 检查pandas数据框列是否包含一个特定值 查看字符a是否存在于DataFrame列中: import pandas as pd df = pd.DataFrame({"A" : ["a...-R表示递归复制目录。也可以使用-r,因为它不区分大小写。

80030

python pandas.read_csv参数整理,读取txt,csv文件

header参数可以是一个list例如:[0,1,3],这个list表示文件中这些作为列标题(意味着每一列有多个标题),介于中间行将被忽略掉(例如本例中2;本例中数据1,2,4行将被作为多级标题出现...index_col : int or sequence or False, default None 用作索引列编号或者列名,如果给定一个序列则有多个索引。...usecols : array-like, default None 返回一个数据子集,该列表中值必须可以对应到文件中位置(数字可以对应到指定列)或者是字符传为文件中列名。...返回一个Numpyrecarray来替代DataFrame。如果该参数设定为True。将会优先squeeze参数使用。并且索引将不再可用,索引列也将被忽略。...=True ,那么任何有整数类型构成列将被按照最小整数类型存储,是否有符号取决于use_unsigned 参数 use_unsigned : boolean, default False 推荐使用

6.3K60

Day5:R语言课程(数据框、矩阵、列表取子集)

导出数据表和图以供在R环境以外使用。 1.数据框 数据框(和矩阵)有2个维度(和列),要想从中提取部分特定数据,就需要指定“坐标”。和向量一样,使用方括号,但是需要两个索引。...可以提供索引索引留空。...在某些情况下,如果使用脚本添加或删除列,则变量列号可能会更改。因此,最好使用列名来引用特定变量,这样可以使代码更易于阅读,并且您意图更加清晰。...,我们可以使用数据集中特定逻辑向量来仅选择数据集中,其中TRUE值与逻辑向量中位置索引相同。...write.table也是常用导出函数,允许用户指定要使用分隔符。此函数通常用于创建制表符分隔文件。 注意:有时在具有名称数据框写入文件时,列名称将从名称列开始对齐。

17.4K30

Read_CSV参数详解

header参数可以是一个list例如:[0,1,3],这个list表示文件中这些作为列标题(意味着每一列有多个标题),介于中间行将被忽略掉(例如本例中2;本例中数据1,2,4行将被作为多级标题出现...index_col : int or sequence or False, default None 用作索引列编号或者列名,如果给定一个序列则有多个索引。...usecols : array-like, default None 返回一个数据子集,该列表中值必须可以对应到文件中位置(数字可以对应到指定列)或者是字符传为文件中列名。...返回一个Numpyrecarray来替代DataFrame。如果该参数设定为True。将会优先squeeze参数使用。并且索引将不再可用,索引列也将被忽略。...=True ,那么任何有整数类型构成列将被按照最小整数类型存储,是否有符号取决于use_unsigned 参数 use_unsigned : boolean, default False 推荐使用

2.7K60
领券