首页
学习
活动
专区
圈层
工具
发布

R语言第二章数据处理⑤数据框列的转化和计算目录正文

同时还有mutate()和transmutate()的三个变体来一次修改多个列: Mutate_all()/ transmutate_all():将函数应用于数据框中的每个列。...Mutate_at()/ transmutate_at():将函数应用于使用字符向量选择的特定列 Mutate_if()/ transmutate_if():将函数应用于使用返回TRUE的谓词函数选择的列...函数mutate_all()/ transmutate_all(),mutate_at()/ transmutate_at()和mutate_if()/ transmutate_if()可用于一次修改多个列...tbl:一个tbl数据框 funs:由funs()生成的函数调用列表,或函数名称的字符向量,或简称为函数。predicate:要应用于列或逻辑向量的谓词函数。...转换特定列 mutate_at():转换按名称选择的特定列: my_data2 %>% mutate_at( c("Sepal.Length", "Petal.Width"),

4.6K20

数据处理第2节:将列转换为正确的形状

它涵盖了操纵列以便按照您希望的方式获取它们的工具:这可以是计算新列,将列更改为离散值或拆分/合并列。...这些函数本质上需要总结一个列(如上所示),如果你想在列之间使用sum()或mean(),你可能会遇到错误或荒谬的答案。...就像第1部分中的select()函数一样,mutate()有变种: *mutate_all()将根据您的进一步说明改变所有列 *mutate_if()首先需要一个返回布尔值的函数来选择列。...如果我想在几分钟内完成,我可以使用mutate_at()并将包含列的所有'sleep'包装在vars()中。 其次,我在飞行中创建一个函数,将每个值乘以60。...在这种情况下,我们有3列描述时间度量。 对于某些分析和图表,可能有必要将它们合二为一。 gather函数需要您为新的描述性列指定名称(“key”),并为值列指定另一个名称(“value”)。

8.6K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」dplyr 列式计算

    ❝在近期使用 「dplyr」 进行多列选择性操作,如 mutate_at() 时,发现文档提示一系列的 「dplyr」 函数变体已经过期,看来后续要退休了,使用 across() 是它们的统一替代品,所以最近抽时间针对性的学习和翻译下...你可以通过对第二个参数传入一个函数(包括 lambda 函数)的命名列表来对每个变量同时执行多个函数操作。..._if, _at, _all 「dplyr」 以前的版本允许以不同的方式将函数应用到多个列:使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用,但现在被取代了。...但是 across() 的开发工作离不开以下三个最新发现: 你可以有一个数据框的列,它本身就是一个数据框。...这是由 base R 提供的,但它并没有很好的文档,我们花了一段时间才发现它是有用的,而不仅仅是理论上的好奇。 我们可以使用数据框让汇总函数返回多列。

    2.8K10

    「R」dplyr 包使用

    ()函数会对 列 进行处理,并且 创建新的列表 ,简单来说就是把向量作为输入值,输出单个数值。...function处理 summarise_at()对特定的列进行function处理 summarise_if()对所有属于一个类型的列进行处理 group的用法 group_by(.data, ......, add = FALSE)根据...对数据进行分组后返回,不会保存成新数据,需要另外赋值 参数:add = FALSE 原始数据基础上加新的分类 ungroup(x, ...)分组后,返回没有分组的数据...1,waiting值是1的一行 add_row(faithful, eruptions = 1, waiting = 1) 操作变量 pull(,data, var = -1)提取数据框中某列内容出来...(.tbl, .cols, .funs, ...)把函数应用到数据框指定的列 举例:vars(-Species)表示除了这列,对其他的进行运算 > mutate_at(iris, vars(-Species

    1.3K20

    2022-09-25:给定一个二维数组matrix,数组中的每个元素代表一棵树的高度。 你可以选定连续的若干行组成防风带,防风带每一列的防风高度为这一列的最大值

    2022-09-25:给定一个二维数组matrix,数组中的每个元素代表一棵树的高度。...你可以选定连续的若干行组成防风带,防风带每一列的防风高度为这一列的最大值 防风带整体的防风高度为,所有列防风高度的最小值。...比如,假设选定如下三行 1 5 4 7 2 6 2 3 4 1、7、2的列,防风高度为7 5、2、3的列,防风高度为5 4、6、4的列,防风高度为6 防风带整体的防风高度为5,是7、5、6中的最小值 给定一个正数...k,k 的行数,表示可以取连续的k行,这k行一起防风。...求防风带整体的防风高度最大值。 答案2022-09-25: 窗口内最大值和最小值问题。 代码用rust编写。

    3K10

    115道MySQL面试题(含答案),从简单到深入!

    解释MySQL中的主键与唯一键的区别。主键(Primary Key)是表中用于唯一标识每条记录的列或列的组合。一个表只能有一个主键,且主键列的值必须是唯一的,不允许为NULL。...唯一键(Unique Key)也确保列的值唯一,但一个表可以有多个唯一键,并且唯一键的列可以包含NULL值。7. 什么是视图,它有什么优点?视图是基于SQL语句的结果集的可视化表现。...归一化是数据库设计中的一个过程,目的是减少数据冗余和提高数据完整性。它涉及将数据组织到逻辑上的表中,使每个表专注于一个主题或概念。...它确保一个表中的列值必须在另一个表的主键或唯一键列中存在。这有助于维护数据的完整性和一致性。...在分区表上,每个分区可以拥有自己的索引。这对查询性能有如下影响: - 查询可以限制在特定的分区上,从而减少搜索的数据量。 - 索引维护(如重建索引)可以在单个分区上进行,而不是整个表。

    8.9K31

    70个NumPy练习:在Python下一举搞定机器学习矩阵运算

    答案: 4.如何从1维数组中提取满足给定条件的元素? 难度:1 问题:从arr数组中提取所有奇数元素。 输入: 输出: 答案: 5.在numpy数组中,如何用另一个值替换满足条件的元素?...输入: 输出: 答案: 15.如何将处理标量的python函数在numpy数组上运行? 难度:2 问题:将处理两个标量函数maxx在两个数组上运行。...输入: 答案: 22.如何使用科学记数法(如1e10)漂亮地打印一个numpy数组?...难度:1 问题:找到iris的sepallength第5位和第95百分位的值。 答案: 32.如何在数组中的随机位置插入一个值?...难度:2 问题:在iris_2d的sepallength(第1列)中查找缺失值的数量和位置。 答案: 34.如何根据两个或多个条件过滤一个numpy数组?

    22.8K42

    T-SQL进阶:超越基础 Level 2:编写子查询

    WHERE子句中子查询的示例 有时你想根据SELECT语句的结果来驱动WHERE子句条件。 当您在WHERE子句中的SELECT语句时,此SELECT语句实际上是一个子查询。...但是第一个子查询用于将日期传递给DATEDIFF函数的第二个参数。 返回多个值的子查询的示例 我迄今为止的所有示例都包含仅在单个列中返回单个值的子查询。 并不是所有的子查询都有这个要求。...接下来的几个例子将使用返回多个值和/或多个列的子查询。 FROM子句中的子查询示例 在FROM子句中,通常会标识您的Transact-SQL语句将对其执行的表或表的集合。...使用具有IN关键字的子查询的示例 您可以编写一个返回列的多个值的子查询的地方是当您的子查询生成与IN关键字一起使用的记录集时。 清单9中的代码演示了如何使用子查询将值传递给IN关键字。...当用作表达式或在比较操作中时,子查询需要返回一个列值。当子查询与IN关键字一起使用时,它可以返回列的单个或多个值。如果在FROM子句中使用子查询,它只能返回一列和一个值,但也可以返回多个列和值。

    6.7K10

    PostgreSQL 教程

    交叉连接 生成两个或多个表中的行的笛卡尔积。 自然连接 根据连接表中的公共列名称,使用隐式连接条件连接两个或多个表。 第 4 节....数据分组 主题 描述 GROUP BY 将行分成组并对每个组应用聚合函数。 HAVING 对组应用条件。 第 5 节. 集合运算 主题 描述 UNION 将多个查询的结果集合并为一个结果集。...插入多行 向您展示如何在表中插入多行。 更新 更新表中的现有数据。 连接更新 根据另一个表中的值更新表中的值。 删除 删除表中的数据。 连接删除 根据另一个表中的值删除表中的行。...外键 展示如何在创建新表时定义外键约束或为现有表添加外键约束。 检查约束 添加逻辑以基于布尔表达式检查值。 唯一约束 确保一列或一组列中的值在整个表中是唯一的。...条件表达式和运算符 主题 描述 CASE 向您展示如何使用CASE表达式构成条件查询。 COALESCE 返回第一个非空参数。您可以使用它将NULL替换为一个默认值。

    3K10

    如何在矩阵的行上显示“其他”【3】切片器动态筛选的猫腻

    往期推荐 如何在矩阵的行上显示“其他”【1】 如何在矩阵的行上显示“其他”【2】 正文开始 上一篇文章的末尾,我放了一张动图: 当年度切片器变换筛选时,子类别中显示的种类和顺序是不相同的,但不变的是...计算每个子类别的年度sales值 sales = VAR NIAN=[年度] RETURN CALCULATE([sales],'日期表'[年度]=NIAN) 3.添加各年每个子类别的sales...同样,按照其他的列进行排序,也是会得到同样的结果: 事情好像无法往下进行了。 但是铁人王进喜有句名言:“有条件要上,没有条件,创造条件也要上。” 我们再重新审视一下这个按列排序的错误。...对于子类别中的同一个值,sales.oneyear.rankx2不能有多个值。 如果说这个问题有解决办法,那么突破口一定是在这个位置。...子类别3 = [年度]&"-"&[子类别2] 对于不同的年份,每一个子列别上都附带着对应的年份,因此没有任何一个子类别是重复的,每一个子类别都对应着唯一的一个rankx,也就是说,我们解决了无法“按列排序

    3K20

    在线Excel的计算函数引入方法有哪些?提升工作效率的技巧分享!

    ) 4.异步函数的引入(AsyncFunction 函数来计算异步数据,该函数用在不能立刻获取计算结果的时候使用) 数组公式和动态数组 数组公式是指可以在数组的一项或多项上执行多个计算的公式,你可以将数组视为一行值...如何在Excel中引入数组公式和动态数组: 数组公式的引入 动态数组的引入 2.Filter函数的引入(FILTER函数可以根据定义的条件过滤一系列数据) FILTER函数基于布尔数组来过滤数组。...REDUCE函数 通过对每个值应用LAMBDA,将一个数组减少为一个累积值,并返回累积器中的总数值。...value 应用于数组中每个元素的计算。 4. SCAN函数 通过对每个值应用LAMBDA来扫描一个数组,并返回一个拥有每个中间值的数组。...value 应用于数组中每个元素的计算。 5. MAKEARRAY函数 通过应用LAMBDA,返回一个指定行和列大小的计算数组。

    93810

    基于 mlr 包的逻辑回归算法介绍与实践(上)

    该算法的应用过程如 Fig 1 所示,其中虚线表示中间还有其他过程,稍后会有介绍。 Fig 1. 逻辑回归过程 逻辑回归学习的模型输出新数据属于每个类的概率,再将新数据分配到它们最有可能属于的类。...另外,随着铜含量的增加,是真品的概率趋近于 1,相反,随着铜含量的减少,是真品的概率趋近于 0。 上文所介绍的内容中,只有一个预测变量——铜含量,但是如果我们有多个预测变量应该如何进行呢?...Fig 6. log odds 到 odds 到 probability 的转换 当我们有多个预测变量时,对应的线性方程形式可以写为: 新画作整个分类过程如 Fig 7 所示 (以两个预测变量(copper...在多项逻辑回归中,该模型为每个实例的每个输出类估计了一个 logit,而不是仅对每个实例估计一个 logit。...,它们的值保存在另一列中。

    2.4K20

    2021-04-30:一条直线上有居民点,邮局只能建在居民点上。给定一个有序正数数组arr,每个值表示 居民点的一维坐标,再给定

    2021-04-30:一条直线上有居民点,邮局只能建在居民点上。给定一个有序正数数组arr,每个值表示 居民点的一维坐标,再给定一个正数 num,表示邮局数量。...选择num个居民点建立num个 邮局,使所有的居民点到最近邮局的总距离最短,返回最短的总距离。【举例】arr=[1,2,3,4,5,1000],num=2。...第一个邮局建立在 3 位置,第二个邮局建立在 1000 位置。...那么 1 位置到邮局的距离 为 2, 2 位置到邮局距离为 1,3 位置到邮局的距离为 0,4 位置到邮局的距离为 1, 5 位置到邮局的距 离为 2,1000 位置到邮局的距离为 0。...这种方案下的总距离为 6, 其他任何方案的总距离都不会 比该方案的总距离更短,所以返回6。 福大大 答案2021-04-30: 动态规划。 代码用golang编写。

    45920

    Pandas库

    总结来说,Series和DataFrame各有优势,在选择使用哪种数据结构时应根据具体的数据操作需求来决定。如果任务集中在单一列的高效操作上,Series会是更好的选择。...如何在Pandas中实现高效的数据清洗和预处理? 在Pandas中实现高效的数据清洗和预处理,可以通过以下步骤和方法来完成: 处理空值: 使用dropna()函数删除含有缺失值的行或列。...缺失值处理(Missing Value Handling) : 处理缺失值是时间序列数据分析的重要步骤之一。Pandas提供了多种方法来检测和填补缺失值,如线性插值、前向填充和后向填充等。...Pandas允许通过多种方式(如基于索引、列名等)来合并多个DataFrame,从而实现数据的整合。...agg()是aggregate()的简写别名,可以在指定轴上使用一个或多个操作进行聚合。

    1.6K10

    java面试(3)SQL优化

    任何在Order by语句的非索引项或者有计算表达式都将降低查询速度 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如select id...但是第一种有个情况,就是如果一个列的值只有有限的几种,那么A IN (值列表)也是不会使用索引的,因为这种情况,全表扫描比走索引快,优化器会选择走全表扫描的。...TAB_NAME,DB_VER FROM TAB_COLUMNS WHERE VERSION = 604) 使用表的别名(Alias): 当在SQL语句中连接多个表时, 请使用表的别名并把别名前缀于每个...用>=替代> ;用IN来替换OR ;用UNION替换OR;用UNION-ALL 替换UNION ( 如果有可能的话);用WHERE替代ORDER BY 总是使用索引的第一个列: 如果索引是建立在多个列上...不要给类似“性别”列创建索引(即整个列的值只有一两种,十几种的) ,像这种情况的列,一般不会走索引,即便在列上创建了索引,因为这种情况全表扫描还要快于利用索引,优化器会选择性的选择走全表扫描,比如一个列只有四种值

    3.6K20

    深入剖析MySQL数据库约束:原理、应用与实践

    非空性则确保了主键字段的值不能为空,因为空值无法作为有效的唯一标识。每个表只能有一个主键约束,这是为了保证表中数据的唯一性和一致性。如果一个表中有多个主键,就会导致数据的混乱和不一致。...唯一约束的特点之一是同一个表可以有多个唯一约束,这使得我们可以根据业务需求,对多个不同的列或列组合设置唯一性限制。...唯一约束可以是某一个列的值唯一,也可以是多个列组合的值唯一,这为数据库设计提供了更大的灵活性。...唯一约束允许列值为空,这是与主键约束的一个重要区别,即使某列设置了唯一约束,也可以有多个记录的该列值为 NULL,因为 NULL 值不被视为重复值。...从原理上讲,主键约束通过在表中指定一个或多个字段,这些字段的值能够唯一地标识表中的每一行记录,就如同每个人的身份证号码,是独一无二的身份标识。

    50810

    【数据库设计和SQL基础语法】--查询数据--分组查询

    每个分组集合都由一个或多个列组成,代表一个要进行聚合的分组。空括号 () 表示全局总计。...这样,你可以在单个查询中获取多个层次上的聚合结果,而不必分别执行多个查询。...ROLLUP: 语法: 使用 ROLLUP 时,你指定一个列列表,表示要进行多层次分组的列。ROLLUP 生成一个包含每个列组合的聚合值,以及每个列的总计值。...CUBE: 语法: 使用 CUBE 时,你同样指定一个列列表,表示要进行多维度分组的列。CUBE 生成一个包含每个列组合的聚合值,以及所有可能的列组合的总计值。...区别总结: 结果全面性: ROLLUP 生成的结果包含每个列的每个组合的聚合值,以及每个列的总计值。 CUBE 生成的结果不仅包含每个列的每个组合的聚合值,还包含所有可能的列组合的总计值。

    1.6K10
    领券