开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中，为了将相同的过程应用于许多子集，我们是分组还是循环？

在R中，为了将相同的过程应用于许多子集，我们通常使用分组而不是循环。

分组是指将数据按照某个变量或条件进行分割，然后对每个子集应用相同的过程。在R中，可以使用dplyr包中的group_by函数来实现数据分组。通过group_by函数，我们可以将数据按照某个变量进行分组，并在每个分组上应用相同的操作。

例如，假设我们有一个包含学生姓名和成绩的数据集，我们想要计算每个班级的平均成绩。我们可以使用group_by函数将数据按照班级进行分组，然后使用summarize函数计算每个班级的平均成绩。

library(dplyr)

# 创建示例数据集
data <- data.frame(
  student = c("Alice", "Bob", "Charlie", "Dave", "Eve"),
  class = c("A", "B", "A", "B", "A"),
  score = c(90, 85, 95, 80, 92)
)

# 按照班级进行分组，并计算平均成绩
result <- data %>%
  group_by(class) %>%
  summarize(average_score = mean(score))

# 输出结果
print(result)

这样，我们就可以得到每个班级的平均成绩。

在这个例子中，我们使用了dplyr包中的group_by和summarize函数来实现数据分组和计算平均值。dplyr是一个常用的数据处理包，它提供了一组简洁而强大的函数，可以方便地进行数据分组、筛选、排序、汇总等操作。

对于R中的分组操作，腾讯云提供了云原生数据库TDSQL和云数据库CDB等产品，可以帮助用户高效地存储和处理大规模数据，并提供了丰富的分析和计算能力。您可以通过以下链接了解更多信息：

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言系列第三期：②R语言多组汇总及图形展示

事实上，我们在实验中或者调查之后的分析往往希望通过分组比较来获得有统计学意义的结果，因此分组数据在我们平常的工作中更加常见，也更加科学严谨，那么我们就来了解下分组数据的描述。...在这里我们就得介绍一下R的隐式循环了，之前我们学习过while循环，repeat，break循环，for循环；循环的一个常用功能是把一个函数应用到一组值或者向量中的每一个元素，并将结果返回。...上述情况是不同变量的相同操作，如果是对不同组的相同变量操作，应该怎么实现呢？...列表元素的名称通常作为输出结果列的名称。由于函数应用于整个数据框，所以可以选择数据框的子集进行运算，这里是选择了数值变量。...前一个里有一个“~”y~x前后的两个元素关系是用x表达y。这是我们在模型公式里经常看到的符号。之后在回归方程的建立过程中经常使用。

1.7K0 0

SQL 为什么动不动就 N 百行以 K 计

将所有的前 10 名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是 SQL 不支持的，办法就行不通了。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。..., 'MMDD') from employee group by to_char(birthday, 'MMDD') having count(*)>1 ) 分组的本意是将源集合分拆成的多个子集合

3853 0

R语言中 apply 函数详解

apply函数集来转换R中的数据介绍数据操作是机器学习生命周期中最关键的步骤之一。...这里， X是指我们将对其应用操作的数据集（在本例中是矩阵） MARGIN参数允许我们指定是按行还是按列应用操作行边距=1 列边距=2 FUN指的是我们想要在X上“应用”的任何用户定义或内置函数让我们看看计算每行平均数的简单示例...因此，在处理具有不同数据类型特性的数据帧时，最好使用vapply()。 tapply() 简单地说，tapply()允许我们将数据分组，并对每个分组执行操作。...我们将item_qty向量按item_cat向量分组，以创建向量的子集。然后我们计算每个子集的平均值。...尾注到目前为止，我们学习了R中apply()函数族中的各种函数。这些函数集提供了在一瞬间对数据应用各种操作的极其有效的方法。本文介绍了这些函数的基础知识，目的是让你了解这些函数是如何工作的。

20.2K4 0

SQL 为什么动不动就 N 百行以 K 计

将所有的前 10 名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是 SQL 不支持的，办法就行不通了。...如果有窗口函数的支持，可以转换思路，按产品分组后，计算每个销售员在所有分组的前 10 名中出现的次数，若与产品总数相同，则表示该销售员在所有产品销售额中均前在前 10 名内。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。

5145 0

SQL为什么动不动就N百行以K计

将所有的前10名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是SQL不支持的，办法就行不通了。...如果有窗口函数的支持，可以转换思路，按产品分组后，计算每个销售员在所有分组的前10名中出现的次数，若与产品总数相同，则表示该销售员在所有产品销售额中均在前10名内。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的SQL的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。

3511 0

ImageNet训练再创纪录，EfficientNet异军突起，ResNet：感受到了威胁

例如，如果我们将每核的批处理大小固定为32，则1024个核上的全局批处理大小将为32768。...为了解决这个问题，作者将线性缩放规则应用于批次中每256个样本的学习率。但是，较高的学习率会导致发散。因此，作者还应用了学习率预热，其中训练以较小的初始学习率开始，并在可调整的时期内逐渐提高学习率。...分布式评估评估循环的执行是EfficientNet的标准云TPU实现的另一个计算瓶颈，因为评估和训练循环是在单独的TPU上执行的。...分布式批处理归一化作者使用Ying等人提出的方案，通过将副本的子集分组在一起，在副本之间分布批处理归一化。这种优化可通过权衡TPU之间的通信成本来提高最终精度。分组在一起的副本数是可调超参数。...最终的批次归一化批次大小（每个副本子集中的样本总数）也会影响模型质量以及收敛速度。对于大于16的副本子集，作者还探索了将副本分组在一起的二维切片方法。

1.1K3 0

粒子群优化算法(PSO)之基于离散化的特征选择(FS)（二）

前面我们介绍了特征选择(Feature Selection，FS)与离散化数据的重要性，总览的介绍了PSO在FS中的重要性和一些常用的方法。...与随机生成不同，EC是一种随机的方法，它应用进化原理或群智能来从当前的子集生成更好的子集。PSO是一种应用于FS的群体智能技术，并显示了其有效性。...在此领域提出了许多不同策略的离散化方法。但是，它们都具有相同的目的，即确定将特征值分割为离散值的分割点。在特征值的范围内，分割点或分点是真正的值，这些值被用来分割这个范围到若干个间隔。...一种方法也属于单变量或多变量，这取决于特征是离散的还是多个特性的离散化，同时考虑特征之间的交互。等宽和等频是两种简单的无监督方法。它们将特性离散为一个预定义的m间隔，具有相同的宽度或相同数量的值。...另一种通过离散化的方法是基于离散化过程中计算出的一些度量方法进行排序。然后，将选择一些级别最高的特征。这个方法的一个例子是PEAR，其中的特性是从最小的切点数量到最大的。

9975 0

J. Chem. Inf. Model. | 能否快速学习使用Transformer模型“翻译”生物活性分子？

通过对Transformer模型在ChEMBL亚集上对COX2、DRD2或HERG蛋白靶点结合的配体的性能进行回顾性分析，作者证明尽管模型在训练过程中没有看到任何对应蛋白靶点活性的配体，但模型仍能生成与大多数活性配体相同或高度相似的结构...特别是，将Transformer模型应用于活性扩展的思想将其视为已知对某个靶点具有活性的分子“翻译”成对同一靶点应该具有活性（最好是更活性）的新型分子的过程（图1b）。...实验结果图 2 作者首先探讨的问题是在训练过程中，Transformer模型的常见信息理论评分与模型输出的化学评分之间的关系。...值得注意的是，在训练的相同阶段（第10至12个epoch），我们观察到模型的化学评分模式发生了定性变化。...然后将相同的过程应用于生成由Transformer机器学习模型（经过10个epoch的训练和过滤截断值为50）输出的分子与来自验证子集的输入分子之间的所有合理的SMIRKS。

2704 0

SQL开源替代品，诞生了！

换一种思路： 1．将数据按产品分组，将每组排序，取出前 10 名； 2．将所有的前 10 名取交集；但这样需要把第一步的分组结果保存起来，而这个中间结果是一个表，其中有个字段要存储对应的分组成员中的前...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的下一个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。...使用 SQL 时无法描述此过程，需要转换思路，计算从初始日期到当日的累计不涨日数，不涨日数相同者即是连续上涨的交易日，针对其分组即可拆出连续上涨的区间，再求其最大计数。

2251 0

算法研习：决策树算法基本原理分析

决策树(Decision Trees，DT)是一中监督机器学习算法，该算法根据数据的特征进行逐层划分直到划分完所有的特征，这一过程类似于树叶生长过程。...CART：CART根据目标变量是分类还是回归分别生成二进制分类或回归树。它以原始形式处理数据，并且可以在同一DT的不同部分中多次使用相同的变量，这可以揭示变量集之间复杂的相互依赖性。...增益比率是通过在选择属性时考虑分支的数量和大小，减少了具有大量分支的DT的偏差。此外C4.5还包含一种窗口化的技术，该技术最初是为了克服早期计算机的内存限制而开发的。...否则，将所有错误分类的数据点添加到窗口中，并且循环重复直到训练集中的每个实例被当前DT正确分类。该技术使DT具有更高的准确率。...在迭代过程中，我们可以在每个子节点重复这个分裂过程，这意味着每个叶节点处的样本都属于同一个类。同时我们可以设置树的深度来防止过度拟合。决策树分类示例如下图所示： ? ?

1.7K1 0

为内存塞不下Transformer犯愁？OpenAI应用AI研究负责人写了份指南

Q-BERT 将分组量化应用于微调的 BERT 模型，将 MHSA（多头自注意力）中每个头的单个矩阵 W 视为一个组，然后应用基于 Hessian 矩阵的混合精度量化。...超参数 α 控制从激活函数迁移到权重的程度。该研究发现 α=0.5 是实验中许多 LLM 的最佳取值。对于激活异常值较大的模型，可以将 α 调大。...(1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能，以保持参数的数量或满足特殊限制，如 N:M 稀疏性。只要两个矩阵对应的轴按相同的顺序排列，矩阵乘法的结果就不会改变。...稀疏向后传递：然后将梯度应用于更大的参数子集 , 其中 B 包含 (D+M)， A⊂B。扩大需要更新的权重比例可以更有效地探索不同的剪枝掩码，从而更有可能将前 D% 的激活权重排列好。...路由策略改进 MoE 层有一个路由网络来为每个输入 token 分配一个专家子集。原生 MoE 模型中的路由策略是将每个 token 以不同的方式路由到按自然顺序出现的首选专家。

1.7K3 0

《数据库系统实现》学习笔记

如果关系R不是聚集的，即元组分散在不同的硬盘块中，那么表扫描的代价就是T，如果关系R能够全部装进内存，那排序扫描的代价也是T。 4.1.6 实现物理操作符的迭代器许多物理操作符可以实现为迭代器。...要求：B(\delta(R)) <= M 在open方法中非阻塞分组在内存中为分组创建一个项，在项中存有分组的属性值和聚集的一个或者多个累计值。对于MIN或MAX，只需要存一个最小值或最大值。...4.4.3 利用排序进行分组和聚集在阶段1中，取分组属性作为排序关键字。在阶段2的归并流程2中，先判断是否有分组属性值相同的元组，有就做聚集操作，没有就直接输出。...有三中类型定律，这取决于下推选择到每个参数是可选的还是必须的。对于并，选择必须下推到两个参数中。对于差，选择必须下推到第一个参数，下推到第二个参数是可选的。...参数从一个运算符传送到下一个运算符的方式。为了做出每项选择，我们需要知道各个物理计划的代价是多少，在没有执行计划的前提下，我们不能准确地知道其代价。

2.5K2 0

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读

推荐系统的核心是机器学习（Machine learning, ML），它被广泛应用于构建各种类型的推荐系统中：从视频到图书，再到电商平台等。...因此，序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点，无论它们是出现在序列中当前输入点之前还是之后。...因此，研究者将第一个测试子集称为「非延续」，在这个子集中，我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。...为了衡量这一点，团队在测试集的子集上对模型进行了评估，在这个子集上，学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。可以发现，「STUDY 」在几乎所有评估中，都优于其他模型。...在提出的模型中，研究人员将同一年级和学校的所有学生进行分组。然后试验了由同一年级和同一学区的所有学生定义的分组，以及将所有学生归入一个组中，并在每次前向传递时使用随机子集的分组。

1461 0

CVPR 2020 | 一种频域深度学习

在下游任务中，我们的模型采用与经典神经网络（如ResNet-50、MobileNetV2和Mask R-CNN）相同的结构，但接受频域信息作为输入。...当输入尺寸减半时，所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外，我们观察到在COCO数据集上的分割任务中，Mask R-CNN的平均精度提高了0.8%。...在 DCT reshape 操作中，类似于JPEG压缩标准在YCbCr颜色空间上使用8×8的DCT变换，我们将所有8×8块中相同频率的分量分组到一个通道中，保持它们在每个频率上的空间关系。...例如，如果张量4中第i个通道的两个数字是7.5和2.5，则第i个门关闭的概率为75%。换句话说，张量5中的第i个频率通道在75%的时间内都变为零，这有效地阻止了该频率通道在推断过程中的使用。...这三者之间 top1 准确性的变化几乎可以忽略不计，而且它们的性能都比基准的ResNet-50高出大约1.4%。这表明，只要选择了大多数低频率通道，所提出的频域学习就可以应用于许多任务。

7134 1

图

在点对点网络中，比如BitTorrent，广度优先搜索用于查找所有邻居节点。搜索引擎中的爬虫。社交网站：在社交网络中，我们可以找到某个特定的人距离为“K”的所有人。...3->3这样的自循环也可以认为是一条后向边。为了检测图中的后向边，对DFS递归函数的中递归栈进行跟踪。如果我们当前遍历的顶点出现在递归栈中，那么就认为存在一条后向边，图中存在循环。...数组就更新为下面这样 0 1 2 1 -1 -1 然后是1-2边：1在子集1中，2在子集2中，不在同一个子集，于是union起来，将子集1置于子集2下面。...结果如下 0 1 2 1 2 -1 最后是0-2边：0在子集2中（0在子集1中，子集1在子集2中），2也在子集2中。那么加上这条边就形成一个环。...例如，下面图的拓扑排序是“5 4 2 3 1 0”,拓扑排序次序并不唯一。 ? 拓扑排序过程：将DFS修改一下就行了。

1.8K1 0

5分钟Flink - 流处理API转换算子集合

Windows会根据某些特征（例如，最近5秒钟内到达的数据）对所有流事件进行分组。警告：*在许多情况下，这是非并行*转换。...Union之前两个流的类型必须是一样，Connect可以不一样，在之后的coMap中再去调整成为一样的。2. Connect只能操作两个流，Union可以操作多个。...，在流中创建“反馈”循环。...在存在数据偏斜的情况下对性能优化有用. dataStream.rebalance() Rescaling DataStream → DataStream 将元素循环地分区到下游操作的子集。...Flink会将具有相同插槽共享组的操作放入同一插槽，同时将没有插槽共享组的操作保留在其他插槽中。这可以用来隔离插槽。如果所有输入操作都在同一插槽共享组中，则插槽共享组将从输入操作继承。

9721 0

一文概览无监督聚类算法有多少 | 算法基础（10）

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性。 ?...一个好的划分的一般准备是：同一个簇中的对象尽可能相互接近或相关，而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类，而不是搜索整个数据空间。...d.k-medoids：在迭代过程中选择簇中的某点作为聚点，PAM是典型的k-medoids算法。 e.CLARA: CLARA算法在PAM的基础上采用了抽样技术，能够处理大规模数据。...例如，在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。 ? 　　...代表算法有： “ a.STING：利用网格单元保存数据统计信息，从而实现多分辨率的聚类　　b.WaveCluster：在聚类分析中引入了小波变换的原理，主要应用于信号处理领域。

2.3K2 0

DeepMark++: 详细解读基于CenterNet的服装检测，DeepFashion2比赛第二名方案

主要方法是将语义关键点分组和作者提出的后处理技术结合获得了更高的精度，在DeepFashion2的验证集上，边界框检测任务精度为0.735 mAP，特征点检测任务精度为0.591 mAP。...在将点回归到框的过程中, 会选择这个位置上的置信度比其他8个邻域位置置信度都要高的点。...为了优化关键点的位置，将带有概率的heatmap用于每种关键点类型，在heatmap中具有高置信度的局部最大值用作确定的关键点位置。...考虑到训练过程，可以假设每个目标物体的8个相邻像素都与同一目标物体相关。这个事实可以用来改善每个热图值的估计。因此，我们应用以下公式： ? 其中星号表示卷积运算，G（σ）是标准差为σ的3×3高斯核。...实验结果表明，在我们的模型中，所提出的技术改进了与目标物体中心点的定位或关键点及其得分相对应的峰值。

1.3K2 0

什么是 RevoScaleR？

RevoScaleR 中的函数用于在执行分析之前将数据导入 XDF，但您也可以直接处理存储在文本、SPSS 或 SAS 文件或 ODBC 连接中的数据，或者将数据文件的子集提取到内存以供进一步分析。...使用 RevoScaleR 进行数据管理和分析 RevoScaleR 提供可扩展的数据管理和分析功能。这些函数可以与内存中的数据集一起使用，并以相同的方式应用于存储在磁盘上的巨大数据集。...Local 是默认设置，它支持所有数据源输入。顾名思义，本地计算上下文仅使用本地计算机的物理内核。RevoScaleR 在 R 客户端和机器学习服务器实例上提供本地计算上下文。...在 RevoScaleR 的数据步进功能中，您可以指定 R 表达式来转换特定变量，并在从 .xdf 文件中读取数据时将它们自动应用于单个数据框或每个数据块。...特别是，您可以放宽以前需要的假设。例如，您可以将自变量分解为许多类别，以提供完全灵活的函数形式，而不是在模型中假设线性或多项式函数形式。大数据集提供的多自由度，结合 RevoScaleR 的效率，

1.3K0 0

模块化、反事实推理、特征分离，「因果表示学习」的最新研究都在讲什么？

在这篇文章中，我们选了几篇关于因果表示学习的最新文献，其中涉及了基于 SCM 和基于 RCM 的工作。我们主要分析了不同方法的基本架构，目的是对因果学习应用于机器学习的方向和可能一探究竟。...机器学习试图揭示和使用物理世界中的规律，在动态环境中，我们认为一个整体系统是由一些相当独立的子系统组成的，这些子系统随着时间的推移而发展，对力和干预做出反应」，以及，「这些子系统在物理过程中受力和干预的影响...在 RIM 架构中，将模型划分为 k 个子系统，其中每个子系统都可以单独的捕获转换动态，具体的，每个子系统设置为一个循环独立机（RIM），每个 RIM 基于自身函数、利用训练数据自动学习。...这一思想目前广泛应用于最新的 transformer 的多头点乘自注意力模型，并在许多任务中获得了很好的效果。...然而，在大多数实际情况下，测试数据是从只与训练数据的分布相关但不完全相同的分布中提取的。在因果推理中，这也是一个很大的挑战，反事实分布一般会与事实分布不同。

1.3K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭