开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中按组高效地分组数据

可以使用dplyr包中的group_by()和summarize()函数来实现。

首先，使用group_by()函数按照需要分组的变量对数据进行分组。例如，如果要按照某个变量group_var进行分组，可以使用以下代码：

grouped_data <- data %>% group_by(group_var)

接下来，可以使用summarize()函数对每个组进行汇总操作。例如，如果要计算每个组的平均值，可以使用以下代码：

summary_data <- grouped_data %>% summarize(mean_value = mean(value))

在上述代码中，value是需要进行汇总操作的变量，mean_value是计算得到的平均值。

dplyr包提供了许多其他的汇总函数，如sum()、count()、min()、max()等，可以根据需要选择合适的函数进行汇总操作。

对于分类变量，可以使用count()函数计算每个组的频数。例如，如果要计算某个变量category_var的频数，可以使用以下代码：

count_data <- data %>% count(category_var)

以上是按组高效地分组数据的基本方法。在实际应用中，可以根据具体需求进行更复杂的分组和汇总操作。

腾讯云相关产品和产品介绍链接地址：

腾讯云：https://cloud.tencent.com/
云服务器 CVM：https://cloud.tencent.com/product/cvm
云数据库 MySQL：https://cloud.tencent.com/product/cdb_mysql
云原生容器服务 TKE：https://cloud.tencent.com/product/tke
人工智能平台 AI Lab：https://cloud.tencent.com/product/ailab
物联网平台 IoT Hub：https://cloud.tencent.com/product/iothub
移动开发平台 MDP：https://cloud.tencent.com/product/mdp
云存储 COS：https://cloud.tencent.com/product/cos
区块链服务 BaaS：https://cloud.tencent.com/product/baas
元宇宙服务 Metaverse：https://cloud.tencent.com/product/metaverse

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行评估。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【科研猫】基因表达与肿瘤预后：生存分析（1）代码+视频分享

生存分析（Survival Analysis）是研究生存现象和响应时间数据及其统计规律的一种统计学方法，是关联表型与患者预后的重要手段。今天，我们带领大家，看看如何用R语言做生存分析，快速锁定目标基因。

01

【科研猫】生存分析的正确姿势（1）视频+R代码分享

生存分析很重要，如何高效地对两万多个基因批量做生存分析？今天，猎豹师兄带领大家，正确姿势做生存分析，快速锁定目标基因。

01

贪心算法练习题（最小化战斗力差距、谈判、纪念品分组、分糖果）

贪心的基本原理:每一步都选择局部最优解，而尽量不考虑对后续的影响，最终达到全局最优解。

01

《面试季》高频面试题-Group by的进阶用法

在平常的工作中,后端开发或者数据库管理员应该是接触到SQL编写场景最频繁的用户,虽然,我们能够正常的通过需求完成SQL语句的编写,但是还是存在许多的小伙伴对SQL的执行顺序不了解的。其实,了解SQL的执行顺序对我们编写SQL、理解SQL、优化SQL都有很大的帮助,所以在在开始讲解Group by的使用之前,先简单了解下SQL执行的一个顺序。

02

RNAseq纯生信挖掘思路分享？不，主要是送你代码！（建议收藏）

预后模型在纯生信分析中绝对有一席之地，本文简单的介绍下常见的预后模型构建的思路，详细的代码和使用场景见文中对应的推文链接

05

孙剑团队提出移动端神经网络ShuffleNet，优于谷歌MobileNet

【新智元导读】在视觉人工智能系统中，卷积神经网络（CNN）起着至关重要的作用。旷视(Face++)孙剑等人的研究团队最近发表了《ShuffleNet：一种极高效的移动端卷积神经网络》一文，作者针对移动端低功耗设备提出了一种更为高效的卷积模型结构，在大幅降低模型计算复杂度的同时仍然保持了较高的识别精度，并在多个性能指标上均显著超过了同类方法。本文将对该成果进行详细解读。（论文下载地址：https://arxiv.org/abs/1707.01083） ShuffleNet的设计思想卷积神经网络是现代视觉人

06

CondenseNet：可学习分组卷积，原作对DenseNet的轻量化改造 | CVPR 2018

论文:Neural Architecture Search with Reinforcement Learning

05

深入剖析MobileNet和它的变种（例如：ShuffleNet）为什么会变快？

最近在看轻量级网络的东西，发现这篇总结的非常的好，因此就翻译过来！总结各种变种，同时原理图非常的清晰，希望能给大家一些启发，如果觉得不错欢迎三连哈！

03

R Tricks: 如何处理Gaps & Islands问题？

本期大猫课堂将继续上期的R Tricks系列。在这一期中，大猫将向大家介绍“Gaps & Islands Problem”。这是在处理时间序列或者基因组数据中常见的一项任务。虽然常见，但要高效解决可不容易哦！

02

基于曲率的体素聚类的三维激光雷达点云实时鲁棒分割方法

文章：Curved-Voxel Clustering for Accurate Segmentation of 3D LiDAR Point Clouds with Real-Time Performance

02

R语言中的批处理函数

apply函数只能用于处理矩阵类型的数据，也就是说所有的数据必须是同一类型。因此要使用apply函数的话，需要将数据类型转换成矩阵类型。

02

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

python进阶(20) 正则表达式的超详细使用[通俗易懂]

正则表达式(Regular Expression,在代码中常简写为regex、 regexp、RE 或re)是预先定义好的一个“规则字符率”,通过这个“规则字符串”可以匹配、查找和替换那些符合“规则”的文本。虽然文本的查找和替換功能可通过字符串提供的方法实现,但是实现起来极为困难,而且运算效率也很低。而使用正则表达式实现这些功能会比较简单,而且效率很高,唯一的困难之处在于编写合适的正则表达式。 Python 中正则表达式应用非常广泛,如数据挖掘、数据分析、网络爬虫、输入有效性验证等,Python 也提供了利用正则表达式实现文本的匹配、查找和替换等操作的 re 模块。

03

【Python常用函数】一文让你彻底掌握Python中的cut函数

只有把一个语言中的常用函数了如指掌了，才能在处理问题的过程中得心应手，快速地找到最优方案。

03

超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测

基于视觉的3D占用预测旨在估计周围 ego-vehicle 所包围的 3D Voxel 的空间占用状态，这为 3D 场景提供了全面的 3D 理解。通过将整个空间划分为 Voxel 并预测其占用和语义信息，3D 占用网络赋予了通用的物体表示能力，其中超出词汇的物体和异常情况可以很容易地表示为 _[占用；未知]_。

01

【数据结构】手撕排序(排序的概念及意义、直接插入和希尔排序的实现及分析)

排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。稳定性：假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，r[i]=r[j]，且r[i]在r[j]之前，而在排序后的序列中，r[i]仍在r[j]之前，则称这种排序算法是稳定的；否则称为不稳定的。内部排序：数据元素全部放在内存中的排序。外部排序：数据元素太多不能同时放在内存中，根据排序过程的要求不能在内外存之间移动数据的排序。

01

直接插入排序到希尔排序做的那些改进

主要推送关于对算法的思考以及应用的消息。坚信学会如何思考一个算法比单纯地掌握100个知识点重要100倍。本着严谨和准确的态度，目标是撰写实用和启发性的文章，欢迎您的关注，让我们一起进步吧。 01 — 你会学到什么？彻底弄明白常用的排序算法的基本思想，算法的时间和空间复杂度，以及如何选择这些排序算法，确定要解决的问题的最佳排序算法，已经总结了冒泡排序和其改进后的快速排序算法，直接选择排序和堆排序算法，下面总结直接插入排序到希尔排序做的改进，后面再继续总结归并排序和基数排序。 02 — 讨论的问题是什么？各

09

数据库系统概念

数据库是一个持久数据的集合，是长期储存在计算机内的、有组织的、可共享的、可互相关联查询数据的集合。

03

希尔排序

希尔排序（ShellSort）是以它的发明者Donald Shell名字命名的，希尔排序是插入排序的改进版，实现简单，对于中等规模数据的性能表现还不错排序思想前情回顾：直接插入排序（对插入排序不熟

06

以卖香蕉为例，从4个方面了解SQL的数据汇总

导读：面对一个新数据集时，人们往往会关心数据中的异常值、数据的分布形式、行列之间的关系等。SQL是一种专为数据计算设计的语言，其中已经内置了许多数据汇总函数，也支持用户编写SQL命令实现更为复杂的汇总需求。

03

C#进阶-LINQ表达式之GroupBy分组查询

本篇文章我们将演示LINQ扩展包基础语法里的GroupBy分组查询，并实现投影等实际操作中常用的类型转换手法。目前LINQ支持两种语法，我会在每个案例前先用大家熟知的SQL语句表达，再在后面用C#的两种LINQ语法分别实现。LINQ语法第一次接触难免感到陌生，最好的学习方式就是在项目中多去使用，相信会有很多感悟。

02

希尔排序

希尔排序（ShellSort）是以它的发明者Donald Shell名字命名的，希尔排序是插入排序的改进版，实现简单，对于中等规模数据的性能表现还不错

01

批量统计比较，听说你想要很久了？安排！

统计学一直是让医学生头疼的课程，文章中各式各样的统计方法让人云里雾里。举个简单的例子，两组之间的比较，该怎么分析？你肯跟会说用t检验，不过t检验一定是正确的吗？是否方差齐性，是否正态分布，这些都是我们要关心的，如果方差不齐，我们该怎么办？如果有很多分组，我们两两之间必要，也要花费很多的时间。那有没有什么快速、高效、准确的方法，能够让我们快速准确绘制统计检验的图形呢？哈哈，今天我们就来学习一下如何用最快最简单的方式完成统计检验和绘制发表级的图片吧！

02

人人都能读懂的无监督学习：什么是聚类和降维？

可以说机器学习已经成为了改变时代的大事，一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人类读得懂的机器学习（Machine Learning for Humans）》，用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了这一系列文章的第三部分「无监督学习」，对主要的聚类和降维算法进行了介绍，其中

04

一文详解聚类和降维（附实例、代码）

来源：机器之心作者：Vishal Maini 本文长度为3500字，建议阅读6分钟本文对无监督学习的聚类和降维算法进行介绍，其中包括 K 均值聚类、层次聚类、主成分分析（PCA）和奇异值分解（SVD）。我们可以怎样发现一个数据集的底层结构？我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为「无监督」，是因为这是从无标签的数据开始学习的。我们将在这里探索的两种无监督学习任务是：将数据按相似度聚类（clustering）成不同的分

08

AABO：自适应Anchor设置优化，性能榨取的最后一步 | ECCV 2020 Spotlight

论文: AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling

00

FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation

最近的长尾实例分割方法在训练数据很少的稀有目标类上仍然很困难。我们提出了一种简单而有效的方法，即特征增强和采样自适应（FASA），该方法通过增强特征空间来解决数据稀缺问题，特别是对于稀有类。特征增强（FA）和特征采样组件都适用于实际训练状态——FA由过去迭代中观察到的真实样本的特征均值和方差决定，我们以自适应损失的方式对生成的虚拟特征进行采样，以避免过度拟合。FASA不需要任何精心设计的损失，并消除了类间迁移学习的需要，因为类间迁移通常涉及大量成本和手动定义的头/尾班组。我们展示了FASA是一种快速、通用的方法，可以很容易地插入到标准或长尾分割框架中，具有一致的性能增益和很少的附加成本。

01

移动端高效网络，卷积拆分和分组的精髓

在移动端高效的模型设计中，卷积拆分和分组几乎是不可缺少的思想，那么它们究竟是如何高效，本身又有哪些发展呢。

04

WeightNet：从SENet和CondConv得出的高效权值生成结构 | ECCV 2020

论文: WeightNet: Revisiting the Design Space of Weight Networks

02

人人都能读懂的无监督学习：什么是聚类和降维？

选自Medium 作者：Vishal Maini 机器之心编译参与：Panda 机器学习已经成为了改变时代的大事，一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人人读得懂的机器学习（Machine Learning for Humans）》，用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了

一行代码搞定分组回归

在目前为止所有小伙伴们向大猫请教过的R问题中，大猫总结了最常遇见同时也是比较难的三个问题，分别是（1）事件研究法；（2）分组回归；（3）滚动回归。事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~

04

R语言数据清洗实战——高效list解析方案

list是R语言中包容性最强的数据对象，几乎可以容乃所有的其他数据类型。但是包容性最强也也意味着他对于内部子对象的类型限制最少，甚至内部可以存在递归结构，这样给我们提取数据带来了很大的困难。如果你对R语言的list结构非常熟悉，又熟练控制流等函数的操作，自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下，自建循环无论是性能还是代码量上都很不经济。好在确实有开发者在针对list数据结构进行操作上的优化，任坤老师的大作——rlist就是一个强大的list解析神器，它可以让我们像

04

m6A甲基化数据分析流程

前面我们简单介绍过m6A RNA甲基化修饰特征,以及RNA m6A修饰发文套路大揭秘。那么今天小天就和大家一起探讨一下，m6A甲基化数据分析的基本流程。

04

Python 正则表达模块详解

正则表达式(Regluar Expressions)又称规则表达式,这个概念最初是由Unix中的工具软件(如sed 和 grep)普及开的,正则表达式在代码中常简写为RES,它本质上是一个小巧的、高度专用的编程语言,许多程序设计语言都支持通过正则表达式进行字符串操作,通俗的来讲,正则就是用一些具有特殊含义的符号组合到一起来描述字符或者字符串的方法,正则模块内嵌在Python中,并通过re模块实现,正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行.

02

清华&华为提出AABO：自适应最优化Anchor设置，性能榨取的最后一步 | ECCV 2020 Spotlight

论文提出超参数优化方法AABO，该方法核心基于贝叶斯优化和Sub-Sample方法，能够自适应的搜索最优的anchor设置。从实验结果来看，AABO能够仅通过anchor设置优化，为SOTA目标检测方法带来1.4%～2.4%的性能提升

02

《深入浅出密码学》——读书笔记（更新中）

h1 { text-align: center } h2 { text-align: center } .picture { text-align: center } thead th, tfoot th { text-align: left; background: grey; color: white } tbody th { text-align: left; background: Gainsboro; color:white }

05

深度学习基础入门篇[9.3]：卷积算子：空洞卷积、分组卷积、可分离卷积、可变性卷积等详细讲解以及应用场景和应用实例剖析

在像素级预测问题中（比如语义分割，这里以FCN1为例进行说明），图像输入到网络中，FCN先如同传统的CNN网络一样对图像做卷积以及池化计算，降低特征图尺寸的同时增大感受野。但是由于图像分割是一种像素级的预测问题，因此我们使用转置卷积（Transpose Convolution）进行上采样使得输出图像的尺寸与原始的输入图像保持一致。综上，在这种像素级预测问题中，就有两个关键步骤：首先是使用卷积或者池化操作减小图像尺寸，增大感受野；其次是使用上采样扩大图像尺寸。但是，使用卷积或者池化操作进行下采样会导致一个非常严重的问题：图像细节信息被丢失，小物体信息将无法被重建(假设有4个步长为2的池化层，则任何小于 $2^4$pixel 的物体信息将理论上无法重建)。

04

Graphpad，经典绘图工具初学初探

大多数科研文章都离不开图表，尤其是图，熟悉一些绘图软件，并将图在文章和PPT中展示出来，是科研训练的重要内容。漂亮的文章配图能给自己的工作加不少分，生信宝典推出R的系列教程ggplot2高效实用指南 (可视化脚本、工具、套路、配色)讲解通过R语言绘制高颜值图。后来为了更加方便使用，生信宝典团队开发了在线绘图工具www.ehbio.com/ImageGP，支持14中常见图形和部分扩增子分析，深受欢迎，日均访问400次，累计访问数十万次，遍及世界各大洲，功能也在一直增加完善中。

01

Python实现希尔排序

希尔排序(Shell's Sort)，也被称为递减增量排序算法(Diminishing Increment Sort)，是插入排序的一种更高效的改进排序算法。

04

综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率

选自arXiv 作者：Andrea Banino等机器之心编译编辑：陈萍、杜伟来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体，它结合了新的对比损失以及混合 LSTM-transformer 架构，可以提高处理数据效率。实验表明，CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。近些年，多智能体强化学习取得了突破性进展，例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中击败了职业星际玩家，超过了 99.8

01

shuffleNet_期刊论文读书笔记

ShuffleNet是Face++在2017年发布的一个极有效率且可以运行在手机等移动设备上的网络结构，文章也发表在了CVPR2018上，原文可见ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices。

01

Python爬虫之快速入门正则表达式

当完成了网页html的download之后，下一步当然是从网页中解析我们想要的数据了。那如何解析这些网页呢？Python中有许多种操作简单且高效的工具可以协助我们来解析html或者xml，学会这些工具抓取数据是很容易了。

03

Python正则表达式指南

本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。 1. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大

07

【AI不惑境】移动端高效网络，卷积拆分和分组的精髓

然后将这个卷积的步骤分解为3个独立的方向[1]，即通道方向，X方向和Y方向，如上图(b)，则具有更低的计算量和参数量。

03

SQL 子查询怎么优化？写的很深！

子查询（Subquery）的优化一直以来都是 SQL 查询优化中的难点之一。关联子查询的基本执行方式类似于 Nested-Loop，但是这种执行方式的效率常常低到难以忍受。当数据量稍大时，必须在优化器中对其进行去关联化（Decoorelation 或 Unnesting），将其改写为类似于 Semi-Join 这样的更高效的算子。

03

python3正则表达式的几个高级用法

python3正则表达式的几个高级用法一、概述本文举例说明python3正则表达式的一些高级级法，主要是各类分组，可应用于 1、复杂网页文件中的有用数据例如，采用爬虫技术取得网页后，对网页内任何数据进行提取分析 2、各类配置文件可能是属性文件，读取属性文件中的键值对可能是数据库各类查询的复杂匹配的参数解析，类似mybatis的动态sql语句解析，hib

00

ESPNet/ESPNetV2：空洞卷积金字塔 | 轻量级网络

论文: ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

03

目标检测涨点小Trick | 回顾Proposal-Based目标检测，启发小改NMS即可带来涨点

目标检测是计算机视觉中一个长期存在的挑战，其目标是在图像库中空间上定位和分类目标框。在过去的十年中，由于检测管道各个阶段的许多进步，目标检测取得了惊人的进展。目标检测Backbone的演变，从R-CNN的基础性转变到Faster R-CNN，以及改变范式的YOLO架构，再到最近将Transformer网络集成进来，代表了在增强特征提取和检测能力方面取得的重要进展。

01

Briefings in Bioinformatics | 王秀杰/裴小兵合作开发单细胞组学细胞标记基因鉴定算法COSG

在单细胞测序数据分析中，对细胞进行准确分类是数据分析的重要基础。在利用聚类算法将细胞进行分组后，需要通过鉴定不同细胞群特异表达的标记基因来注释细胞类型。同时，细胞标记基因在所有细胞类群中的表达模式也能够帮助判断聚类、标准化、批次效应校正等分析结果的准确性，进而进行参数优化。然而，如何准确鉴定不同细胞类型的细胞标记基因 (cell marker gene)仍面临巨大的挑战。

02

程序员必须掌握的排序算法：希尔排序的原理与实现

希尔排序，不知道大家有没有感觉听起来都很吊吊的样子。事实也确实如此，希尔排序的性能在八大排序中某些特定情况是最强的，也是我们必学的高效算法之一。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭