开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

ddply在R中拆分大量类别的问题

在R中，ddply是一个用于拆分数据集并对每个组应用函数的函数。它是plyr包中的一个重要函数，plyr包是一个用于分层数据处理和透视表操作的R包。ddply可以处理大量类别的数据，因为它使用了分层数据处理的方法。

ddply的语法如下：

ddply(data, .variables, .fun = NULL, ..., .progress = "none", .inform = FALSE, .print = FALSE, .parallel = FALSE, .par_opts = NULL, .drop = FALSE)

其中，data是要处理的数据集，.variables是一个字符向量，表示要拆分的变量，.fun是要应用的函数，...是传递给函数的其他参数。

使用ddply处理大量类别的数据时，可以使用.drop参数来控制是否删除未使用的因子水平。如果.drop = FALSE，则保留所有水平，即使它们在数据集中没有出现。这对于处理缺失数据或者类别不平衡的数据集非常有用。

例如，假设我们有一个数据集data，其中包含两个变量x和y，我们想要计算每个类别的x的平均值。我们可以使用以下代码：

ddply(data, .(x), summarize, mean_y = mean(y))

这将返回一个新的数据集，其中包含每个类别的x的平均值。

腾讯云提供了一些云计算服务，可以帮助用户处理大量类别的数据。例如，腾讯云的云数据库（TencentDB）可以存储和管理大量数据，腾讯云的云服务器（CVM）可以提供计算能力，腾讯云的云API网关（API Gateway）可以处理API请求。这些服务可以帮助用户快速构建和部署应用程序，同时提供可靠的性能和安全性。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

深度 | 在 R 中估计 GARCH 参数存在的问题

我用 rugarch 进行了一次快速实验，看起来它同样被这个问题困扰。下面是我运行的代码，我会尽快在明天贴出一份全面的研究。...在原假设下，滚珠轴承的平均直径不会改变，而在备择假设中，在制造过程中的某些未知点处，机器变得未校准并且滚珠轴承的平均直径发生变化。然后，检验在这两个假设之间做出决定。...我在本文中强调的问题让我更加意识到选择在优化方法中的重要性。我最初的目标是编写一个函数，用于根据 GARCH 模型中的结构性变化执行统计检验。...这是一个我自认知之甚少的主题，如果 R 社区中的某个人已经观察到了这种行为并且知道如何解决它，我希望他们会在评论或电子邮件中告诉我。...我之前从未怀疑或质疑过统计软件的计算结果，甚至没有考虑过这个问题。今后在处理其他统计模型的参数估计问题时，务必首先用模拟数据检验一下相关软件的结果稳健性。

6.6K1 0

在 R 中估计 GARCH 参数存在问题（基于 rugarch 包）

一年前我写了一篇文章，关于在 R 中估计 GARCH(1, 1) 模型参数时遇到的问题。我记录了参数估计的行为（重点是 β ），以及使用 fGarch 计算这些估计值时发现的病态行为。...我在 R 社区呼吁帮助，包括通过 R Finance 邮件列表发送我的博客文章。反馈没有让我感到失望。...我不会像我在第一篇文章中那样画图，这些图只是为了表明存在的问题及其严重性。相反，我将考察由不同优化程序生成的估计器的特性。...看起来我在上一篇文章中记录的问题并没有消失。出于好奇，在 Prof. Santos 建议范围的其他指定会发生什么？...正如 Vivek Rao 在 R-SIG-Finance 邮件列表中所说，“最佳”估计是最大化似然函数（或等效地，对数似然函数）的估计，在上一篇文章中我忽略了检查对数似然函数值。

4.4K3 1

深度 | 在R中估计GARCH参数存在的问题（续）

本期作者：徐瑞龙未经授权，严禁转载本文承接《在 R 中估计 GARCH 参数存在的问题》在之前的博客《在 R 中估计 GARCH 参数存在的问题》中，Curtis Miller 讨论了 fGarch...rugarch 包的使用 rugarch 包中负责估计 GARCH 模型参数的最主要函数是 ugarchfit，不过在调用该函数值前要用函数 ugarchspec 创建一个特殊对象，用来固定 GARCH...0, 0), include.mean = FALSE)) g <- ugarchfit(spec = garch_mod, data = srs) 需要注意的是 g 是一个 S4 类。...g_20p)# omega alpha1 beta1 # 0.03370291 0.09823614 0.79988068 再用 10000 个模拟样本试试，如果使用日线级别的数据的话...为了解决非大样本情况下估计的稳定性问题，有必要找到一种 bootstrap 方法，人为扩充现实问题中有限的样本量；或者借鉴机器学习的思路，对参数施加正则化约束。

2K3 0

过快、过量、过度：三类数据驱动型决策中的常见问题(附大量资源)

（注：本文附大量外链资料，建议先收藏再查看）过快：急于求成还没找到实际问题就提出解决方案不要担心在定位问题上花费太多时间。...无论你是在思考一个新的产品特性，对公司未来发展方向的战略决策，建立机器学习模型，还是给你的同事写邮件，都要确保你有花时间去了解项目的真正需求，而不是浪费了大量时间和精力后才发现方向错了。...比如在数据科学领域，建立模型前必须要了解该模型是为了加强调用（你的模型在多大程度上可以反馈特定数据），还是加强准确性（在所有正向预测中，有多少是准确的）。...我推荐大家了解下Dave McClure的演讲，他将项目开发的指标分成了五类：用户获取用户激活用户留存用户推荐收益增加（相关链接：http://www.slideshare.net/dmc500hats...“相关性不一定是因果关系”在统计学中，这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。

5385 0

PHP函数uasort()在类中的使用问题解决

今天在类中使用 uasort() 函数时发现报了错误:Warning: uasort() expects parameter 2 to be a valid callback ..., 然而直接在纯 php...页面测试的时候发现又没问题....要是改成PHP页面的话,则无问题: 在类里这样调用:uasort($ary, array($this,"compareByMargin")) 就可以了....这样明确告诉编译器是指向当前类的compareByMargin函数.

3.7K9 0

【R语言在最优化中的应用】lpSolve包解决指派问题和指派问题

解：总产量等于总销量，都为48 个单位，这是一个产销平衡的运输问题。R代码及运行结果如下: ?...R中，lpSolve包提供了函数lp.assign() 来求解标准指派问题，其用法如下： lp.assign(cost.mat,direction = "min", presolve = 0, compute.sens...R代码及运行结果如下: 1 > library(lpSolve) 2 >x=matrix(c(4,7,6,6,6,8,9,9,7,9,7,17,12,14,12, 3 + 15,14,8,6,10,12,10,7,10,6...在实际应用中，常会遇到各种非标准形式的指派问题，有时不能直接调用函数，处理方法是将它们化为标准形式(胡运权, 2007)，然后再通过标准方法求解。...同运输问题一样，LINGO 在解决指派问题时，也必须通过各种命令建立数据集、模型、目标函数、约束函数等，比较繁琐，相比之下，R两三句代码就可以快速解决问题，较之LINGO 软件，的确方便快捷了许多。

5.2K3 0

10个令人相见恨晚的R语言包

和其他语言（比如Python和Java）相比，R可以更模糊和麻烦。好消息是，有大量的包可以在R基础库上提供简单和熟悉的界面。这篇文章是我喜欢和每天使用的10个包，并且我希望自己能早些知道他们。...在R中，apply函数族是在对列表或者向量每个元素调用函数的首选方法。虽然R基础库中有这些函数，但它们的使用可能难以掌握。...plyr 给予你一些函数 (ddply, daply, dlply, adply, ldply)按照常见的蓝图：将数据结构分组拆分，对每个组应用一个函数，将结果返回到数据结构中。...你现在准备在R中进行一些分析，因此你可以在SQL编辑器中运行查询，将结果复制到csv（或者……xlsx）并读入R，你并不需要这样做！ R对于几乎每一个可以想到的数据库都有好的驱动。...不仅可以避免生成数以百计的CSV文件，在R中运行查询还可以节省I/O和转换数据类型的时间。日期，时间等会自动设置为R中的等价表示。

1.6K10 0

R可视乎|马赛克图

主要优点马赛克图能按行或按列展示多个类别的比较关系。主要缺点难以阅读，特别是当含有大量分段的时候。此外，我们也很难准确地对每个分段进行比较，因为它们并非沿着共同基线排列在一起。...对于非均匀的马赛克图，关注的数据维度非常多，一般的用户很难直观理解，在多数情况下可以被拆解成多个不同的图表，以下我们会对其进行绘制。...2.数据介绍数据构建代码来源《R数据可视化之美》，任意拟定一个数据框。...ddply()对data.frame分组计算，并利用join()函数进行两个表格连接。...参考《R数据可视化之美》

1.6K2 0

机器学习算法的R语言实现：朴素贝叶斯分类器

1、引子朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法，其中朴素的意思实际上指的是一个假设条件，后面在举例中说明。...是的，朴素的假设在实际世界中是较难满足的，但是实际使用中，基于这个假设作出预测的正确率是在一个可接受的范围。...3、基本方法 P ( A ∣ B ) 表示在确定B的情况下，事件A发生的概率，而在实际情况中，我们或许更关心 P ( B ∣ A ) 但是只能直接获得 P ( A ∣ B ) ，此时我们需要一个工具可以把...(reshape2)#1、根据训练集创建朴素贝叶斯分类器#1.1、生成类别的概率##计算训练集合D中类别出现的概率，即P{c_i}##输入：trainData 训练集，类型为数据框## strClassName...属于有监督的学习（有训练集）； 2、主要处理离散类型的数据，如果为连续数据可先进行离散化； 3、训练集的特征取值要尽量完备，如果有缺失需进行预处理（Laplace校准）； 4、关于特征值相互独立的假设，在实际问题中一般无法满足

7239 0

R语言包_plyr

基础 R函数和plyr plyr包中一些有用的函数 R程序参考资料 plyr: The split-apply-combine strategy for R 不再是循环，而是向量操作，这个包的目的是简化...apply类函数。...R函数和plyr ?...(count(baseball, "id"), freq > 25) bb_longterm <- match_df(baseball, longterm, on="id") # join 类似sql中的...baseball, first, by = "id", all.x = TRUE)) system.time(b3 <- join(baseball, first, by = "id")) R程序 #

1.1K2 0

在java中String类为什么要设计成final？Java面试常见问题

综上所述，我们可以知道，final在Java中是一个非常有用的关键字，主要可以提高我们代码的稳定性和可读性。...要想弄明白这个问题，我们首先得知道一个知识点：引用和值的区别！...因此，我们在以后的开发中，如果要经常修改字符串的内容，请尽量少用String！...在Java中，因为数组也是对象，所以value中存储的也只是一个引用，它指向一个真正的数组对象。在执行了String s = “yiyige”; 这句代码之后，真正的内存布局应该是下图这样的： ?...只不过在一般的描述中，大家都会说String内容不可改变，毕竟很多时候是不允许利用反射这种特殊的功能去进行这样的操作的。

4230 0

R语言分组计算，不止group_by

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。...目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...group_by和summarise多变量分组计算 2 ddply 2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate...语法 ddply(.data, .variables, ... ) .data为数据集 .variables分组变量一定要在“点+括号中”，例如"....中分组变量一定要在“点+括号中”，例如".

8.2K5 0

数据管理—reshape2包

我就在这里等你关注，不离不弃 ——A·May R-50T-50 「序言」不知不觉，已经写了半百的R语言了，感觉等数据准备这个大阶段结束，有必要将数据理解和数据准备这两阶段进行下系统的融合，然后再重新看选模型和建模型的问题...「 melt 」了解melt melt对数据的融合，也就是ddply中对数据进行拆分，但是melt的融合是有其固定的格式与要求的，即把数据集分成标识变量、测量变量和测量值三个部分，我们要做的工作主要是根据需求选择适当的标识变量和测量变量...可以理解为如果我在下面的实验中选择的识别变量X中存在两个值都是1，那么变量X就不可以作为识别变量，因为如果这样，即使可以进行融合，但是在进行重铸的时候就会发现重铸的数据是计数而不是数据值，这在问题2中有所体现...此外，我们在重组表数据的时候也并非完全会保留所有的变量，所以，用id.vars与mearsure.vars也是一个筛选、应用和组合变量的过程，这和ddply的作用大致相同。...小伙伴们请注意，如果你也是这样的结果，原因是因为AQI并非是能够识别测量变量的唯一值，我们在选中id.vars的时候出现问题，下列输入中我们可以观察到AQI=84时对应的各项指标计数都是2，表明AQI=

7400 0

左手用R右手Python系列6——变量计算与数据聚合

R语言与Python的Pandas中具有非常丰富的数据聚合功能，今天就跟大家盘点一下这些函数的用法。...R语言： transform mutate aggregate grouy_by+summarize ddply Python: groupby pivot.table 在R语言中，新建变量最为快捷的方式是通过...library(plyr) ddply(iris,.(Species),summarize,means=mean(Sepal.Length)) ddply(iris,....ddply(.data, .variables, .fun =) #一般只需提供数据框，带聚合分类字段，以及最终的聚合函数与聚合变量公式。它的用法与内置的tpply用法如出一辙。...使用pandas中的groupby方法可以很快捷的进行分组数据聚合。

1.5K7 0

分组统计你只想到group_by操作吗？

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。...目录 1 dplyr包中的group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...group_by和summarise多变量分组计算 2 ddply 2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate...语法 ddply(.data, .variables, ... ) .data为数据集 .variables分组变量一定要在“点+括号中”，例如"....中分组变量一定要在“点+括号中”，例如".

9943 0

关于美国地图中的两个海外州坐标平移与原始投影问题~

通常我们在政治新闻或者财经日报中看到的数据可视化图表中，美国地图中的两个海外州——阿拉斯加和夏威夷都是被平移过的，主要因为这两个海外州偏离本土太远，使用原始位置会使得美国地图的整体比例尺偏大，局部内容被缩小...，整个版面中留有大量空隙。...这样的地图很多信息会因为版面问题无法呈现清楚，想要为东北部的小州（单指面积小）基本在视觉上很难被发现，需要添加大量备注信息。...从而可以发现，在单独的图形对象中进行映射的话，颜色映射和大小映射会根据单个ggplot对象中的赋值变量的标度范围（数值型变量的极差分布）进行适应性调整。...但是那又如何，只要大神们为我们造好了轮子，我们直接用就好了，还用管那么多呢~ 数据文件可以入群下载，也可以在我的GitHub主页（ljtyduyu），找到DataWarehouse数据文件夹从中中获取。

1.7K5 0

关于Windows Terminal无法在Win+X菜单和Win+R中通过wt.exe打开的问题

，而是启动方式问题，直觉想到可能是 Win+X 菜单和 Win+R 附带了什么奇怪的参数，想到火绒剑记录系统日志分析，日志记录如下：发现两个 wt.exe 的路径竟然不一样，位于 \AppData\...打开（无反应），而打开软链接的 wt.exe 就可以正常运行那么现在有两个问题：同一个 wt.exe 命令，为什么 Win+R（Win+X 菜单实际上执行的也是 Win+R）和 terminal...关于问题 1：我的猜想是系统环境变量 Path 中对于这两个路径的定义， \WindowsApps\Microsoft.WindowsTerminal_1.12.10983.0_x64__8wekyb3d8bbwe...Microsoft\WindowsApps\ ，所以 Win+R 调用程序的逻辑应该与 terminal 不同，可能不依靠 Path 或 Path 的权重在较后位置（这也就对应了解决方法 1）关于问题...调用逻辑重置 WindowsApps 权限这两个方案在国内论坛上都基本找不到相关资料，好在 Github 和 StackOverflow 上有遇到同样问题的老哥关于方案 1：需要修改注册表中的值

4.6K5 2

手把手教你画双基因生存曲线

今天我就以TCGA库中的乳腺癌（BRCA）为例，教大家怎么画双基因的生存曲线~ ?...一、安装和加载所需的包 RTCGA是一系列根据数据类型分离的包，相当于要先下载这些离线数据R包之后再直接从离线数据包里面获取TCGA的所有数据。最新的版本可以加载下图所有的包，可谓是非常强大了。 ?...dplyr包是 Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）的杰作,他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度...可能小伙伴们也有别的方法，欢迎在评论区里留言提出你的看法和问题哦~ 后台回复关键词：双基因，领取代码。如果你有生信需求，也可以联系小编分析哦！

2.7K2 0

让Single cell UMAP注释支棱起来

分享是一种态度最近在画UMAP的时候发现有的时候细胞亚群的注释与点重合颜色上不是很搭配，同事提出让注释“支棱”起来，首先想到的是ggforce中的geom_mark_ellipse，实践中遇到一些问题...因为有一些cluster（Naive CD4 T）存在异常值，ggforce中的函数会包含所有的点。所以应该将异常值去掉，这个方法有很多，我使用的是之前用到的置信椭圆的方法。...cell.embeddings, cluster=Idents(pbmc3k.final)) ## adapted from https://github.com/fawda123/ggord/blob/master/R/...ggord.R theta <- c(seq(-pi, pi, length = 50), seq(pi, -pi, length = 50)) circle <- cbind(cos(theta),...(prob, df = 2)) data.frame(sweep(circle %*% chol(sigma) * ed, 2, mu, FUN = '+')) } ell ddply

1.2K2 0

数据处理的R包

plyr包是Hadley Wickham为解决split – apply – combine问题而写的一个包。...，用于处理，清理和汇总非结构化数据，使得R中的数据探索和数据操作变得简单快捷，也是出于Hadley Wickham之手。...Lubridate包可以减少在R中操作时间变量，内置函数提供了很好的解析日期与时间的便利方法。lubridate 包是 Hadley Wickham开发的用于高效处理时间数据的 R 包。...在ggplot2中有两个主要绘图函数：qplot()以及ggplot()。 qplot: 顾名思义，快速绘图； ggplot：远比qplot()强大，可以一步步绘制十分复杂的图形。...可以方便的与ggplot进行涂层叠加，实现在R中的地图绘制需求。 ggmap包中的函数 get_map：ggmap包中最基本函数，用来下载地图。 geocode：用来返回某地的经纬度。

4.7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭