在R中按比例拆分数据帧

可以使用sample_frac()函数来实现。该函数可以根据指定的比例将数据框按行进行拆分。

以下是完善且全面的答案：

在R中，可以使用sample_frac()函数按比例拆分数据帧。该函数可以根据指定的比例从数据框中随机抽取相应比例的行，从而实现按比例拆分的效果。

sample_frac()函数的语法如下：

sample_frac(data, frac, replace = FALSE, ...)

参数说明：

data：要拆分的数据框。
frac：拆分的比例，取值范围为0到1之间的小数。
replace：是否允许重复抽样，默认为FALSE，即不允许重复抽样。
...：其他参数，如设置随机数种子等。

拆分数据帧的应用场景包括数据集的训练集和测试集划分、交叉验证等。

以下是一个示例代码，演示如何使用sample_frac()函数按比例拆分数据帧：

# 创建一个示例数据框
data <- data.frame(
  id = 1:100,
  value = rnorm(100)
)

# 按比例拆分数据框
train_data <- sample_frac(data, 0.7)  # 拆分比例为0.7，即70%的数据作为训练集
test_data <- data[!(data$id %in% train_data$id), ]  # 剩余的数据作为测试集

# 打印拆分结果
print(train_data)
print(test_data)

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（CVM）：提供弹性计算能力，支持多种操作系统和应用场景。详情请参考：腾讯云云服务器
腾讯云云数据库MySQL版：提供高性能、可扩展的MySQL数据库服务。详情请参考：腾讯云云数据库MySQL版
腾讯云对象存储（COS）：提供安全、稳定、低成本的云端存储服务。详情请参考：腾讯云对象存储
腾讯云人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，支持开发者构建智能应用。详情请参考：腾讯云人工智能平台
腾讯云物联网平台（IoT Hub）：提供全面的物联网解决方案，支持设备接入、数据管理和应用开发。详情请参考：腾讯云物联网平台
腾讯云区块链服务（Tencent Blockchain）：提供安全、高效的区块链解决方案，支持企业级应用场景。详情请参考：腾讯云区块链服务
腾讯云视频处理（VOD）：提供视频上传、转码、截图等功能，支持多种视频处理需求。详情请参考：腾讯云视频处理
腾讯云音视频通信（TRTC）：提供实时音视频通信能力，支持多种场景的音视频通话和互动。详情请参考：腾讯云音视频通信

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和情况进行决策。

页面内容是否对你有帮助？

有帮助

没帮助

按组顺序拆分DataFrame

、、

我有一个带有一些测量值的DataFrame和一列传感器位置(L，C，R)。我根据传感器的位置将我的数据分成3个较小的DataFrames，但问题是我得到的DataFrames顺序不正确。我的DataFrame： t position x y z 0 0 L …………………. 1 0.1 L …………………. 2 0.2 L …………………. 3 0 C …………………. 4 0.1 C …………………. 5 0.2 C …………………. 6

浏览 22提问于2020-04-02得票数 0

回答已采纳

2回答

R按字母顺序重新排序列值

我在R中有一个这样的数据帧： ? 我想重新排序第二列"Car“字母，如下所示：小汽车奥迪/宝马/大众奥迪/宝马奥迪/宝马/大众奥迪/宝马/保时捷/大众可以有0到15辆带有分隔符"/“的汽车我的解决方案有点复杂。(使用该列构建新的DataFrame，将它们拆分成多列，按字母顺序重新排列行，将它们粘贴在一起，插入到原始数据帧中) 您是否知道更好、更智能的解决方案？非常感谢

浏览 22提问于2020-04-07得票数 1

回答已采纳

1回答

如何使用proportion dataframe分割行数

、、

不幸的是，在大量的物种计数数据中，我将两个相似的物种记录为相同的东西，并将它们一起计数(我计算的是Sp2，而不是Sp2a和Sp2b)。我重新访问了所有的样本，并测量了每个物种的联合计数的比例(例如，对于样本“北”，Sp2被计数了40次，我确定其中20%应该是Sp2a，80%应该是Sp2b。有谁知道如何在图表数据框中应用比例数据 samples <- c("north", "west", "south") sp2a_props <- c(.2, .3, .4) sp2b_props <- c(.8, .7, .6) chart

浏览 0提问于2017-04-04得票数 0

2回答

在R中将一个大型数据帧逐行拆分为多个数据帧

、、、

我有一个包含超过1m条记录和超过40个变量的大型数据帧，我希望通过一个循环来更新这些记录，以防止出现故障，并且文件的大小每次都不同。我想将这100多万行拆分成n个较小的集合，每个集合都有一个新的数据帧名称，例如以1,2，...，n，newdf1，newdf2，newdf3，...结尾。R中拆分函数只拆分向量，但它仍然在数据帧中，而不是创建数据帧的多个子集，我需要这些子集来保留40个变量中的数据类型。我没有任何可以按列拆分的值，我只想按行号按顺序拆分。

浏览 1提问于2020-08-26得票数 0

1回答

在R中混洗带约束的数据帧

我目前正努力在R Studio中处理数据帧。假设我的数据帧如下所示： x y 0 a 0 a 1 a 1 a 0 b 0 b 1 b 1 b 是否有可能对行进行混洗，但可以定义变量y的四个不同序列(即aa，ab，bb，ba)相同频繁地出现？在我的原始数据框中总共有24行，我希望我能把我的问题弄清楚。非常感谢您的帮助！ Ema

浏览 11提问于2020-11-26得票数 0

回答已采纳

2回答

将一个数据帧划分为多个，并在R中有名称

、、、

我有一些大数据帧，足以在我的机器上施加R的限制；例如，我目前工作的是2列7千万行。内容并不重要，但以防万一，第1列是字符串，第2列是整数。我想要做的是将数据帧分割成n个部分(比如20，但最好是可以逐案更改的部分)，这样我就可以一次一个地处理每一个较小的数据帧。这意味着(a)结果必须产生被命名的事物(例如，"newdf_1“、"newdf_2”、.(b)原始数据帧中的每一行都需要位于新的“子”数据帧中的一个(而且只有一个)中。命令不重要，但按行顺序做对我来说是有意义的。一旦我做了这项工作，我将开始重新组合它们(使用rbind())一次一对。我看过split()，但据我所知，

浏览 5提问于2022-01-16得票数 1

回答已采纳

4回答

如何在dplyr中对奇数进行降序排列，对偶数进行升序排列

我在r中有以下数据帧 ID bay row number 1 43 11 ABC 2 43 6 DEF 3 43 13 QWE 4 43 15 XDF 5 43 4 VGH 6 43 2 TYU 7 11 11 QAS 8 11 13 QTO

浏览 67提问于2017-08-10得票数 3

回答已采纳

1回答

如何在R中获取数据帧中具有顶部、中间和底部百分比的数据帧子样本

我有一个数据帧，它基本上看起来如下所示： X1 X2 A 1000 B 976 C 800 . . . . . . X 89 Y 45 Z 26 现在，我想根据X2列中的值从我的数据框中提取一个子样本，其中包含顶部的x%、中间的y%和底部的z%。我的数据帧已经根据X2进行了降序排序。目前，我有这样的代码： a = subset(data, X2 > quantile(X2, prob = 1 - n/100)) 但是，根据X2中的值，这只返回数据帧的前n%。有人知道如

浏览 19提问于2019-01-20得票数 0

1回答

为分析准备数据

、

我是新来的，对R和统计总体来说也是非常陌生的。我得到了简单的一百万行csv格式的数据。有4列: say Col1 - Location Col2 -某人的名字Col3 - Date are COl4 -访问时间当导入到R中时，它们被转换为数据帧，所有列都是字符(我使用str()和data.frame ()查找导入数据的结构，这就是为什么我知道它是一个类。正如你所看到的，它们都不是数字，我希望能够做一些聚合，例如按人、按天、按时间、按地点统计访问量，反之亦然。我是否需要在R之外操作数据，例如导入到SQL中并在那里进行一些聚合，或者我可以在R中做到这一点？我希望你能给我指引正确的方向。非常

浏览 0提问于2015-04-02得票数 0

1回答

在对枚举/类别类型列求和时，h2o dataframe GroupBy sum函数的作用是什么？

想知道当列类型是分类的(特别是h2o enum类型)时，在h2o dataframe GroupBy对象中求和列时会发生什么。将pandas数据帧转换为H2o数据帧。然后，我按某一列对行进行分组，并对其他列求和。 location_id price store ------------------ 1 10 JCP 1 15 SBUX 3 20 HOL then after grouping and summing; df.group_by('location_id').sum(['

浏览 26提问于2019-04-02得票数 0

回答已采纳

1回答

将语料库分成N个单词，每个单词在R中

、

我需要将一个语料库分成N个单词。假设这是我的语料库： corpus <- "I need to break this corpus into chunks of ~3 words each" 解决此问题的一种方法是将语料库转换为数据帧，对其进行标记化 library(tidytext) corpus_df <- as.data.frame(text = corpus) tokens <- corpus_df %>% unnest_tokens(word, text) 然后使用下面的代码(取自here)按行拆分数据帧。 chunk <- 3 n &

浏览 7提问于2020-06-23得票数 1

回答已采纳

1回答

在嵌入式系统中，在外部ram中填充帧缓冲区的速度非常慢。

、、、、

当我通过参考字体数据库从UART获得字符代码时，我正在更新外部ram中的帧缓冲区。帧缓冲区的大小约为600kb，在不使用DMA的情况下，大约需要1.5秒才能完全填满它。外部ram大小为8MB，.The帧缓冲器位于数据段中，因此与具有最高优先级的文本段相比，SDRAM控制器给予它第二优先级。SDRAM控制器被配置为在突发模式下操作。我使用的处理器是OMAP3515，它的工作频率为200 MHz，外部RAM的工作频率为133 MHz。我试图找到一个最优的解决方案，在40毫秒内填满600kb的帧缓冲区。请帮帮我。

浏览 2提问于2013-10-28得票数 0

1回答

R_g图stat_summary不一致结果

、

我将mtcar数据帧中的平均mpg绘制为ggplot。我得到了代表平均值的每个圆柱类的几个点，按vs变量分类。 library(ggplot2) ggplot(mtcars, aes(cyl, mpg)) + geom_point(aes(color = factor(vs)), stat = "summary", fun.y = "mean") 如果我通过添加+ geom_point (以下)将这些平均值叠加在原始数据之上，则平均值与原来的不同。我做错了什么？为什么手段不一致？ ggplot(mtcars, aes(cyl, mpg)) + geom_poin

浏览 5提问于2017-11-07得票数 0

回答已采纳

2回答

R:动态分割数据帧

我有一个列数据框架。长度在60 000至500 000行之间。我想把数据帧分割成45,000行的较小的数据帧，再加上一个有剩余行的额外数据帧。例如，如果我的起始数据帧有90,100行，那么结果应该是3个数据帧--两个有45000行，一个有100行。我希望能够随后在for循环中处理每个结果数据帧。在R中有办法做到这一点吗？

浏览 1提问于2020-02-15得票数 0

回答已采纳

2回答

通过比较两列的值来分割R中的数据帧？

、

我有如下所示的数据框架 ID1 ID2 INT aaa qqq 1 aaa ccc 2 aaa nnn 1 aaa yyy 1 bbb nnn 3 bbb aaa 4** ccc ddd 3 ddd bbb 1*** ppp yyy 2 ppp ccc 1 mmm bbb 1*** mmm ppp 2 nnn ccc 2 我想将数据分割成新的数据帧，如下所示，在ID1或ID2中出现的任何ID都按下面所示进行分组？ For aaa ID1 ID2 INT aaa qqq 1 aaa ccc 2 aaa nnn 1 aaa yyy

浏览 2提问于2014-04-09得票数 1

回答已采纳

8回答

在iOS中显示动画GIF

、

我注意到有了iMessage，现在可以发送和显示动画gif了。这是否意味着苹果现在支持在应用程序中显示动画GIF，或者仍然是最简单的方法，将图像分割为帧，然后按顺序显示它们？从iOS 5.1开始，显示动画GIF最简单的方法是什么？谢谢!

浏览 2提问于2012-03-17得票数 91

1回答

将数据框单元格值(列表)插入到mysql多列Python

、、、

我正在使用Python语言处理数据帧，并尝试在MySQL数据库中插入数据。我知道我可以使用df.to_sql将数据帧插入到sql中，但在我的例子中，我在数据帧的一个单元格中有一个列表，并且我必须将该列表插入到数据库中表的多个列中。这是我的数据框架： UserId UserName Address Res 1 User1 Add1 [1,2,3...36] 2 User2 Add2 [1,2,3...36] 这是我的数据库表结构： UserId UserName Address Res1 Res2 Res3... Res36 现在，我被困在如何有效

浏览 14提问于2020-05-01得票数 0

1回答

列表中特定列数据帧中的频率-R

、、

让我有一个由数据帧(df1、df2、..dfn)组成的列表。每个数据帧都有一个名为head1的列，它由二进制元素(0和1)组成。例如 list1[[1]]$head1是11010001 list1[[2]]$head1是1000100000 其中list1[[1]]是df1，list1[[2]]是df2。我想要一个数据帧，它在list1的每个数据帧的头列中返回1的比例。对于上面的例子： df[1,]=0.5 (4 0和4 1) df[2,]=0.2 (8 0和2 1) 我怎么能用R来做呢？如果有任何帮助，我将非常高兴。非常感谢。

浏览 2提问于2016-03-20得票数 0

回答已采纳

1回答

在将数据帧转换为矩阵时，有没有办法将每列的所有对象类型都保留在数据帧中？

、、

我想把数据帧转换成R中的矩阵。数据帧有30多个不同类型的变量，一些是数字的，一些是因子的，还有一些是字符的。在将其转换为矩阵时，我希望保持所有类型与数据帧中的类型完全相同。我尝试使用as.matrix()对其进行转换，请参见下面的代码(这只是一个只有两个变量的简单示例数据帧)。 test_df <- data.frame(a = c(1:10), b = c(letters[1:10])) test_df <- as.matrix(test_df) typeof(test_df[,1]) typeof(test_df[,2]) 示例中的列'a‘的类型为整型，而列'

浏览 15提问于2019-06-10得票数 0

回答已采纳

1回答

如何在搅拌机中倒转所有关键帧？

、

在搅拌机中，我知道有一种方法可以通过复制和粘贴(ctrl+shift+v)将一组关键帧按x轴翻转，但我如何将它们倒过来呢？

浏览 0提问于2018-04-15得票数 0

回答已采纳

1回答

R:通过引用传递数据帧

、、、、

R具有按值传递的语义，这可以最小化意外的副作用(这是一件好事)。然而，当代码为了可重用性/可读性/可维护性而被组织成许多函数/方法时，当代码需要通过例如大数据帧、通过一系列转换/操作来操纵大型数据结构时，按值传递语义导致了大量的数据复制和大量的堆颠簸(这是一件坏事)。例如，在作为函数参数传递的堆上占用50Mb的数据帧将至少复制与函数调用深度相同的次数，并且调用堆栈底部的堆大小将为N*50Mb。如果函数从调用链的深层返回转换/修改的数据帧，则复制将再增加N个。 SO works 触及了这个主题，但在表达方式上避免了直接问按引用传递的问题，获胜的答案基本上是这样说的：“是的，按值传递就是R的工作方

浏览 0提问于2012-06-26得票数 24

回答已采纳

2回答

按更大的组订购DataFrame (R)

、、

我想按一个组的'sum‘对一个数据帧进行排序。因此，我不希望数据帧按组排序，而是按组的总量排序。也就是说，我想知道哪一组是最大的，1、2或3，然后根据它对值进行排序。所以，假设组3是最大的组，那么我希望组3在顶部，我希望组3的值按降序排列。 set.seed(123) d <- data.frame( x = runif(90), grp = gl(3, 30)) 谢谢!

浏览 6提问于2020-06-17得票数 2

1回答

将数据分割成列并在标签上进行分层测试

、、、、

我有一个有两列(数字和字母)的数据框架(df)。见可复制的示例： Numbers<- c(2.370653,3.811336,5.255120, 6.501197,7.848100,9.343938,10.843479,12.164387,13.476807,14.922644,16.419281,17.664224,19.112835,20.660367,21.962732,23.213675) Letters<-c("a","b","c","c","d","a","b"

浏览 1提问于2020-10-20得票数 0

回答已采纳

2回答

使用多索引更改数据帧的形状

、、、

如何从以下位置更改多索引数据帧的形状： ? 类似这样的内容，但具有所有单元格的值，而不仅仅是第一个索引： ? 我尝试过这样做，但不知何故只收到了上面使用以下代码的数据帧： numbers = [100,50,20,10,5,2,1] for number in numbers: dfj[number] = df['First_column_value_name'].xs(key=number, level='Second_multiindex_column_name') list_of_columns_position = [] fo

浏览 22提问于2021-11-05得票数 1

回答已采纳

1回答

使用R计算每个产品的按比例分配

我有一个数据框与产品和数量。我想，对于每个产品添加3行与在子产品X1，X2，X3中按比例分配。比例是基于权重的： X1 = 0.19 X2 = 0.26 X3 = 0.55 数据帧如下所示： df = data.frame(Product = c("A","B","C","D"), value = c(30,35,42,12)) Product Quantity 1 A 30 2 B 35 3 C 42 4 D 1 我想在最后

浏览 20提问于2020-12-21得票数 0

回答已采纳

2回答

在R中，如何按日期拆分数据帧

、、、

我有一个dataframe，其中一列是日期时间(chron)。我想将此数据帧拆分为仅按日期部分拆分的数据帧列表。因此，每个数据帧都将包含当天的所有数据。我研究了拆分函数，但不确定如何使用列值的一部分？

浏览 8提问于2013-05-31得票数 4

回答已采纳

1回答

明确说明如何在R中使用sample()函数为ML设置培训和测试集。

、

我试图通过Datacamp：来理解R中KNN算法的这个例子我很难理解他们是如何执行抽样来设置培训和测试数据集的。我能够遵循代码，直到这一行： ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.67, 0.33)) 我的理解是，这创建了一个长度等于nrow(iris)的向量，向量值为1或2，选择这些值的概率分别为0.67和0.33。因此，我们得到以下输出： > ind [1] 1 1 2 1 2 2 1 2 1 1 1 1 2 2 1 1 1 1 2 2 1 1 1 1 2 1 1 1 1 2 1 2 1 2 1 1 1

浏览 1提问于2018-08-04得票数 0

回答已采纳

2回答

从Excel到R的转换:如何在R中实现if语句和索引逻辑？

、

正如标题所描述的，我正在从Excel过渡到R，但我发现在Excel中实现真正棘手的数据操作仍然比在R中更直观。我有两个数据帧： A <- read.table(text="Var1 Var2 Var3 Var4 1 0 2 0 3 4 0 0 0 6 0 7", header=T) B <- read.table(text="VarA VarB

浏览 3提问于2016-07-28得票数 1

回答已采纳

1回答

合并不同年份的数据帧

我正在尝试使用R合并一些数据帧。您可以在https://www.kaggle.com/mathurinache/world-happiness-report中找到数据帧。有6个数据帧，每个数据帧为期一年(2015-2020)。有没有使用年份作为新列合并这个日期框的方法？ Ex: Year Country Region 2015 Switzerland Western Europe ... 2016 Switzerland Western Europe ... 2017 Switzerland Western Europe ... . . . .

浏览 22提问于2020-07-10得票数 1

回答已采纳

1回答

在训练\测试拆分之前，我应该进行标准化和去趋势吗？

、、、

我是python新手，正在尝试执行一个随机森林回归任务。我导入了总共有5列(包括date列)的数据集。我的数据是时间相关的，所以我不能使用训练/测试拆分。因此，我改为执行以下操作 feature_cols = [ 'Rainfall' ,'Temperature','Usage amount'] target_v = df['water level'] X = df[feature_cols] y = target_v 然后，我使用sklearn中的时间序列拆分将我的数据拆分成训练和测试 from sklearn.model_

浏览 22提问于2020-05-12得票数 1

回答已采纳

1回答

如何根据ID将数据帧划分为训练集、验证集和测试集？

、

我需要将我的数据集随机拆分为训练、验证和测试集，如本文()所示，但它需要随机链接到拆分主题ID，而不是整个数据帧。当应用代码回答这个问题时，它完全随机地拆分我的数据帧，但我有堆叠的ID，需要它们留在一起，否则一个主题的数据将分布在不同的集合中。抱歉，如果这听起来有点混乱的话。下面是我的数据来解释这个问题： df <- c(Contact.ID, Date.Time, Age, Gender, Attendance) Contact.ID Date.Time Age Gender Attendance 1 A 2012-07-06

浏览 11提问于2017-08-20得票数 3

回答已采纳

1回答

使用table()函数中的值进行计算

、

我是R的新手，一直在计算两个值的比例。我通过使用table()函数达到了这一点 table(data$subscriptions, data$pickup) 订阅数据按站点分为临时用户和注册用户。基本上，我想计算每个站点临时用户的比例。我应该使用tapply()来解决这个问题吗？感谢您的帮助！

浏览 0提问于2018-10-08得票数 0

2回答

为R中的数据字段中的列的每个唯一值选择前有限行数

我有一个有3列的数据框。a，b，c。有多行对应于a列的每个唯一值。我想选择与a列的每个唯一值对应的前5行。c列是某个值，并且数据帧已经按其降序排序，所以这不是问题。有没有人可以建议我如何在R中做到这一点？

浏览 2提问于2012-08-30得票数 0

回答已采纳

1回答

如何从JSON字符串中提取python数据帧

、

我在txt文件中获得了以下JSON字符串，并试图从'visualLogs‘变量中提取数据帧。我可以读取JSON字符串，也可以访问visualLogs列表，但是我一整天都没有把它转换成浮点数的9列数据帧。 { "visualScore" : 0, "selfReportingResults" : 5, "voiceScore" : "No Data", "selfReportScore" : 0, "subject" : "Baseline for patient:

浏览 3提问于2016-04-08得票数 2

回答已采纳

1回答

多个data.frame子组处理

、

我需要处理三个数据帧，其中包含按名称索引的相同子组。也就是说，第一个数据帧df1如下所示： Name col1 col2 Car 94.56 1 Car 52.67 2 Bike 421.5 2 Bike 34.56 4 df2和df3具有具有相同值的相同名称列，只是列不同。我需要处理3个数据帧中的所有行，每个不同的名称。到目前为止，我一直在使用这种方法： results = data.frame(name = factor("dummy"), col1 = 1,

浏览 1提问于2011-12-13得票数 0

回答已采纳

1回答

如何从数据帧列表中创建测试数据框架列表并对其进行训练

我正在尝试从列表中的多个数据帧创建多个测试和训练数据集。因此，我得到了“1:nrow(df)：长度为0的参数中的错误”，并且不知道如何解决它。我已经手动更新了列表，没有for循环，而且它工作得很好。但是，由于某种原因，当我试图使用for循环重复这个过程时，就会得到错误。我首先从虹膜数据集创建了一个3帧迷你数据帧。 x <- 3; # split the data into 3 mini data frames set.seed(1) df_list<- split( as.data.frame(iris), sample(x,nrow(iris),replace=TRUE)) 而

浏览 4提问于2015-09-11得票数 0

回答已采纳

2回答

tf.estimator.inputs.pandas_input_fn标号张量

、、

我尝试用我命名为training_examples的熊猫数据帧来测试Tensorflow内置的pandas_input_fn() 它是一个非常简单的数据帧，描述了一组功能和标签；然后作为参数x在pandas_input_fn()函数中传递，如下所示，如果我正确理解了文档，它应该返回一个输入函数，其中的数据已经解析成功能和标签了吗？ input_function = tf.estimator.inputs.pandas_input_fn( x= training_examples, y= None, batch_size=128, num_epochs=1, shuffle=True, queu

浏览 0提问于2018-06-28得票数 3

4回答

R使用..count的ggplot2 ..使用facet_grid时

、、

我使用的是Ubuntu中的R studio，带有标准更新的R和ggplot2 我尝试在ggplot中创建一个直方图，并将数据按组分开。我需要图的y轴来表示被小平面网格分割的子组中每个bin的频率。例如，如果我在数据中有两个条目 a group 1 1 2 2 我需要使用facet_grid来按组拆分，然后显示a对1有一个条形，这是组1中的示例的100%，反之亦然。我发现这样做的方法是使用(..count..)/sum(..count)但使用sum(..count..)将计算在整个数据帧中的频率，并将给我不想要的结果，我找不到深入使用..count的好文档。 question abou

浏览 69提问于2016-07-25得票数 3

回答已采纳

1回答

尝试使用gl_model函数时，数据框具有不同的维度

、、

我有一个关于R代码的问题。当我尝试在我的模型中添加功能时，我遇到了一个问题。我们的教授给了我们一些代码来做套索回归的魔术收集卡价格。如果我按原样运行他的代码，它将会工作。每当我尝试在他的代码中添加另一列作为功能时，我都会遇到问题。下面是错误："Error in cbind2(1，newx) %*%nbeta: Cholmod error 'X and/or Y have error dimensions‘at file./MatrixOps/cholmod_sdmult.c，第90行“ A screenshot of my command line，然后如果我删除更大的训

浏览 14提问于2019-10-10得票数 0

1回答

擦除移动所有行名的特定空单元格

我在我正在处理的一些数据框上有一个奇怪的错误，将我的所有行移动了一个单元格，所以它们不再与我的数据相对应：而不是这样： > head(xaa.small) AGCATTCGAAACATCGAGGCTAACATCCAGTACGCAAGTGGCC AGCATTCGAAACATCGCCAGTTCAATCCATCTTCACAGTGGCC hg19_ENSG00000000003 0 0

浏览 0提问于2020-02-18得票数 0

1回答

从多个数据框中绘制matplotlib中的子图并标准化轴线

、、、、

我在python中有11个数据帧，它们具有相同的列，但按DateTime年份拆分行。以下是我的数据框的两个示例： _2008 = data[(data['fulldate'] > '2007-12-31') & (data['fulldate'] <= '2008-12-31')] _2009 = data[(data['fulldate'] > '2008-12-31') & (data['fulldate'] <= '2009-1

浏览 6提问于2019-02-10得票数 0

6回答

如何按R中字符变量的字母顺序对数据帧进行排序？

我想按R中字符变量的字母顺序对数据帧进行排序。我尝试过使用order()函数来执行此操作，但它将我的数据帧转换为列表。有谁有线索吗？

浏览 0提问于2013-02-12得票数 26

回答已采纳

1回答

交叉乘法求取样本比例

、、、

我有一个更大的数据集，下面是该数据的子集。范畴是因变量，Day_1和Day_2是自变量。 ID <- c("e-1", "e-2", "e-3", "e-8", "e-9", "e-10", "e-13", "e-16", "e-17", "e-20") Day_1 <- c(0.58, 0.62, 0.78, 0.18, 0.98, 0.64, 0.32, 0.54, 0.94, 0.87) Day_2 <- c(0

浏览 13提问于2022-08-22得票数 1

回答已采纳

1回答

如何使用OneHot编码的数据拆分toTrain_test？

、、、、

我正在处理不平衡的数据，并试图通过使用分层数据来改进我的模型。问题是，我不确定如何准确地做到这一点。到目前为止，我所尝试的一切都不会改变任何事情。它应该是这样的： X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size = 0.2, shuffle = True, random_state = 0, stratify = y_train) 但是，不管我是否传递了“matter”参数，都无关紧要。我的数据是OneHot编码的，y_train看起来像这样：[[1. 0.] [1. 0.] [0.

浏览 0提问于2020-07-23得票数 0

2回答

按列值对数据帧进行排序(r)

、、

我是R的新手，目前正在尝试理解R中的dataframe。我想按列值对dataframe进行排序，然后在排序后返回它的顶部。到目前为止，我似乎只拿回了一排。我用的是“虹膜”数据帧。 sort <- function(df, var.name, n){ df1 <- df[rev(order(var.name)), ] sorted <- head(df1, n) return(sorted) } sort_head(df = iris, var.name = "Petal.Length", n = 10) # My output > so

浏览 11提问于2021-08-30得票数 2

回答已采纳

1回答

在不考虑字符顺序的情况下比较列中的字符串，如果相等，则使它们在R中相同(相同顺序

、

我的数据框有(8211个观察值)，但以下是一个简化的示例。如果我在R中有以下数据帧 Var1 Freq a/b/e 1 b/a/e 2 a/c/d 3 d/c/a 1 如何获取以下数据帧： Var1 Freq a/b/e 3 a/c/d 4

浏览 38提问于2018-12-04得票数 1

回答已采纳

1回答

如何将数据帧拆分为具有特定报头组合的数据帧列表

我对R非常陌生，需要一些帮助。我试图将一个数据帧分割成一个数据帧列表，该列表由每一对可能的列1和随后的每一列组成。例如，考虑到以下数据： df <- data.frame ("Time" = c("Mon","TUE", "WED"), VarA = c(2,5,6), VarB = c(24,46,14)) 我想在一个列表中得到两个数据帧。第一个是列"Time“和"VarA"，第二个是列"Time”和"VarB“。理想情况下，创建此列表的函数对于数百个时间变量对来说是可伸缩的。

浏览 3提问于2018-09-13得票数 2

回答已采纳

1回答

面向门类，得到准确的子类比例

、

这是我的资料。每年我都想得到每个marital_status的比例。例如，2000年已婚人口的比例是57291/(57291+58238+18181)。就像这样，对于每一年和每一个marital_case，我想要一个比例。但是在R中，当我做比例时，marital_status的所有计数都被加起来，它给出了整个数据帧的一部分。我试过group_by，但不起作用。

浏览 15提问于2022-03-18得票数 0

1回答

R-将大型数据帧拆分为几个较小的日期帧，对每个数据帧执行fuzzyjoin并输出到单个数据帧

、、、

我有两个数据帧，我需要使用fuzzyjoin函数连接它们。我已经尝试在整个数据帧上执行该函数，但没有足够的内存。其中一个数据帧UPRN充当保存地址的唯一标识符的源数据，另一个地址保存需要与该唯一标识符匹配的地址。我意识到有相当多的问题与以下相关，但我发现似乎没有一个能回答我的问题。我希望将大约45000行的地址拆分成可管理的块(读取较小的数据帧)，例如5000行，仅按行位置。然后我想使用这些小数据帧来模糊连接到UPRN数据帧。例如，Address1读取前5000行，应用fuzzyjoin并输出Join1，然后Address2读取第5001到10000行，应用fuzzyjoin并输出Joi

浏览 15提问于2020-10-15得票数 1

回答已采纳

3回答

如何为R中使用百分比作为y轴而不是计数的数据帧创建条形图？

、、、

如果我有这样的数据(但更大)： ID Rating 12 Good 12 Good 16 Good 16 Bad 16 Very Bad 34 Very Good 38 Very Bad 52 Bad 我要做些什么来显示每一种类型的计数的百分比。基本上，对于每种类型的评级，图表应该像x轴上的4条，y轴应该是评级出现的时间的百分比。例如，上述数据帧将有4条，其中非常坏和坏为25%，良好为37.5%和非常好为12.5%。我非常希望在ggplot2中得到一个答案，但是，由于我根本找不到这个，R中的任何东西都可以。

浏览 4提问于2015-03-24得票数 1

回答已采纳