基于值的数据子集部分_基于列值分组的子集数据_基于部分字符串匹配的子集数据帧 - 腾讯云开发者社区

r、subset

我有一个关于返回产品的非常大的数据集，为了创建一个解释性模型，我需要数据由返回的一半产品(1)和没有返回的产品的一半(0)组成，因此它们是作为二进制变量给出的。我如何从数据中随机地将其子集出来？以下是数据集的一部分 > dput(head(dat, 100)) structure(list(data5.order_id = c(24409499, 24409

浏览 18提问于2021-11-08得票数 0

3回答

基于列名部分匹配的子集数据

r、subset

我需要对df进行子集，以包含某些字符串。其中一些是完整的列名，以下内容也适用：我的问题是，我需要扩展它，以包括包含特定字符串的列名，这些字符串可能与其他一些列名部分匹配。FullColName2","FullColName3", "starPartString1(

浏览 2提问于2014-06-12得票数 18

回答已采纳

1回答

fastai表格模型经过训练，但找不到分类映射

pytorch、categorical-data、embedding、fast-ai

在使用fastai的表格模型训练了包含许多分类数据的数据集之后，我希望读出实体嵌入并使用它来映射到我的原始数据值。我可以看到嵌入的权重。输入的数量似乎与任何内容都不匹配，但可能是基于train_ds中的唯一分类值。为了得到这个映射，我想从Categorify转换类中获得self.categories字典。有没有什么方法可以从调用TabularList.from_df获得的

浏览 0提问于2020-01-12得票数 0

1回答

将一个数据帧的列中的值与另一个数据帧中的列的子集进行匹配

r、match、subset

我尝试将一个数据帧的列中的值与第二个数据帧的列中的值进行匹配。棘手的部分是，我想使用第二个数据帧的子集进行匹配(由第二个数据帧中与正在匹配的数据帧中的不同列指定)。这不同于通常发布的基于数据帧之间的匹配来尝试子集<

浏览 1提问于2013-04-21得票数 3

回答已采纳

1回答

根据其子集的均值和标准差更改向量的某些值

r、anomaly-detection

我正在尝试将异常注入到数据集中，本质上是基于某个条件更改某些值。我有一个数据集，有10个子集。条件是异常将是每个分段的标准偏差的2.8-3倍，远离该子集的平均值。为此，我将数据集划分为10个相等的部分，然后计算每个子集的平均值和标准差，并通过将该子集的3个标准差远离该子集的平

浏览 0提问于2019-01-21得票数 0

10回答

子集数据仅包含名称与条件匹配的列。

r、subset

是否有一种方法可以根据列名对数据进行子集，从特定的字符串开始？我有一些类似于ABC_1 ABC_2 ABC_3的列，还有一些类似XYZ_1, XYZ_2,XYZ_3的专栏。如何仅基于包含上述文本部分(例如，df或XYZ)的列对我的ABC进行子集？我可以使用索引，但是列在数据中太分散了，而且变得太难编码了。另外，我希望只包括这些列中的任何一个值为>0的

浏览 8提问于2013-09-03得票数 78

回答已采纳

1回答

如何减去以另一列为条件的列值

r、dplyr

我有一个数据集，其中我想对每个索引值从四分位数的q.ret 1中减去四分位数的q.ret :下面是执行任务的代码：但是它给出了以下错误请提出一些解决这个问题的建议

浏览 1提问于2016-06-19得票数 1

回答已采纳

1回答

如何基于布尔数组值创建熊猫数据子集？

python、pandas、dataframe、subset、slice

我正在研究一种熊猫数据格式，其中一列(bullish)由布尔值组成，第二列(split)也是基于布尔值的，每当第一列值与前面的列值不同时，即为真。= df['bullish'].shift(-1) 现在，我想在split值为True的每个点将熊猫数据分割成更小的子集，这样它就创建了子集，其中所有的df['bullish']

浏览 2提问于2021-11-26得票数 0

1回答

基于某些条件，我尝试从Pandas dataframe创建一个子集。我可以创建两个子集，但在尝试创建另一个子集时出现语法错误。数据框是具有列标题的.csv文件:编号、环境、阶段、类型、计划结束日期、关闭代码、结束子类别、由更改引起的事件、待定更改。我应该尝试使用“计划结束日期”创建一个子集，其中计划结束日期离今天日期超过4天的记录应该在不同的子集中？我想创建一个包含所有“成功”和“完全成功”记录<e

浏览 1提问于2019-11-21得票数 0

1回答

将R中的数据集分成3个子集:低25%、中50%和高25%

r、subset

如何根据一列的值将data.frame数据分成三个部分？我想通过在不同的子集内构建方法来显示曲线的u形。我已经知道如何获得随机的顶部和底部的值，以及如何获得顶部x和底部x的百分比。仍然给出了low.x的错误输出)low.x <- subset(final_data, final_data$variablex < quantile(final_da

浏览 1提问于2018-12-12得票数 0

1回答

基于日期列从单个数据框创建n个子集数据框的堆栈

我需要从一个大的df中创建一堆基于日期列的子集数据框(例如，以月-年格式表示的“2015年8月”)。它应该类似于subset函数，只是要形成的子集dfs的计数应该根据date列上的可用值动态变化所有子集数据帧需要具有相似的结构，使得日期列值对于每个子集df将是一个且相同的。假设，如果我的大型

浏览 1提问于2015-08-31得票数 0

2回答

如何根据前一行的值选择R数据框中的行

r、dataframe、subset

我有一个看起来很简单的问题，我还没能解决。我有一个由单列数据点组成的R数据帧，如下所示。我想将其子集成一个新的数据帧，其中包含基于先前数据点的值的数据点。下面，举个例子，我想对前一个值大于.04的所有行进行子集。任何想法都将不胜感激。谢谢。

浏览 1提问于2013-04-03得票数 1

1回答

在mars，earth r包中从evimp中提取返回值

地球包在R:你好，我正在运行一个循环，从我的主数据库中提取1000个数据子集，并运行一系列基于火星的测试，然后在df中进行总结。我想要提取每次运行时对输入变量重要性进行排序的evimp返回值(rows=variable名称、cols=#子集、GCV、RSS)。但是，我不能将这些值提取或添加到dataframe中，因为它是一个"evimp“类。如何提取这些值并将其放入表中？

浏览 0提问于2018-05-13得票数 3

1回答

如何在R中从大数据文件中加载部分数据

r、import、partial

是否有一种方法只能从大数据文件(文本文件格式)加载/导入数据的一部分。请建议一下。

浏览 0提问于2014-07-11得票数 1

1回答

如何在lapply中创建多个子集

r、subset

我需要在多个数据子集上运行相同的模型。下面是一些模拟数据。假设我想做3个t测试，所有测试都比较var1和var2，但是每个测试都是基于group的3个值的数据子集。做这件事最好的方法是什么？

浏览 5提问于2013-08-26得票数 0

回答已采纳

3回答

子集数据仅包含名称与使用data.table的多个条件匹配的列

r、data.table、subset

这是基于这个。问题是：我如何仅基于包含上述文本部分(例如，ABC或XYZ)的列来子集我的df？我可以使用索引，但是列在数据中太分散了，而且变得太难编码了。另外，我希望只包括这些列中任何一个值</e

浏览 7提问于2022-07-08得票数 0

回答已采纳

1回答

如何基于列值获取数据数据的子集？

python、pandas、dataframe

我有一个包含列中当前值的dataframe：CT (mm) A B C D adultos_perc min max class_center Y13 230-240 0 8 3 2 1.000000 230 240 235 -inf 我想要创建一个新的dataframe，其中只有"Y“值不是'inf‘或'-inf’的行。data

浏览 4提问于2022-04-21得票数 0

回答已采纳

2回答

遍历结构化文件的2列

python、pandas、filtering、gzip

我正在试图解析一个巨大数据集的一个部分。我拥有的数据集的部分是一个3GB的gzip文件。该文件是结构化的，因此它有x列和数百万行。列之间用逗号或某种普通操作符分隔，这样我就可以读取文件了。我想要做的是基于两个范围(即值a< col1 <值b，值c< col2 <值d)，检查数据集每一行的

浏览 1提问于2019-02-16得票数 0

回答已采纳

1回答

用于在进行选择时动态地发现允许子集的算法/数据结构

algorithm、data-structures、subset

我正在开发一个应用程序，它显示了用户输入的表单。该表单有N个部分，每个部分有X个单选按钮。提供了有效选择的子集，以便当用户跨区段工作时，基于形成有效子集的可能性来启用/禁用其他区段中的按钮。例如:第1节有用于选择A、B和C的单选按钮第2节有用于选择1、2、3和4的按钮第3节有用于选择x、y和z的按钮有效子集是({A,2，z}，{B}，{B,1，x}，{

浏览 3提问于2014-08-05得票数 2

1回答

放大数据、重新调整y轴比例的最有效方法

python、matplotlib、plot、jupyter-notebook

我正在处理一个大型的时间序列数据集，绘制(3,1，x)个子集，所有的子集都是根据相同的时间戳绘制的。由于数据相当大，为了进行分析，我需要“放大”部分，并在微观层面上比较这三个图表。我认为最简单的方法是首先绘制完整的数据集，然后在每个子图上使用xlim函数，以便只看到感兴趣的部分。问题是“缩放”图上的y轴比例是完全不成比例的。我想

浏览 13提问于2017-03-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云