如何从R数据帧的两列中联合采样？_Pandas:如何从两个数据帧的联合中获取虚拟变量列？_从R数据帧中的两列创建新的矢量列 - 腾讯云开发者社区

r、shuffle、sample

我有一个有4列的数据框。我正在尝试将数据帧的两列混洗在一起，以使这两列始终相关。我尝试过“sample”函数，但它仅限于数据帧的一列。

浏览 6提问于2019-10-29得票数 0

1回答

Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？

scala、apache-spark、apache-spark-sql、apache-pig

SampleByKey的采样方法是将键转换为散列，从中派生一个双精度值，然后根据提供的概率对其进行测试。密钥派生的双精度值在0到1之间均匀分布，代码为。具有相同键的所有行都以这种方式进行采样。我有一个Dataframe，它是通过对多个dataframe执行联合操作而形成的(它们都有相同的模式)。我感兴趣的是，每个单独的数据帧都有一个column

浏览 0提问于2020-06-03得票数 0

5回答

如何组合两个数据帧？

python、pandas

我用的是熊猫数据帧。我有一个初始数据帧，比如D。我从其中提取了两个数据帧，如下所示：B = D[D.label != k] 我希望将A和B结合起来，这样我就可以将它们作为一个DataFrame，类似于联合操作。数据的顺序并不重要。但是，当我们从D中采样A和B时，它们会保留来自D的

浏览 1提问于2012-10-12得票数 158

回答已采纳

1回答

从数据中创建100个样本的R函数

r、sample

我需要创建100个独立的样本，以便每个样本有一个客户的单一观察。存在具有重复值的列c_id。每个样本都应该有客户的单一记录。这是我尝试过的代码 N_Sample<-100 k=sample(1:length另外，在我的数据集中有一列"Balance“。对于每个样本，我需要计算所有100个样本

浏览 26提问于2020-07-18得票数 0

1回答

对多列熊猫进行重采样

pandas、scikit-learn

如何对多个列的数据帧进行重采样以获得新的统计数据？例如，我有一个以秒为索引的dataframe，有两列(数量、数量)，我想将()重采样为分钟，并基于数量*数量创建一个新列。

浏览 1提问于2017-01-10得票数 0

1回答

合并具有不同模式的两个地块文件

python、dataframe、parquet、databricks

我有两个拼图文件，拼花A有137列，拼花B有110列。拼图文件包含表的整个历史记录。因此，拼图A拥有表的整个历史记录的所有字段。拼图B是我今天拉入的所有值，删除了17列。我想把拼花A和拼花B结合起来，但它们没有相同数量的柱子。所以每次都会失败。我尝试过mergeSchema，但失败了。是否可以将缺少的列添加到拼接B并添加空值。那就加入工会吧？

浏览 19提问于2018-09-06得票数 0

1回答

对具有相同代码(ID)的条目进行重采样

r、resampling

在R中，我正在尝试对我的数据集进行重采样。数据库A在第一列包含一些代码(整数)，每一行的特征如下：一些代码在第一列中重复。我想从第一列开始对随机代码进行重采样，并创建一个新的矩阵或

浏览 23提问于2017-01-26得票数 2

回答已采纳

1回答

在dataframe中插入可变行数

r、dataframe、missing-data

我想要一些关于如何在数据帧中插入空行的帮助。插入的数量将根据其他两列中存在的数据而有所不同。例如，我希望填充表示站点的行，这些站点在特定日期内未进行采样。每个站点有10个副本。假设我有几天的时间，8个站点中只有1个站点进行了采样，因此80个站点中缺少70行(7个站点x 10个重复)。在其他日子里，我在一个站点中只有一个丢失<em

浏览 0提问于2015-03-07得票数 0

4回答

基于列中的值的Pandas数据帧示例

pandas、dataframe

我有一个很大的数据帧，我想根据target列值上的值对其进行采样，该值为binary : 0/1 我想提取在"target“列中有0和1的相同数量的行。我在考虑使用pandas采样函数，但不确定如何根据target列为数据帧声明我想要的两个类中相同数量的样本。我在考虑使用这

浏览 52提问于2019-05-18得票数 10

回答已采纳

1回答

如何根据列的不同值对数据框行进行统一的下采样？

python、pandas、dataframe、downsampling

我正在尝试对数据帧行进行下采样，以便创建更小的数据帧。让我们假设我们的dataframe有几列，并且每一列都有预定义的分类值。如何确保每个不同的类别值都有机会出现在新的重采样数据帧中？'B':'f', 'C':'i'},{'

浏览 3提问于2019-09-03得票数 1

1回答

对数据帧中的向量进行采样，并引用到pandas中的另一个数据帧中

python、pandas、dataframe、sample

我被我想做的事情卡住了。2/1/2022 02:00 **0.67**我正在尝试采样不同的行向量，并将它们从第一个数据帧转置到第二

浏览 3提问于2021-02-18得票数 0

回答已采纳

2回答

在spark scala中，为数据帧中的每个组采样不同数量的随机行

scala、apache-spark、apache-spark-sql、spark-dataframe

目标是为每个组在数据帧中采样(不替换)不同数量的行。特定组要采样的行数在另一个数据帧中。示例: idDF是要从中采样的数据帧。组由ID列表示。数据帧planDF指定要为每个组采样的行数，其中"datesToUse“表示行数，"ID”表示组。"t

浏览 25提问于2018-03-02得票数 3

回答已采纳

1回答

重复行的随机抽样

r、subset、sampling

我有一个包含2列的数据帧:列1是ID，列2是与每个ID关联的值(总共59行)。1列随机采样并将关联值保留在第2列的唯一方法是对行进行采样。我需要随机采样50 x 1行、50 x 2行、50 x 3行、50 x 4行等等，直到59行。理想情况下，每个样本集输出为一个数据帧。因此，我最终得到了59组随机采样

浏览 1提问于2018-06-04得票数 0

1回答

如何找出R中缓冲区内的点？

我有两个从txt文件导入的数据帧--采样点和站点位置。采样点数据帧346449.30 576369.65 86.93346449.29 576368.1786.59346449.61 576363.59 84.99 346449.50 576363.54 81.3

浏览 1提问于2015-01-19得票数 1

回答已采纳

1回答

统一Spark中具有不同列数的两个表

sql、apache-spark

如何联合包含不同列数的两个数据帧A和B，并为数据帧A和B中不常见的列获取空值？我可以看到spark的unionAll不支持此操作，并抛出以下错误 org.apache.spark.sql.AnalysisException: Union can only be performed

浏览 0提问于2016-08-04得票数 0

1回答

跨多个文件夹循环重采样多个CSV文件中的日期时间并使用自动生成的文件名导出的步骤

python、csv、datetime、export-to-csv

我有许多数据帧(csv文件)位于我的计算机上我的文档的各个文件夹中。所有csv文件都具有相同的列数，其中每列的名称相同且顺序相同，但是文件中的数据行数不同。所有文件的第一列都是"Datetime“，其中"YYYYMMDD HH:MM:SS”记录在数据行中。我想重新

浏览 2提问于2016-11-22得票数 0

2回答

Spark联合列顺序

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我最近在Spark遇到了一些奇怪的事情。据我所知，根据spark dfs的基于列的存储方法，列的顺序实际上没有任何意义，它们就像字典中的键。| 1| asd|| 3| f1f||asda| 2|

浏览 3提问于2019-07-09得票数 26

回答已采纳

1回答

使用相似字符串Python连接两列上的两个数据帧

python、merge

我有两个数据帧(df1和df2)，我想使用两列“州”(即阿肯色州)和“县”(即联合)进行左合并。(联合是阿肯色州的一个县)。df1和df2需要匹配“州”和“县”，但df2的县名称包含df1县名称(即伍德蒙特县区)中找不到的附加字符串(即伍德蒙特县自治市)。如何才能将这两个具有不同县表示的数据帧左合并？我有很多

浏览 15提问于2020-12-05得票数 0

1回答

将具有嵌套不同模式的两个数据帧合并

apache-spark、pyspark

valueContainsNull = true) |-- hour: string (nullable = false) 注意不同之处-在第二个数据帧中没有如何将这两个数据帧合并在一起？我知道这两个模式必须是相同的才能联合。添加fooId或删除fooId的最好方法是什么？(由于模式的结构而不是很简单)进行

浏览 0提问于2018-11-27得票数 1

3回答

如何从两列中的一列中采样细胞？

我想在我的数据帧中定义一个new.column。new.column从另外两列中的一列获取值。如果其他列在同一行中，则new.column的给定单元格应该仅对这些列中的单元格进行采样。我想要的：--

浏览 10提问于2019-07-10得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云