如何从另一个df的随机行子集创建一个新的df而不复制？

要从另一个DataFrame的随机行子集创建一个新的DataFrame而不复制，可以使用以下方法：

首先，导入所需的库和模块：

import pandas as pd
import numpy as np

创建一个示例DataFrame：

df = pd.DataFrame({'A': range(1, 11), 'B': range(11, 21)})

使用sample()方法从原始DataFrame中随机选择一定数量的行：

subset = df.sample(n=5, replace=False)

n参数指定要选择的行数。
replace=False表示选择的行不可重复。

创建一个新的DataFrame，其中包含从原始DataFrame中选择的随机行子集：

new_df = pd.DataFrame(subset)

这样，你就可以从另一个DataFrame的随机行子集创建一个新的DataFrame，而不复制原始数据。

注意：以上代码示例中，并未提及具体的腾讯云产品和产品介绍链接地址，因为与问题的内容无关。如需了解腾讯云的相关产品和服务，请访问腾讯云官方网站。

相关·内容

fast.ai 机器学习笔记（一）

但并不是太糟糕，因为 RMSE 为 0.25 会让我们进入比赛的前 25%。问题：为什么不选择随机行集作为验证集[24:19]？因为如果我们这样做，我们将无法复制测试集。...因此，而不是对整个行集进行自助抽样，只需随机抽取数据的一个子集。...对于行抽样，每棵新树都基于一组随机行，对于列抽样，每个单独的二元分割，我们从不同的列子集中选择。 0.5 意味着随机选择其中一半。...所以我说让我们尝试只选择大于 0.005 的列，创建一个名为df_keep的新数据框，其中只包含那些保留的列，创建一个只包含这些列的新训练和验证集，创建一个新的随机森林，并查看验证集得分。...一般来说，您显然不希望对邮政编码进行独热编码，因为这只会创建大量数据、内存问题、计算问题等。因此，这是您可以尝试的另一个参数。

3901 0

【生信技能树培训笔记】R语言基础（20230112更新）

如何整理数据，使得数据可以套进函数里进行处理？...（一）在R中新建项目方式：RStudio中，菜单栏File→NewProject→NewDirectory→NewProject→DirectoryName该方式通过新建一个目录的方式来新建一个项目，创建一个...运行出结果、没反应、出现warning、其他提示信息，出现新一行的命令提示符>目前一切顺利4. 出现问题必须回答。5. 出现+代码不完整。补齐代码，或按ESC键退出。...下图中的问题，则应该使用%in%而不能使用==。（即xx %in% y)图片intersect()与%in%的区别取交集会去重复，而%in%取子集不会。...重点与Tips：数据框按照逻辑值取子集，TRUE对应的行/列留下，FALSE对应的行/列丢掉。用于取子集的逻辑值向量，与原集对应即可，不必一定由原集生成。

4.1K5 1

Python 数据分析（PYDA）第三版（二）

在数据分析中，where的典型用法是根据另一个数组生成一个新的值数组。假设你有一个随机生成数据的矩阵，并且你想用 2 替换所有正值和用-2 替换所有负值。...level 在 MultiIndex 级别上匹配简单索引；否则选择子集。 copy 如果为True，即使新索引等效于旧索引，也始终复制基础数据；如果为False，当索引等效时不复制数据。...） df.loc[rows] 通过标签从 DataFrame 中选择单行或行子集 df.loc[:, cols] 通过标签选择单个列或列子集 df.loc[rows, cols] 通过标签选择行和列 df.iloc...[rows] 通过整数位置从 DataFrame 中选择单行或行子集 df.iloc[:, cols] 通过整数位置选择单个列或列子集 df.iloc[rows, cols] 通过整数位置选择行和列 df.at...]: df1 + df2 Out[196]: A B 0 NaN NaN 1 NaN NaN 带有填充值的算术方法在不同索引对象之间的算术操作中，当一个对象中找到一个轴标签而另一个对象中没有时

2930 0

Apache Spark中使用DataFrame的统计和数学函数

In [1]: from pyspark.sql.functions import rand, randn In [2]: # 创建一个包含1列10行的DataFrame....若是正数意味则着有一个趋势: 一个变量增加, 另一个也增加. 若是负数则表示随着一个变量增加, 另一个变量趋于减小...., 两个随机生成的列的协方差接近于零, 而id列与其自身的协方差则非常高....下面是一个如何使用交叉表来获取列联表的例子....我们已经实现了Karp等人提出的单通道算法. 这是一种快速的近似算法, 总是返回出现在用户指定的最小比例的行中的所有频繁项目. 请注意, 结果可能包含错误信息, 即出现了不频繁出现的项目.

14.6K6 0

【Python】这25个Pandas高频实用技巧，不得不服！

从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中，你又想要尽快地将他们读取至DataFrame中。你需要选择这些数据并复制至剪贴板。...将DataFrame划分为两个随机的子集假设你想要将一个DataFrame划分为两部分，随机地将75%的行给一个DataFrame，剩下的25%的行给另一个DataFrame。...将DataFrame划分为两个随机的子集假设你想要将一个DataFrame划分为两部分，随机地将75%的行给一个DataFrame，剩下的25%的行给另一个DataFrame。...将一个字符串划分成多个列我们先创建另一个新的示例DataFrame: df = pd.DataFrame({'name':['John Arthur Doe', 'Jane Ann Smith'],...将一个由列表组成的Series扩展成DataFrame 我们创建一个新的示例DataFrame: df = pd.DataFrame({'col_one':['a', 'b', 'c'], 'col_two

6.6K5 0

【数据处理包Pandas】数据透视表

df = df.reset_index() print(df.index) print(df.columns) df 为了说明set_index和unstack方法的用法，复制df对象为df2，并用df2...，需要用level参数指定；（2）set_index可以把普通的列变成索引（如果是多个普通的列就会变成多级索引），而reset_index可以索引还原成普通的列，并用0开始的整数序列作为新索引；（3...补充：reindex用法 reindex的作用是创建一个符合新索引的新对象（默认不会修改原对象df2），它的一个用途是按新索引重新排序。...df2.reindex([(2017,1),(2017,2),(2016,1),(2016,2)]) reindex的另一个用途是取部分子集，可以起到切片的效果。...，它可以根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。

740 0

Pandas部分应掌握的重要知识点

Pandas部分应掌握的重要知识点 import numpy as np import pandas as pd 一、DataFrame数据框的创建 1、直接基于二维数据创建（同时使用index和columns...1、查看特殊行的数据（1）查看前n行：head(n)，不指定n时默认前5行。...team.head(3) （2）查看后n行：tail(n)，不指定n时默认后5行。 team.tail() （3）随机抽样查看n行：sample(n)，不指定n时默认抽样1行数据。...('M'),['name','Q1','Q2']] #通过set_index函数可以把name列作为新的行标签 if team.index.name!...可以查看drop函数的相关帮助信息。四、数据框的合并问题：有两个数据框，如下图所示，现在期望将它们合并成如下图所示的效果，该如何做？

470 0

Pandas必会的方法汇总，建议收藏！

() 三、数据索引序号方法说明 1 .values 将DataFrame转换为ndarray二维数组 2 .append(idx) 连接另一个Index对象，产生新的Index对象 3 .insert...索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。...，选取单列或列子集 4 df.1oc[val1,val2] 通过标签，同时选取行和列 5 df.iloc[where] 通过整数位置，从DataFrame选取单个行或行子集 6 df.iloc[:,where...] 通过整数位置，从DataFrame选取单个列或列子集 7 df.iloc[where_i,where_j] 通过整数位置，同时选取行和列 8 df.at[1abel_i,1abel_j] 通过行和列标签...方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。

4.8K4 0

在python中使用KNN算法处理缺失的数据

它计算从您要分类的实例到训练集中其他所有实例的距离。正如标题所示，我们不会将算法用于分类目的，而是填充缺失值。本文将使用房屋价格数据集，这是一个简单而著名的数据集，仅包含500多个条目。...您通常不会这样做，但是我们需要更多缺少的值。首先，我们创建两个随机数数组，其范围从1到数据集的长度。...这就是我们从归因开始的全部前置工作。让我们在下一部分中进行操作。 KNN归因整个插补可归结为4行代码-其中之一是库导入。...尽管如此，仍然存在一个问题-我们如何为K选择正确的值？归因优化该住房数据集旨在通过回归算法进行预测建模，因为目标变量是连续的（MEDV）。...：迭代K的可能范围-1到20之间的所有奇数都可以使用当前的K值执行插补将数据集分为训练和测试子集拟合随机森林模型预测测试集使用RMSE进行评估听起来很多，但可以归结为大约15行代码。

2.8K3 0

NumPy和Pandas中的广播

例如，有一项研究测量水的温度，另一项研究测量水的盐度和温度，第一个研究有一个维度;温度，而盐度和温度的研究是二维的。维度只是每个观测的不同属性，或者一些数据中的行。...我们可以对他们进行常规的数学操作，因为它们是相同的形状： print(a * b) [500 400 10 300] 如果要使用另一个具有不同形状的数组来尝试上一个示例，就会得到维度不匹配的错误...假设我们想把所有乘客的名字都改成小写。出于演示目的，让我们创建一个单独的数据框架，它是原始数据框架的子集，其中只有“Name”变量。...但是我们肯定不希望这样，所以需要构造lambda表达式来只在单元格中的值是一个映射键时替换这些值，在本例中是字符串' male '和' female ' df.applymap(lambda x: mapping...3、Aggregation Aggregation函数与Apply和Applymap函数不同，它返回一个新的df，其中包括用户指定的聚合汇总统计信息。

1.2K2 0

从零开始的异世界生信学习 R语言部分 02 数据结构之数据框、矩阵、列表

df2 的时候注意文件路径，默认只会从工作目录中读取文件，否则可能出现报错 df2 图片数据框属性数据框属性 # dim(df1)...；按行去子集取出的仍为数据框。...#如何取数据框的最后一列？...df1[,3] df1[,ncol(df1)] #ncol()函数统计列数，一共多少列，就是取最后一列 #如何取数据框除了最后一列以外的其他列？...pheatmap::pheatmap(m,cluster_rows = F,cluster_cols = F) #调节函数中的参数，画出的热图不聚类图片图片列表新建和取子集 l <- list(m1

1.8K2 0

Python 数据处理：Pandas库的使用

---- 2.基本功能 2.1 重新索引 Pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引。...向前后向后填充时，填充不准确匹配项的最大间距（绝对值距离) level 在Multilndex的指定级别上匹配简单索引，否则选取其子集 copy 默认为True，无论如何都复制；如果为False，则新旧相等就不复制...它们可以让你用类似 NumPy 的标记，使用轴标签（loc）或整数索引（iloc），从DataFrame选择行和列的子集。...） df.loc[val] 通过标签，选取DataFrame的单个行或一组行 df.locl:, val] 通过标签，选取单列或列子集 df.loc[val1，val2] 通过标签，同时选取行和列 df.iloc...[where] 通过整数位置，从 DataFrame选取单个行或行子集 df.iloc[:，where] 通过整数位置，从 DataFrame选取单个列或列子集 df.iloc[where_i, where

22.8K1 0

Excel按条件筛选、去除数据并绘制直方图：Python

，并将结果数据导出保存为一个新的Excel表格文件的方法。 ...至365范围内的所有样本（一行就是一个样本），进行后续的操作。 ...最后，我们还希望将删除上述数据后的数据保存为一个新的Excel表格文件。知道了需求，我们就可以撰写代码。本文所用的代码如下所示。...接下来，通过一系列条件筛选操作，从原始数据中选择满足特定条件的子集。...其次，创建一个名为mask的布尔掩码，该掩码用于筛选满足条件的数据。在这里，它筛选出了days列的值在0到45之间或在320到365之间的数据。

3362 0

Pandas必会的方法汇总，数据分析必备！

序号方法说明 1 .values 将DataFrame转换为ndarray二维数组 2 .append(idx) 连接另一个Index对象，产生新的Index对象 3 .insert(loc,e)...，产生新的Index对象 8 .reindex(index, columns ,fill_value, method, limit, copy ) 改变、重排Series和DataFrame索引，会创建一个新对象...，选取单列或列子集 4 df.1oc[val1,val2] 通过标签，同时选取行和列 5 df.iloc[where] 通过整数位置，从DataFrame选取单个行或行子集 6 df.iloc[where_i...DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。...默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。 2 .duplicated() 判断各行是否是重复行，返回一个布尔型Series。

5.9K2 0

FastAI 之书（面向程序员的 FastAI）（四）

创建我们自己的嵌入模块到目前为止，我们使用Embedding而没有考虑它是如何工作的。让我们重新创建DotProductBias，不使用这个类。我们需要为每个嵌入初始化一个随机权重矩阵。...FillMissing是一个TabularProc，用列的中位数替换缺失值，并创建一个新的布尔列，对于任何值缺失的行，该列设置为True。...这是 Breiman 提出的程序：随机选择数据的子集（即“学习集的自助复制”）。使用这个子集训练模型。保存该模型，然后返回到步骤 1 几次。这将为您提供多个经过训练的模型。...创建随机森林我们可以像创建决策树一样创建随机森林，只是现在我们还指定了指示森林中应该有多少树，如何对数据项（行）进行子集化以及如何对字段（列）进行子集化的参数。...Alexis 说我对此的直觉是，由于每棵树都是在不同的随机选择的行子集上训练的，因此袋外错误有点像想象每棵树因此也有自己的验证集。该验证集只是未被选中用于该树训练的行。

4471 0

2023.4生信马拉松day3-数据结构

-数据框二维数据；约等于表格但是：列有要求（同一列只允许同一种数据类型）；不是文件（可以导出来成为一个文件）；数据框单独拿出的一列是向量，视为一个整体；-矩阵二维数据；同一列同一行都只允许一种数据类型...df1[,3]df1[,ncol(df1)]#如何取数据框除了最后一列以外的其他列？...生成10个随机数: rnorm(n=10,mean=0,sd=18)，用向量取子集的方法，取出其中小于-2的值：z=rnorm(n=10,mean=0,sd=18)zz[z 不空格的话就会变成...y和x %in% y的区别：前者是x和y对应位置一对一比较，是等位运算；后者是x每一个元素都要和y里所有的元素比一遍；4.数据框修改#改一个格df1[3,3] df1#改一整列df1$score...(df1)[2] 的连接是excel做不到的功能——#先创建三个数据框test1 <- data.frame(name = c('jimmy','nicker','Damon

1.4K0 0

单变量分析 — 简介和实施

问题3：创建一个名为“class_verbose”的新列，将“class”列中的值替换为下表中定义的值。然后确定每个新类别存在多少实例，这应该与问题2的结果相匹配。...问题9：创建一个名为“malic_acid_level”的新列，将“malic_acid”列的值分解为以下三个段落：从最小值到第33百分位数从第33百分位数到第66百分位数从第66百分位数到最大值...你能看到任何新的模式吗？答案：首先，让我们在将“malic_acid”分解为问题中描述的分层之前，为酒精含量创建一个箱线图。然后，我们将应用分层并在视觉上进行比较。...另一个观察是，蓝色箱线图的范围要大得多（从约11到约14.8），而绿色箱线图的“malic_acid”水平较高，范围较小（从约11.5到约14.4）。让我们进一步将其分层为一个练习。...作为单变量分析的一部分，我们学会了如何实施频率分析，如何将数据汇总到各种子集/分层中，以及如何利用直方图和箱线图等可视化工具来更好地了解数据的分布。

2931 0

进阶法宝！掌握这些 NumPy & Pandas 方法，快速提升数据处理效率

Pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。...>>> f = np.eye(2) # 创建一个随机值的数组 >>> np.random.random((2,2)) # 创建一个空数组 >>> np.empty((3,2)) 输入与输出从磁盘上导入与存储...(2,6)的新数组 >>> np.append(h,g) # 向数组添加项 >>> np.insert(a, 1, 5) # 在数组中插入项 >>> np.delete(a,[1]) # 从数组中删除项...选择行子集中的单行 Country Brazil Capital Brasília Population 207847528 >>> df.ix[:,'Capital'] # 选择列子集中的单列...# 从行删除值 (axis=0) >>> df.drop('Country', axis=1) # 从列删除值 Sort & Rank >>> df.sort_index() # 按轴上的标签排序

3.8K2 0

掌握这些 NumPy & Pandas 方法，快速提升数据处理效率！

5K2 0

整理了10个经典的Pandas数据查询案例

在开始之前，先快速回顾一下Pandas中的查询函数query。查询函数用于根据指定的表达式提取记录，并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...PANDAS中的DATAFRAME（.loc和.iloc）属性用于根据行和列标签和索引提取数据集的子集。因此，它并不具备查询的灵活性。...Pandas的query()函数可以灵活地根据一个或多个条件提取子集，这些条件被写成表达式并且不需要考虑括号的嵌套。...那么如何在另一个字符串中写一个字符串？将文本值包装在单个引号“”中，就可以了。...= = 'Delivered'") output 查询表达式包含了日期时间和文本列条件，它返回了符合查询表达式的所有记录替换上面的查询中都会生成一个新的df。

2412 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云