我想根据DataFrame中的ID列生成从1到n的随机数。此ID列中的重复值应具有相同的随机数。一个随机数应该分配给多个ID,但属于每个随机数的ID的数量应该相等或尽可能相等。我也想要一个种子值,这样我就可以复制结果。
一个非常简单的例子是,假设我有一个ID列,值为A,B,C,D,E。我想分配一个随机数1到2。所以在这个例子中,ID A,B,E将被分配给随机数1,ID C,D将被分配到2。
ID Random
A 1
C 2
A 1
B 1
E 1
D 2
此外,我有一个非常大的DataFrame,所以速度是非常重要的。
更新:我之前尝试的是获取一个唯一
我目前正在寻找一种方法来使用SQL查询,以便在我们的数据库中找到所有电子邮件地址的列表只有6个随机数字,然后是‘@gmail.com’。
示例:
email
----------
123456@gmail.com
324522@gmail.com
这是我尝试过的:
select email
from customers
where email Not like '%^[0-9]%'
当我运行这个程序时,所有的电子邮件都会出现,甚至是那些没有任何数字的邮件。
select email,
SPLIT_PART(email, '@',1) as username
如何在python dataframe中随机选择和赋值给给定的行数。列B只包含1和0。假设我有一个数据帧,如下 Col A Col B
A 0
B 0
A 0
B 0
C 0
A 0
B 0
C 0
D 0
A 0 我的目标是随机选择5%的行,并将列B的值更改为1。我看到了df.sample(),但这不允许我就地更改列数据
我的主要思想是将具有多列和多行的数据分离为训练数据集和测试数据集。
编辑:我想每次都使用相同的火车和测试数据。我试图避免随机选择。。
我试过这样做:
def splitTestandTrainData(datavalues):
#create new dataframe with columns
testDataFrame = pd.DataFrame(columns=datavalues.columns)
#select every 4th row as a test data
for i in range(1,len(datavalues.rows),4
对于每一行,我想随机抽样k个对应于非空值的列索引。 如果我从这个数据帧开始, A = pd.DataFrame([
[1, np.nan, 3, 5],
[np.nan, 2, np.nan, 7],
[4, 8, 9]
])
>>> A
0 1 2 3
0 1.0 NaN 3.0 5.0
1 NaN 2.0 NaN 7.0
2 4.0 8.0 9.0 NaN 如果我想为每一行随机采样2个非空值,并将它们更改为值-1,一种方法如下: B = A.copy()
for i in A.index:
s = A.l
我正在遵循一个示例,作者在associatedType上使用了一个类型注释,但是Xcode抛出了错误"cannont find type * in scope“。没有使用任何Cocoapods或第三方框架。此外,我还试图构建该项目,但它不能编译。
下面是一个单独的Swift文件中的类型:
import Foundation
protocol EndPointType {
var baseURL: URL {get}
var path: String {get}
var httpMethod: HTTPMethod {get}
var task: H
我有一组给定的数据,其中第一列和第二列分别是天空坐标(ra,dec),第三列和第四列是笛卡尔坐标系中的坐标(x,y)。
我需要使用坐标x和y制作一个二维插值曲面,并使用Ra和Dec制作另一个曲面。问题是存在遮罩区域,如上图所示。我可以通过绘制丢失的数据来说明它们(在目录中有非NaN值)。这就是我到目前为止尝试过的,但没有给出正确的答案:
from scipy.interpolate import griddata
import numpy as np
import matplotlib.pyplot as plt
data = np.loadtxt('test.asc