我想用Impala从表中随机抽取n行。我可以想出两种方法,即:
SELECT * FROM TABLE ORDER BY RANDOM() LIMIT <n>
或
SELECT * FROM TABLE TABLESAMPLE SYSTEM(1) limit <n>
在我的例子中,我将n设为10000,并从超过2000万行的表中进行抽样。如果我正确理解,第一个选项实际上为每一行创建了一个0到1之间的随机数,并通过这个随机数进行排序。第二个选项创建了许多不同的“桶”,然后随机抽取至少1%的数据(在实践中,这似乎总是比提供的百分比大得多)。在这两种情况下,我只选择了1000
如何从数据帧中的每个组中随机或交替地从每个组中抽取一个示例(例如,10%的随机行或每一行行)?
例如,当按“名称”分组时:
name a b
foo 1 1
foo 4 1
foo 3 3
bar 2 1
bar 3 7
bar 4 3
bar 1 2
我想得到这样的东西:
name a b
foo 4 1
bar 3 7
bar 1 2
非常感谢
我有一个像这样的数据文件:
x y location
21 10 ny
12 22 ny
32 90 cha
33 14 cha
...
我想根据百分比随机抽样x和y列的行。我希望30%的x和y行是随机分配的group1,70%的行是随机分配的group2。就像这样:
x y location group
21 10 ny group1
12 22 ny group2
32 90 cha group2
33 14 cha group2
...
我想我可以用mutate()来完成这个任务,但是
import random
counter = 0
count = 0
counting = 0
valueOne = 0
valueTwo = 0
while counter ==0:
playerOne = random.randint(1,10)
number = random.randint(1,10)
这就是我困惑的地方。它将运行循环,但每次运行时,随机值都会被重置,即使第一次打印随机数,第二次也可能打印相同的值等等。
if number == playerOne:
count = count + 1
if number != play
我有一个简单的客户数据集(大约4万k),看起来如下:
customerid, group, other_variable
a,blue,y
b,blue,x
c,blue,z
d,green,y
e,green,d
f,green,r
g,green,e
我想随机选择每一组,Y数量的客户(连同他们的其他变量)。问题是,我想对每一组有两个随机的Y值选择。
4000 random green customers split into two sets of 2000 randomly
and 4000 random blue customers split into two sets of 200
我试图使用预先指定的变量在数据帧内产生随机损失.我感兴趣的是"rand.num“变量--有什么更好/更有效的方法来生成这个随机数?我得到了我正在寻找的使用下面,但当我运行它与我的整个表,和许多模拟,我有运行时的问题。
data <- as.data.frame(matrix(c(1, 2500, 2500, 5000), 2, 2)) #take this as given
colnames(data) <- c("Lower", "Upper") #lower & upper bound of uniform distributi
我试图生成一些随机字符,但我想包括string.letters、string.digits和string.punctuation。我可以做其中的任何一个,但是如何包含所有三个(或其他)源/常量?
import random
import string
for i in range(0,4):
print(random.choice(string.ascii_letters))
此代码将选择一个字母-希望包括数字和标点符号也.