我有一个数据集,我想从其中按组随机抽样,最多30行。但是,我还希望确保至少包含另一个分组的一行。此外,有些组的行数少于30行,在这种情况下,应该包括该组的所有行。我不能包含我正在处理的确切数据集,因为它是专有的;但是,数据帧df的示例如下:
ID|年龄|州|性别|薪资
1 25 CO M 50000
2 34 CO M 72000
3 28 CO M 52000
4 25 CO F 44000
5 25 CA F 55000
6 34 CA F 100000
7 39 CA M 88000
8 34 CA M 59000
..。最多15000行
因此,我想要一个随机的数据集样本,以便每个州提供
有包含以下列的Member表和Risk表:
成员表:
ID
名字
性别
年龄
风险表:
年龄
性别
RiskScore
在Risk表中,每个年龄都有相关的风险评分,但60岁是最后一个记录,因为任何60岁以上的年龄都应该与60岁的风险评分相同。
我想在一个查询中加入这两个表,但是下面的查询将显示年龄> 60岁的Null风险评分。
如何在查询中显示60岁以上成员的风险评分?
SELECT
m.ID,
m.AGE,
r.RiskScore
FROM
Member AS m
LEFT JOIN
Risk
我正在尝试使用azure ML studio中的apply sql转换来将缺失的年龄数据归责到行中。
我做了一组简单的按功能来确定中位年龄,按年级和性别。
select t1.pclass, t1.sex, median(t1.age)
from t1
group by t1.pclass, t1.sex
;
如何将该组的中位年龄结果带到我的train.csv中,以便根据其pclass和性别分类将缺失年龄值的行与其中间年龄进行推断?不太确定如何继续sql代码,因为这是我第一次尝试学习sql。
select t1.*, median(t1.age) as age_revised
from t1
我正在考虑自己创建一个复杂的数据类型,但只是不确定它的成本。比方说,我有三个列表,名字、年龄、性别、List<String> name = new ArrayList<String>; List<Integer> age = new ArrayList<Integer>; List<String> gender = new ArrayList<String>;,我想把这些列表中的每个元素组合在一起,如下所示:
public class Person {
private String name;
privat
假设我有一个包含10.000行(代表10.000个人)和以下列的表:
id qualification gender age income
当我选择所有具有特定资质的人(比如“水管工”)时,我得到了100行,具有特定的性别、年龄和收入分布。
我现在想做的是选择某种类型的测试组来检查收入是否受到资质或其他属性分布的影响。
这意味着(现在我来讨论我的问题)我希望获得另一组100行,具有相同的性别和年龄分布(但资格值不同)。当然,这100行应该是随机选择的。
我的主要问题是,当我选择随机行时,我不知道如何编写一个SQL命令来处理分布(当然,在这个上下文中,这些分布可以而且可能
在泰坦尼克号的数据集中,给出了乘客的性别和年龄,但有一些关于年龄的空值。我想输入sex的平均值。
Sex
female 27.915709
male 30.726645
在性别等于男性的情况下,我想输入平均男性年龄,如果性别等于女性,则输入相同的平均年龄
我是个新手,还没有尝试太多
titanic.Sex = 'male' and titanic.Age.fillna(mean_homme)
男性年龄的Nan将等于平均男性年龄