15分钟
方法:
.construct(): 延迟初始化函数。它返回当前的Dataset本身.create_valid(data,label=None,weight=None,group=None,init_score=None,silent=False,params=None): 创建一个验证集(其格式与当前的Dataset相同)- 参数:参考
Dataset的初始化函数 - 返回值:当前的
Dataset本身
- 参数:参考
.get_field(field_name): 获取当前Dataset的属性 它要求Dataset已经构建完毕。否则抛出Cannot get group before construct Dataset异常。- 参数:
field_name: 一个字符串,指示了属性的名字 - 返回值:一个
numpy array, 表示属性的值。如果属性不存在则返回None
- 参数:
.set_field(field_name,data): 设置当前Dataset的属性- 参数:
field_name: 一个字符串,指示了属性的名字data: 一个列表、numpy array或者None,表示属性的值
- 参数:
.get_group(): 获取当前Dataset的groupget_xxx()等方法,都是调用的get_field()方法来实现的- 返回值:一个
numpy array,表示每个分组的size。
- 返回值:一个
.set_group(group): 设置当前Dataset的group- 参数:
group: 一个列表、numpy array或者None,表示每个分组的size。
- 参数:
.get_init_score(): 获取当前Dataset的初始化scoreget_xxx()等方法,都是调用的get_field()方法来实现的- 返回值:一个
numpy array,表示Booster的初始化score
- 返回值:一个
.set_init_score(init_score): 设置Booster的初始化score- 参数:
init_score: 一个列表、numpy array或者None,表示Booster的初始化score
- 参数:
.get_label(): 获取当前Dataset的标签get_xxx()等方法,都是调用的get_field()方法来实现的- 返回值:一个
numpy array,表示当前Dataset的标签信息
- 返回值:一个
.set_label(label): 设置当前Dataset的标签- 参数:
label: 一个列表、numpy array或者None,表示当前Dataset的标签信息
- 参数:
.get_ref_chain(ref_limit=100): 获取Dataset对象的reference链。 假设d为一个Dataset对象,则只要d.reference存在,则获取d.reference;只要d.reference.reference存在,则获取d.reference.reference...- 参数:
ref_limit: 一个整数,表示链条的最大长度 - 返回值:一个
Dataset的集合
- 参数:
.set_reference(reference): 设置当前Dataset的reference- 参数:
reference: 另一个Dataset对象,它作为创建当前Dataset的模板
- 参数:
.get_weight(): 返回Dataset中每个样本的权重get_xxx()等方法,都是调用的get_field()方法来实现的- 返回值:一个
numpy array,表示当前Dataset每个样本的权重
- 返回值:一个
.set_weight(weight): 设置Dataset中每个样本的权重- 参数:
weight: 一个列表、numpy array或者None,表示当前Dataset每个样本的权重
- 参数:
.num_data(): 返回Dataset中的样本数量.num_feature(): 返回Dataset中的特征数量.save_binary(filename): 以二进制文件的方式保存Dataset- 参数:
filename: 保存的二进制文件的文件名
- 参数:
.set_categorical_feature(categorical_feature): 设置categorical特征- 参数:
categorical_feature: 一个字符串列表或者整数列表。给出了categorical特征的名字,或者给出了categorical特征的下标
- 参数:
.set_feature_name(feature_name): 设置特征名字- 参数:
feature_name: 一个字符串列表。给出了特征名字
- 参数:
.subset(used_indices,params=None): 获取当前Dataset的一个子集- 参数:
used_indices: 一个整数的列表,它给出了当前Dataset中样本的下标。这些样本将构建子集params: 一个字典或者None,给出了其它的参数。默认为None
- 返回值:一个新的
Dataset对象。
- 参数:
学员评价