excel表格中已有.
2.需要根据ccx_id将每个文件中的数据进行聚合, 聚合之前可以先在每个文件中提取特征....对于每个文件内
train_behavior(基础信息+行为数据):一共2270维特征,对其中(1)唯一值列去除—共去除23列;(2)对于缺失90%值的列进行去除;(3)对于包含空值且只有两种值的列进行去除...;(类别值的列:’var3’, u’var4’, u’var5’, u’var6’, u’var11’, u’var12’, u’var13’, u’var14’, u’var15’, u’var18’...纯半监督学习:是将未标记数据和有标记数据都作为训练集来训练,得到模型,来预测待测数据
直推学习:是将未标记数据作为需要预测的对象,通过有标记数据进行训练,来预测....解决思路:
1.聚类将A和B合并聚为两类,用该聚类簇中A标签投票标记B(否决)
2.自训练方法,先训练A得到一个分类模型,然后通过分类模型分类B,将置信度高的进行标记,然后加入训练集,训练->标记置信度高的