我使用Jaccard系数来预测新闻中的链接,然后得到我预测的AUC分数。我的代码可以工作,但是每次它给我一个不同的分数,因为每次它随机选择不同的节点作为训练集。假设我想运行1000个预测分数,并存储它们,然后得到这些分数的平均值。我需要在代码中添加/更改什么?
输入
#Remove 20% of the edges
proportion_edges=.2
edge_subset = random.sample(G.edges(), int(proportion_edges*G.number_of_edges()))
#Create a copy of the graph and remove
我正在使用xgboost来解决数据集不平衡的分类问题。我计划使用F1得分或roc-auc的一些组合作为我判断模型的主要标准。 目前,从score方法返回的默认值是准确性,但我真的希望返回一个特定的评估指标。我这么做的主要动机是,我假设模型的feature_importances_属性是由影响score方法的因素决定的,而影响预测准确性的列可能与影响roc-auc的列非常不同。现在,我正在将值传递给eval_metric,但这似乎没有什么不同。 下面是一些示例代码: from sklearn.model_selection import train_test_split
from xgboos
我开发了一个文本分类模型,其中我的X_test和X-train是二维数组。其中as y_test和y_train是一维数组。虽然我在训练、拟合和预测我的ML模型时没有遇到任何错误。但是我不知道为什么我在生成中华民国的分数上有困难。上面写着AxisError: axis 1 is out of bounds for array of dimension 1!!
我无法找到解决这个问题的办法。所以我很想知道在ML模型中是否存在一维和二维数组的相关性。或者它应该是其中之一;要么是一维数组,要么是二维数组。
有人能解释一下吗?
文本分类模型的示例代码(生成roc评分):
from sklearn.me