我有一个大约10,000条推文的样本,我想将其分类为“相关”和“不相关”两个类别。我正在使用Python的scikit-为这个模型学习。我手动编码1000条推文为“相关”或“不相关”。然后,以80%的人工编码数据作为训练数据,其余作为测试数据,运行支持向量机模型。我获得了很好的结果(预测精度~0.90),但为了避免过度拟合,我决定对所有1000个手工编码的tweet进行交叉验证。
下面是我的代码,在我的样本中已经获得tf矩阵的tweet之后。"target“是一个数组,列出了tweet是否被标记为”相关“或”不相关“。
from sklearn.linear_model import