我想为作者识别任务将文本分类为它们的作者...
这些功能包括:
作者的文本长度
或者作者文本词汇特征..。有没有人可以帮助我们,哪种特征可以帮助提高分类结果?我收集的样本数据框是这样的…
文本长度是4个句子,我至少有18个作者,关于分类,这个任务是我的论文,我不能“只是”对文本进行分类,目标是将分类应用于从文本中提取的特征……我想知道哪种特征可以帮助我提高分类精度……(使用mo方法或神经网络)。
发布于 2020-10-29 18:06:08
你的短信有多长?您可以尝试为每个文档派生tf-idfs,然后对您的数据集执行knn搜索。一种更复杂的方法是使用神经网络对文本进行特征化,然后使用这些向量执行knn。如果你的数据集足够大,没有那么多的作者,而且每个作者都有几个文本,你可以尝试微调一个神经网络来对你的文本进行分类。但我会选择knn而不是神经网络的特征。
https://stackoverflow.com/questions/64588278
复制相似问题