问哪种特征适合于从文本中提取用于作者识别的分类
EN

Stack Overflow用户

提问于 2020-10-29 17:30:04

回答 1查看 24关注 0票数 0

我想为作者识别任务将文本分类为它们的作者...

这些功能包括：

作者的文本长度

或者作者文本词汇特征..。有没有人可以帮助我们，哪种特征可以帮助提高分类结果？我收集的样本数据框是这样的…

文本长度是4个句子，我至少有18个作者，关于分类，这个任务是我的论文，我不能“只是”对文本进行分类，目标是将分类应用于从文本中提取的特征……我想知道哪种特征可以帮助我提高分类精度……(使用mo方法或神经网络)。

python

pandas

classification

回答 1

Stack Overflow用户

发布于 2020-10-29 18:06:08

你的短信有多长？您可以尝试为每个文档派生tf-idfs，然后对您的数据集执行knn搜索。一种更复杂的方法是使用神经网络对文本进行特征化，然后使用这些向量执行knn。如果你的数据集足够大，没有那么多的作者，而且每个作者都有几个文本，你可以尝试微调一个神经网络来对你的文本进行分类。但我会选择knn而不是神经网络的特征。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64588278

复制

相似问题

问哪种特征适合于从文本中提取用于作者识别的分类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哪种特征适合于从文本中提取用于作者识别的分类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哪种特征适合于从文本中提取用于作者识别的分类
EN