首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >哪种特征适合于从文本中提取用于作者识别的分类

哪种特征适合于从文本中提取用于作者识别的分类
EN

Stack Overflow用户
提问于 2020-10-29 17:30:04
回答 1查看 24关注 0票数 0

我想为作者识别任务将文本分类为它们的作者...

这些功能包括:

作者的文本长度

或者作者文本词汇特征..。有没有人可以帮助我们,哪种特征可以帮助提高分类结果?我收集的样本数据框是这样的…

文本长度是4个句子,我至少有18个作者,关于分类,这个任务是我的论文,我不能“只是”对文本进行分类,目标是将分类应用于从文本中提取的特征……我想知道哪种特征可以帮助我提高分类精度……(使用mo方法或神经网络)。

EN

回答 1

Stack Overflow用户

发布于 2020-10-29 18:06:08

你的短信有多长?您可以尝试为每个文档派生tf-idfs,然后对您的数据集执行knn搜索。一种更复杂的方法是使用神经网络对文本进行特征化,然后使用这些向量执行knn。如果你的数据集足够大,没有那么多的作者,而且每个作者都有几个文本,你可以尝试微调一个神经网络来对你的文本进行分类。但我会选择knn而不是神经网络的特征。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64588278

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档