首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >创建情感分析工具

创建情感分析工具
EN

Stack Overflow用户
提问于 2013-07-24 12:03:35
回答 2查看 2.7K关注 0票数 3

我试图创建一个情绪分析工具来分析三天内关于曼联俱乐部的推文,并确定人们是正面还是负面地看待它们。我目前正在使用本指南作为指导( Java是我的编码语言)

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

我正在使用Apache将我的tweet下载到Apache中,然后打算使用Apache查询这些tweet。我还可以使用Apache对tweet进行有效的分区。

在我上面发布的链接中,我提到我需要一个训练数据集来训练我将创建的分类器来分析tweet。所提供的样本分类器有大约5000条tweet。因为我正在为uni做一个夏季项目,我觉得我应该创建我自己的数据集。

为了使这个分类器有效,我应该使用的tweets的最小数量是多少?有推荐号码吗?例如,如果我手动分析了一百条推特,或者五百条,或者一千条,它会有效吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-07-24 20:38:06

没有确切的数字来训练分类器。您可以拥有一个大的数据集,其中所有的数据都具有相同的属性,因此分类器将记住一个模式,或者,您可以拥有一个不太大的数据集,并且有一个好的实例,这样分类器就会有更好的结果。

您可以使用他们在文章中提供的样本数据集来训练分类器,并使用交叉验证来获得最佳的分类器。

在得到最佳分类器后,可以将分类器与post中提供的分类器进行比较,并选择更好的分类器。

票数 1
EN

Stack Overflow用户

发布于 2013-07-25 10:42:27

数据集都是不同的,它们的内容常常随着时间的推移而变化(不可预测)。有时,您会发现100条带注释的tweet足以达到非常好的性能,因为语言的使用是一致的。有时候,数以万计的推文是不够的。就在你认为你的分类器很好的时候,两天过去了,人们谈论的内容和他们谈论它的方式发生了变化。同样的分类器现在也没用了。在改变数据流的过程中,人们对主动学习和内容分析进行了大量的研究。这里这里是一些开始你的研究的论文。

如果可能的话,使用现成的数据集.从个人经验来看,数据注释是非常困难的。阅读推特是非常乏味的,当你盯着它们看了一个小时之后,你会犯很多错误,而且会觉得无聊。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17833489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档