文章/答案/技术大牛

发布

社区首页 >问答首页 >创建情感分析工具

问创建情感分析工具
EN

Stack Overflow用户

提问于 2013-07-24 12:03:35

回答 2查看 2.7K关注 0票数 3

我试图创建一个情绪分析工具来分析三天内关于曼联俱乐部的推文，并确定人们是正面还是负面地看待它们。我目前正在使用本指南作为指导( Java是我的编码语言)

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

我正在使用Apache将我的tweet下载到Apache中，然后打算使用Apache查询这些tweet。我还可以使用Apache对tweet进行有效的分区。

在我上面发布的链接中，我提到我需要一个训练数据集来训练我将创建的分类器来分析tweet。所提供的样本分类器有大约5000条tweet。因为我正在为uni做一个夏季项目，我觉得我应该创建我自己的数据集。

为了使这个分类器有效，我应该使用的tweets的最小数量是多少？有推荐号码吗？例如，如果我手动分析了一百条推特，或者五百条，或者一千条，它会有效吗？

java

hadoop

twitter4j

sentiment-analysis

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-07-24 20:38:06

没有确切的数字来训练分类器。您可以拥有一个大的数据集，其中所有的数据都具有相同的属性，因此分类器将记住一个模式，或者，您可以拥有一个不太大的数据集，并且有一个好的实例，这样分类器就会有更好的结果。

您可以使用他们在文章中提供的样本数据集来训练分类器，并使用交叉验证来获得最佳的分类器。

在得到最佳分类器后，可以将分类器与post中提供的分类器进行比较，并选择更好的分类器。

票数 1

Stack Overflow用户

发布于 2013-07-25 10:42:27

数据集都是不同的，它们的内容常常随着时间的推移而变化(不可预测)。有时，您会发现100条带注释的tweet足以达到非常好的性能，因为语言的使用是一致的。有时候，数以万计的推文是不够的。就在你认为你的分类器很好的时候，两天过去了，人们谈论的内容和他们谈论它的方式发生了变化。同样的分类器现在也没用了。在改变数据流的过程中，人们对主动学习和内容分析进行了大量的研究。这里和这里是一些开始你的研究的论文。

如果可能的话，使用现成的数据集.从个人经验来看，数据注释是非常困难的。阅读推特是非常乏味的，当你盯着它们看了一个小时之后，你会犯很多错误，而且会觉得无聊。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17833489

复制

相似问题

问创建情感分析工具
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建情感分析工具EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建情感分析工具
EN