我试图创建一个情绪分析工具来分析三天内关于曼联俱乐部的推文,并确定人们是正面还是负面地看待它们。我目前正在使用本指南作为指导( Java是我的编码语言)
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用Apache将我的tweet下载到Apache中,然后打算使用Apache查询这些tweet。我还可以使用Apache对tweet进行有效的分区。
在我上面发布的链接中,我提到我需要一个训练数据集来训练我将创建的分类器来分析tweet。所提供的样本分类器有大约5000条tweet。因为我正在为uni做一个夏季项目,我觉得我应该创建我自己的数据集。
为了使这个分类器有效,我应该使用的tweets的最小数量是多少?有推荐号码吗?例如,如果我手动分析了一百条推特,或者五百条,或者一千条,它会有效吗?
发布于 2013-07-24 20:38:06
没有确切的数字来训练分类器。您可以拥有一个大的数据集,其中所有的数据都具有相同的属性,因此分类器将记住一个模式,或者,您可以拥有一个不太大的数据集,并且有一个好的实例,这样分类器就会有更好的结果。
您可以使用他们在文章中提供的样本数据集来训练分类器,并使用交叉验证来获得最佳的分类器。
在得到最佳分类器后,可以将分类器与post中提供的分类器进行比较,并选择更好的分类器。
发布于 2013-07-25 10:42:27
数据集都是不同的,它们的内容常常随着时间的推移而变化(不可预测)。有时,您会发现100条带注释的tweet足以达到非常好的性能,因为语言的使用是一致的。有时候,数以万计的推文是不够的。就在你认为你的分类器很好的时候,两天过去了,人们谈论的内容和他们谈论它的方式发生了变化。同样的分类器现在也没用了。在改变数据流的过程中,人们对主动学习和内容分析进行了大量的研究。这里和这里是一些开始你的研究的论文。
如果可能的话,使用现成的数据集.从个人经验来看,数据注释是非常困难的。阅读推特是非常乏味的,当你盯着它们看了一个小时之后,你会犯很多错误,而且会觉得无聊。
https://stackoverflow.com/questions/17833489
复制相似问题