文章/答案/技术大牛

发布

问朴素贝叶斯多项式模型
EN

Stack Overflow用户

提问于 2018-09-17 19:10:22

回答 2查看 142关注 0票数 1

对于电影评论数据集，我正在创建一个朴素的bayes多项式模型。现在，在培训数据集中，每种类型都有评论。因此，与其为电影评论数据集创建一个通用模型--忽略了类型特征，我还应该如何训练一个模型，同时考虑到电影评论数据集的体裁特征--还包括与评论中出现的单词相关的tf。我是否需要为每一种类型创建一个模型，还是可以将其合并到一个模型中？

Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....

Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well

python

machine-learning

scikit-learn

classification

naivebayes

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-17 19:59:06

来自文档，The multinomial distribution normally requires integer feature counts。作为输入提供的范畴变量，特别是如果它们被编码为整数，可能不会对模型的预测能力产生积极影响。如前所述，您可以考虑使用神经网络，或者完全放弃体裁专栏。如果模型拟合后仅对文本特征显示出足够的预测能力，甚至不需要添加一个分类变量作为输入。

我尝试这个任务的方法是通过堆叠 (带有文本特性的虚拟分类值)，并将堆叠的数组与目标标签一起提供给SGD模型。然后，您将执行GridSearch，以实现超参数的最佳选择。

票数 1

Stack Overflow用户

发布于 2018-09-17 19:40:58

考虑将genre视为一个范畴变量，可能使用虚拟编码(参见pd.get_dummies(df['genre']))，并将其以及tf-国防军的分数添加到模型中。

此外，考虑其他模型类型，除了朴素贝叶斯-神经网络涉及更多的变量之间的相互作用，并可能有助于更好地捕捉不同类型之间的差异。学习也有一个MLPClassifier实现，值得一看。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52374311

复制

相似问题

问朴素贝叶斯多项式模型
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯多项式模型EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯多项式模型
EN