首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >朴素贝叶斯多项式模型

朴素贝叶斯多项式模型
EN

Stack Overflow用户
提问于 2018-09-17 19:10:22
回答 2查看 142关注 0票数 1

对于电影评论数据集,我正在创建一个朴素的bayes多项式模型。现在,在培训数据集中,每种类型都有评论。因此,与其为电影评论数据集创建一个通用模型--忽略了类型特征,我还应该如何训练一个模型,同时考虑到电影评论数据集的体裁特征--还包括与评论中出现的单词相关的tf。我是否需要为每一种类型创建一个模型,还是可以将其合并到一个模型中?

代码语言:javascript
运行
复制
Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....

Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-17 19:59:06

来自文档The multinomial distribution normally requires integer feature counts。作为输入提供的范畴变量,特别是如果它们被编码为整数,可能不会对模型的预测能力产生积极影响。如前所述,您可以考虑使用神经网络,或者完全放弃体裁专栏。如果模型拟合后仅对文本特征显示出足够的预测能力,甚至不需要添加一个分类变量作为输入。

我尝试这个任务的方法是通过堆叠 (带有文本特性的虚拟分类值),并将堆叠的数组与目标标签一起提供给SGD模型。然后,您将执行GridSearch,以实现超参数的最佳选择。

票数 1
EN

Stack Overflow用户

发布于 2018-09-17 19:40:58

考虑将genre视为一个范畴变量,可能使用虚拟编码(参见pd.get_dummies(df['genre'])),并将其以及tf-国防军的分数添加到模型中。

此外,考虑其他模型类型,除了朴素贝叶斯-神经网络涉及更多的变量之间的相互作用,并可能有助于更好地捕捉不同类型之间的差异。学习也有一个MLPClassifier实现,值得一看。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52374311

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档