对于电影评论数据集,我正在创建一个朴素的bayes多项式模型。现在,在培训数据集中,每种类型都有评论。因此,与其为电影评论数据集创建一个通用模型--忽略了类型特征,我还应该如何训练一个模型,同时考虑到电影评论数据集的体裁特征--还包括与评论中出现的单词相关的tf。我是否需要为每一种类型创建一个模型,还是可以将其合并到一个模型中?
Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....
Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well
发布于 2018-09-17 19:59:06
来自文档,The multinomial distribution normally requires integer feature counts
。作为输入提供的范畴变量,特别是如果它们被编码为整数,可能不会对模型的预测能力产生积极影响。如前所述,您可以考虑使用神经网络,或者完全放弃体裁专栏。如果模型拟合后仅对文本特征显示出足够的预测能力,甚至不需要添加一个分类变量作为输入。
我尝试这个任务的方法是通过堆叠 (带有文本特性的虚拟分类值),并将堆叠的数组与目标标签一起提供给SGD模型。然后,您将执行GridSearch,以实现超参数的最佳选择。
发布于 2018-09-17 19:40:58
考虑将genre
视为一个范畴变量,可能使用虚拟编码(参见pd.get_dummies(df['genre'])
),并将其以及tf-国防军的分数添加到模型中。
此外,考虑其他模型类型,除了朴素贝叶斯-神经网络涉及更多的变量之间的相互作用,并可能有助于更好地捕捉不同类型之间的差异。学习也有一个MLPClassifier
实现,值得一看。
https://stackoverflow.com/questions/52374311
复制相似问题