我正在尝试在df中的列上使用gensim短语。used for test1"3 "this is the third row" 我已经为二元语法编写了一个方法bigrams)
df['col2'].apply(lambda x: bigrams([x])) - so that the text is enclosed in list 但我将
average movie bad acting4 pathetic avoid我想从短语中常用的单词中提取ngram,即二元语法、三元语法和四个单词语法。让我们将短语标记化为单词,那么即使频繁使用的单词的顺序不同,我们也可以找到ngram,即(频繁使用的单词在第一个短语中互换,如果我们经常使用“好电影”,而在第二个短语中,我们经常使
我正在处理航空公司客户投诉的数据集。既然是“抱怨”,一般的共识是所有的句子都是“负面”的情绪。因此,我正在考虑一种量化负性分数的方法。 例如: 负面评论较少: "the cabin did not have enough leg space but the food was decent" - Score: 0.3 高度负面评论: "complete service was horrible, I will not recommend them ever" - Score: 0.8 对现有的方法有什么建议吗? 附言:我不是在寻找一个确切的答案,任何关于方向或