前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论

因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论

作者头像
月小水长
发布2023-07-03 14:33:20
2340
发布2023-07-03 14:33:20
举报
文章被收录于专栏:月小水长月小水长

记得在北漂时,周围的同事都说北京是美食荒漠,比不得我的大长沙,我深以为然,我觉得甚至比不上我老家。

南下广东时,大家都说广东人不喜吃辣,要知道,我可是地道湖南人,所以瞬间失去了广东美食的探索欲望。

但是有一次从深圳到广州出差,在小蛮腰附近吃了一顿「点都德」,印象瞬间就反转了,这简直是人间绝味。

我觉得最好吃的是「百合酱蒸凤爪」、「金牌虾饺皇」和「金沙红米肠」,于是我向周围的朋友推荐。

他们不约而同地说吃过了,味道很一般,我当时心里全是问号,犹记得当时去顺德美食打卡时,我觉得顺德招牌鱼皮、牛杂一般时,他们觉得很好吃。

于是我转向了广大网友,抓取了大众点评广州点都德 6 个店铺 10w+ 条评论,字段包括评论内容、评论时间、大评分和小评分等等大概 10 个字段。

大家都说好吃,也有少部分网友和我那朋友一样给了差评,各种溢美之词就不看了,我主要关心差评点主要在哪些地方

差评也有好几千条,我总不能一条条看吧,公众号的一个口号是,所以能被 Python 取代的活,最终都将被 Python 取代。

我打算先用 Python 做下 LDA 主题分析,第一步就不太顺利。

第一步是确定最优主题数,也就是计算所谓的主题困惑度,在主题数相同时,困惑度越低越好。我首先计算了 n=0~20 时各自的主题困惑度。

n = 20 时,困惑度还没有完整下降,但是看上去快下降了,所以我加大了力度,使得 n 最大为 60,然后发现他只是虚晃一枪。

很曲折且令人困惑的困惑度曲线,我索性直接取主题数 20 ,做 LDA。

你看,大家给差评,相当一部分是说服务态度不好,并不是说味道不好。

再者,既然 LDA 无法确定最优主题数,那我可以考虑再用 BertTopic,说干就干,效果如下:

第一眼看上去,这并不像差评。

最后,我问了下 ChatGPT 关于点都德的评价,可笑的是,问其他品牌也是一样的,这家伙中庸之道拿捏住了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档