首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >用Hue分析马老师的B站视频弹幕----我发现了一个新词

用Hue分析马老师的B站视频弹幕----我发现了一个新词

作者头像
Maynor
发布2021-04-09 14:29:40
发布2021-04-09 14:29:40
3220
举报
代码语言:javascript
复制
CREATE DATABASE IF NOT EXISTS test;

use  test;

创建数据库

代码语言:javascript
复制
create external table MBGAnalyse (dm_time STRING,send_date STRING,send_month STRING,send_time STRING,text STRING,user_id STRING) row format delimited fields terminated by ',';

load data inpath '/user/hive/warehouse/ababaaba/biliMBG.csv' into table MBGAnalyse;

创建表导入关于马老师的B站弹幕数据

代码语言:javascript
复制
SELECT word ,count(1) as count FROM 
(SELECT explode(split(regexp_replace(ma.text,'[^A-Za-z0-9\\u4e00-\\u9fa5]',''),' '))as word  FROM mbganalyse ma) W
GROUP BY word
ORDER BY word desc ;

正则匹配马老师的中文弹幕, 最后对筛选的数据做词频统计

词频第一竟然不是脱口而出的"不讲武德" 而是"鳎目说"

第二,第三的分别是鳎蟆说,鸪鹧

关于鸪鹧是什么,笔者特意搜狗了一下

原来如此,学费了学费了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/12/05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档