前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用Python统计新浪微博各种表情使用频率

用Python统计新浪微博各种表情使用频率

作者头像
机器学习AI算法工程
发布2018-03-15 13:30:54
7230
发布2018-03-15 13:30:54
举报

用新浪微博API积累了微博广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条微博里面表情使用情况,统计结构在最后。

无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了。

1、调用新浪JAVA API下载微博广场数据 步骤思路: 初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:

这个不是完整的代码,没有初始化暂停间隔,可以掠过,很简单。

2、数据格式:

要取得数据就是微博内容,先练一下手玩玩。

3、Python处理数据 目标:查看微博用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。

步骤: $ 读取TXT文件,递归处理每一行 $ 单独提取出微博字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率

$ 把结果写入到文件 注意:Python正则提取中文部分,先解码成unicode编码,再正则提取,表情的标志是[],虽有误差,但无大碍。

代码: __collection函数是处理函数,返回处理结果(dict)

脚本运行结果:

把结果放到EXCEL里面重新排序,得到如下结果:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档