用Python统计 新浪微博 各种表情使用频率

用新浪微博API积累了微博广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条微博里面表情使用情况,统计结构在最后。

无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了。

1、调用新浪JAVA API下载微博广场数据 步骤思路: 初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:

这个不是完整的代码,没有初始化暂停间隔,可以掠过,很简单。

2、数据格式:

要取得数据就是微博内容,先练一下手玩玩。

3、Python处理数据 目标:查看微博用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。

步骤: $ 读取TXT文件,递归处理每一行 $ 单独提取出微博字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率 $ 把结果写入到文件 注意:Python正则提取中文部分,先解码成unicode编码,再正则提取,表情的标志是[],虽有误差,但无大碍。

代码: __collection函数是处理函数,返回处理结果(dict)

脚本运行结果:

把结果放到EXCEL里面重新排序,得到如下结果:


原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Python爬虫新手进阶版:怎样读取非结构化网页、图像、视频、语音数据

导读:常见的数据来源和获取方式,你或许已经了解很多。本文将拓展数据来源方式和格式的获取,主要集中在非结构化的网页、图像、视频和语音。

653
来自专栏新智元

【干货】TensorFlow 高阶技巧:常见陷阱、调试和性能优化

【新智元导读】文本将介绍一些 TensorFlow 的操作技巧,旨在提高你的模型性能和训练水平。文章将从预处理和输入管道开始,覆盖图、调试和性能优化的问题。 预...

38812
来自专栏生信技能树

【资源分享】生物信息学编程实战

2865
来自专栏Y大宽

cBioportal中文教程

大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome ...

572
来自专栏玉树芝兰

如何用4行 R 语句,快速探索你的数据集?

实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。即缺失值统计处理,和变量分布可视化。

681
来自专栏生信宝典

分子对接简明教程 (一)

分子对接(Molecular Docking)理论 所谓分子对接就是两个或多个分子之间通过几何匹配和能量匹配相互识别找到最佳匹配模式的过程。分子对接对酶学研究和...

2419
来自专栏量子位

TensorFlow 1.2正式发布,新增Python 3.6支持

王小新 编译整理 量子位 出品 | 公众号 QbitAI TensorFlow 1.2.0今日正式发布。 主要功能和改进点: 在Windows系统下新增对Pyt...

3234
来自专栏韩伟的专栏

第三章:数字魔法

本文与前期推送“你真的理解数码技术吗?”“字节的秘密”是同一系列。 3.1压缩魔法 在数码世界中,容量和速度总是紧缺资源,我们总是希望能用尽量少的字节,装下更...

2685
来自专栏祝威廉

谷歌BigQuery ML VS StreamingPro MLSQL

今天看到了一篇 AI前线的文章谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!。正好自己也在力推 StreamingPro的MLSQL。 今...

633
来自专栏专知

【干货】TensorFlow协同过滤推荐实战

【导读】本文利用TensorFlow构建了一个用于产品推荐的WALS协同过滤模型。作者从抓取数据开始对模型进行了详细的解读,并且分析了几种推荐中可能隐藏的情况及...

46211

扫描关注云+社区