前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【黑科技】数据分析师的秘密-QQ聊天记录分析(二)

【黑科技】数据分析师的秘密-QQ聊天记录分析(二)

作者头像
小莹莹
发布2018-04-25 11:40:09
1.7K0
发布2018-04-25 11:40:09
举报

承接上一篇文章,在上一篇中主要对群活跃情况,和成员情况进行了分析,这一篇则主要是对聊天记录做一些浅显的文本分析。

文本挖掘是一个博大精深的领域,我们通常叫做自然语言处理NLP,它涉及到很多统计学,数学,信息论,语言学的东西,当然也是目前前沿科技之一,这里,仅对文本做一些简单的分析,以期抛砖引玉.虽然如此,但是,其分析的结果仍然能给我们提供许多有用的信息。

这里便做一些展示:

数据来源:PPV课QQ群,PPV课是国内最活跃的几个大数据社区之一。

样本数 : 聊天记录文件不大,但是数据却非常多,因为是全文本数据,R处理起来很慢,所以这里分每个群进行,大约5万字符。

由于中文语言的特点,我们在做文本挖掘时,首先做的第一个事情就是–分词.因为中文一句话没有天然间隔,不像英文一个词一个词用空格隔开,

我们在理解中文一句话时,非常简单,但是机器却很难知道哪几个字能组成词,所以分词虽是第一步,却也相当的难,好在,具体的算法我们不必研究

R中已经有很多分词工具.分完词后,比较初步的就是进行词频统计.

词频统计

在QQ群讨论的最多的是数据分析的学习.和职业.并且对其认可度高.

词频就是简单统计词语在文档中出现的次数,当然,这里会过滤一些词,像"了","啊"等等这些停止词和无意义的词,通常来说

一篇文档中词汇出现频次很多,基本上就代表文档跟这个词有关.这里,分为了名词,动词,和形容词的词频统计,目的是让我们

更加的了解文档的大致情况,我们可以从图中看到名词(数据,老师,课程)最多,动词(学习,谢谢,分析)最多,形容词(直接,不同,重要)最多,我们按照一句话来模糊理解一下,基本上就是学习课程,并且形容词还带有一些情感的倾向,重要,不错,等等说明了.大家对于学习的认可。

画成云图就是如下:

关键词提取

这真的是一个关于数据分析学习和职业的群

词频仅是对一个文本基于最基础的统计性分析,但是一篇文本的关键意思不能简单的按照词语出现次数最多的词来表示.我们需要提取其中的关键词,这里关键词提取使用逆文档频率TFIDF的方法,一个词在其他文档出现得少,在被分析的文档出现的多,说明它更具代表性.也即文档的特征所在。

实体识别

看到群里涉及的真实人物,及各地方实体

这一部分在第一篇已经分析出来,这里再摆出来是为了说明,即使在非结构化的数据中,仍然可以提取出地区,和人名的实体,第一篇实际上是一个半结构化的数据,所以提取一些信息比较简单,而这里使用的文本,是非结构化的,对于实体的提取,与其有很大的不同.

文本归类

对文本的内容进行大的归类.在新闻分类中比较有用.这里分为了经济,这个大类,基本上说对于我们可用信息不高,太宽泛了,之所以如此,是我们在分析这个群时,并没有事先给其定义各种标签,如果我们想分的更细,需要我们提前在定义标签,然后再分类,比方,我们先定义一些 生活,教育,职业,运动,交友,学习,等等标签,然后根据文档的特征来匹配分类,这里由于资源和技术的限制没有做分类。

情感倾向

群里的伙伴对自身的领域发展持积极向上的态度.

情感倾向是通过词的情感来的,这里的结果对于直观的来说可能没有太大的意义,但是,我们如果换个角度

来看,从大家对于这个领域的认可度来说,如果聊天的内容都是正向的,说明大家对于这个职业领域的认可的也说明了这个职业领域比较火,正在发展向上阶段.另外,如果是新闻事件,我们可以认为舆情的传播是有益的。

综合

那么根据上面的几个方面的综合,可以看到,这是一个专注学习数据分析知识的群.来自各个城市的成员在上面讨论一些学习课程.而且对于自己所学课程的认可度高,以及职业领域的前景和发展看好.

文章写得很粗糙,有许多点也没有表述清楚.由于文本分析的原理相对来说是比较复杂的,这里并没有写出其实现的原理,主要是担心自己学的不够好,所以也不瞎写,在接下来的时间,我会将实现原理及过程好好整理一遍之后,再贴出来,欢迎拍砖,也顺便请教高手的指点,感激不尽.第三篇也会很快的分享,感兴趣的欢迎继续阅读。

PPV课原创文章,未经允许严禁转载

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档