【黑科技】数据分析师的秘密-QQ聊天记录分析(二)

承接上一篇文章,在上一篇中主要对群活跃情况,和成员情况进行了分析,这一篇则主要是对聊天记录做一些浅显的文本分析。

文本挖掘是一个博大精深的领域,我们通常叫做自然语言处理NLP,它涉及到很多统计学,数学,信息论,语言学的东西,当然也是目前前沿科技之一,这里,仅对文本做一些简单的分析,以期抛砖引玉.虽然如此,但是,其分析的结果仍然能给我们提供许多有用的信息。

这里便做一些展示:

数据来源:PPV课QQ群,PPV课是国内最活跃的几个大数据社区之一。

样本数 : 聊天记录文件不大,但是数据却非常多,因为是全文本数据,R处理起来很慢,所以这里分每个群进行,大约5万字符。

由于中文语言的特点,我们在做文本挖掘时,首先做的第一个事情就是–分词.因为中文一句话没有天然间隔,不像英文一个词一个词用空格隔开,

我们在理解中文一句话时,非常简单,但是机器却很难知道哪几个字能组成词,所以分词虽是第一步,却也相当的难,好在,具体的算法我们不必研究

R中已经有很多分词工具.分完词后,比较初步的就是进行词频统计.

词频统计

在QQ群讨论的最多的是数据分析的学习.和职业.并且对其认可度高.

词频就是简单统计词语在文档中出现的次数,当然,这里会过滤一些词,像"了","啊"等等这些停止词和无意义的词,通常来说

一篇文档中词汇出现频次很多,基本上就代表文档跟这个词有关.这里,分为了名词,动词,和形容词的词频统计,目的是让我们

更加的了解文档的大致情况,我们可以从图中看到名词(数据,老师,课程)最多,动词(学习,谢谢,分析)最多,形容词(直接,不同,重要)最多,我们按照一句话来模糊理解一下,基本上就是学习课程,并且形容词还带有一些情感的倾向,重要,不错,等等说明了.大家对于学习的认可。

画成云图就是如下:

关键词提取

这真的是一个关于数据分析学习和职业的群

词频仅是对一个文本基于最基础的统计性分析,但是一篇文本的关键意思不能简单的按照词语出现次数最多的词来表示.我们需要提取其中的关键词,这里关键词提取使用逆文档频率TFIDF的方法,一个词在其他文档出现得少,在被分析的文档出现的多,说明它更具代表性.也即文档的特征所在。

实体识别

看到群里涉及的真实人物,及各地方实体

这一部分在第一篇已经分析出来,这里再摆出来是为了说明,即使在非结构化的数据中,仍然可以提取出地区,和人名的实体,第一篇实际上是一个半结构化的数据,所以提取一些信息比较简单,而这里使用的文本,是非结构化的,对于实体的提取,与其有很大的不同.

文本归类

对文本的内容进行大的归类.在新闻分类中比较有用.这里分为了经济,这个大类,基本上说对于我们可用信息不高,太宽泛了,之所以如此,是我们在分析这个群时,并没有事先给其定义各种标签,如果我们想分的更细,需要我们提前在定义标签,然后再分类,比方,我们先定义一些 生活,教育,职业,运动,交友,学习,等等标签,然后根据文档的特征来匹配分类,这里由于资源和技术的限制没有做分类。

情感倾向

群里的伙伴对自身的领域发展持积极向上的态度.

情感倾向是通过词的情感来的,这里的结果对于直观的来说可能没有太大的意义,但是,我们如果换个角度

来看,从大家对于这个领域的认可度来说,如果聊天的内容都是正向的,说明大家对于这个职业领域的认可的也说明了这个职业领域比较火,正在发展向上阶段.另外,如果是新闻事件,我们可以认为舆情的传播是有益的。

综合

那么根据上面的几个方面的综合,可以看到,这是一个专注学习数据分析知识的群.来自各个城市的成员在上面讨论一些学习课程.而且对于自己所学课程的认可度高,以及职业领域的前景和发展看好.

文章写得很粗糙,有许多点也没有表述清楚.由于文本分析的原理相对来说是比较复杂的,这里并没有写出其实现的原理,主要是担心自己学的不够好,所以也不瞎写,在接下来的时间,我会将实现原理及过程好好整理一遍之后,再贴出来,欢迎拍砖,也顺便请教高手的指点,感激不尽.第三篇也会很快的分享,感兴趣的欢迎继续阅读。

PPV课原创文章,未经允许严禁转载

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-12/17/2017

1. 第一当然是NIPS啦(注意看上一期NIPS在Facebook上的视频)。NIPS开完,各种资料分析就出来啦,对我们这种没有机会去现场的人来说是个福音。 t...

3216
来自专栏新智元

【大咖来了】有道周枫:苹果Core ML对移动端深度学习的意义

【新智元导读】在WWDC2017(全球开发者大会)上,苹果发布了支持移动端深度学习的 CoreML 框架。网易有道 CEO 周枫指出,这个新框架能够解决以往云端...

4229
来自专栏新智元

【Nature】机器学习实时读取大脑信息,超级计算绘制“思维地图”

【新智元导读】普林斯顿和英特尔合作,开发了一款脑成像分析套件(BrainIAK)的软件工具包,能通过互联网公开提供给任何想要处理fMRI数据的研究人员。他们的最...

36111
来自专栏数据派THU

一文读懂因果推测、倾向模型(结合实例)

1403
来自专栏ATYUN订阅号

MIT研究团队致力于用AI革新日常用品

机器学习是实践中人工智能的一个例子。智能系统和设备已经普及到我们日常生活的结构中。电脑和手机使用脸部识别来解锁;系统感知并调整我们家中的温度;设备回答问题或按需...

792
来自专栏大数据文摘

[译]数据会骗人?帮你能看懂图表的误导!

1443
来自专栏大数据挖掘DT机器学习

数据挖掘这些年,这些算法,这些反思

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就...

3156
来自专栏PPV课数据科学社区

周一经典 | 如何成为一名数据科学家?

如何成为一名数据科学家? 文 | 谢科 "Data Science = statistics who uses python and lives in San ...

3615
来自专栏鸿的学习笔记

The Brain vs Deep Learning(完结)

Part IV: Predicting the growth of practical computationalpower

622
来自专栏PPV课数据科学社区

【案例】浅谈医学大数据是怎么回事?

编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理...

3073

扫码关注云+社区

领取腾讯云代金券