首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google Plus 文本提取与分析3

本文所有数据源自google+,全篇围绕五个方面来进行文本提取和分析,数据获取、中文分词、NLTK、特征词提取、文本相似度。此外,本文还涉及情感词分析,齐普夫定律等。摘要自动提取、意见挖掘、文本聚类、新闻分类等常规文本分析内容并不适合google+的数据集,因此本文没有涉及。

看点

3

NLTK

概述

斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger),命名实体识别工具(Named Entity Recognizer),句法分析器(Parser)等,可喜的事,他们还为这些工具训练了相应的中文模型,支持中文文本处理。NLTK4是针对python的一个自然语言处理平台,在windows、mac、linux平台上通用,并且是开源免费的,国内好多项目都是在它基础上做的。 下面用nltk分析下抓到的数据。

相信你肯定听过二八原则,如果把所有的单词(字)放在一起看呢?会不会20%的词(字)占了80%的出现次数?答案是肯定的。

早在上个世纪30年代,就有人(Zipf)对此作出了研究,并给出了量化的表达——齐普夫定律(Zipf’s Law):一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是 r × f = C 。(此处的C一般认为取0.1)。Zipf定律是文献计量学的重要定律之一,它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。

我们直观地验证下,100个热词频度和排名的规律:

很明显如果去拟合的话是反比例曲线,有兴趣的使用最小二乘法拟合下,看下c等于多少。同样可以看到,热词中涉及政治词汇比较多,实际上好多中文说说都涉及敏感词汇,这已经是我挑的不怎么敏感的了,万恶腐朽的google+,天朝早晚取缔你。

参考文献

Russell, Matthew A. Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More. O’Reilly Media, Inc. 2013.

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容.http://www.cnblogs.com/zdz8207/p/python_learn_note_17.html

Beautiful Soup 4.2.0 文档.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

11 款开放中文分词引擎评测.http://www.cnblogs.com/croso/p/5349517.html

Natural Language Toolkit.http://www.nltk.org/index.html

TF-IDF与余弦相似性的应用(一):自动提取关键词.http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180104G04XWV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券