【Python机器学习】文本数据分析简介

文本类型数据是数据挖掘分析中重要的一部分。以证券市场分析为例,与一般的“价、量、宏观经济数字......”等相比,以新闻为代表的文本类数据揭示了市场信息不同纬度,往往更加即时、更贴近市场。

今天就文本数据分析做简单的介绍。

1数据的获取

依旧以对证券市场分析为例,常用到的数据有“财经新闻、上市公司公告、股吧网友讨论等”。我们希望从这些数据源中能得到有价值的信息,可能是一段时间的新闻热点、可能是网友对不同事件的正负面情绪、或者其他一些。 第一步就是获取数据,新闻相关的有新浪财经、华尔街见闻等;上市公司公告有巨潮资讯网、交易所官网;股吧有东方财富网、雪球等。 一般选用的方法就是爬虫了,根据各网站的不同,爬取难易程度不一 。大规模爬虫可以选用:scrapy 分布式爬取,而一般简单的爬虫可以用: lxml、BeautifulSoup、 Requests、Selenium等。具体操作过程中,有些网站有比较强的反爬虫机制,需要加ip代理池等操作。 举个简单例子 —— 爬取中国证券报网站上近一周的所有公司新闻。 简单过程就是: a. 找到目标网页的URL。 b. 在目标页面URL中找到目标内容并保存。 一般可以通过lxml.etree用xpath定位实现、或者用BeautifulSoup根据CSS定位实现。

至于数据的储存,各种数据库就依个人喜好了,例子中直接保存到txt里了。多说一句,例子中取的数据不牵涉到动态加载内容,如有需要最简单是selenium模拟,另外方法是Chrome F12 network,分析Ajax内容,构造请求。具体今天就先略去了。

2文本初步处理

取得数据之后下一步就是简单的处理了,对中文来说,就是分词,去停用词这些,可用的工具有: Jieba 、PyNlpir等。具体选哪个还是去试一下看哪个合适,自己选吧。 对于要让程序到practical的程度,分词还是很重要的,因为很多专业术语,所以自定义字典userdict比较重要。上面提到的两个包都可以导入自定义字典,要达到令人满意的结果,这userdict就看个人了。去停用词就是删除一些没什么实际意义的形容词、助词等。 分词程序:

分词结果:

3提取关键词

下一步是把每个文本提取关键词,用关键词向量代表每个文本。 一般用的方法是有TF-IDF,具体细节可以wiki一下。很简单,主要意思就是一个词在文档中出现频率越高,对文档而言更重要; 同时一个词要是在所有文档中都出现,比如“的”,那就重要性减弱。于是抽象出 "TF : termfrequency" 和 "IDF: inverse documentary frequency"。以“国企改革”为例,“TF”算的是“国企改革”在文章中出现的频率,“IDF”算“国企改革”在所有文档中出现频率。 一般采用log(...) * log(...)的形式,不过这个也可以变,没有一个规定。

scikit-learn中有直接封装好的TF-IDF程序,在这里我贴出一个自己写的: 关键词提取程序:

关键词提取结果:

好了,今天先介绍到这里。大家有兴趣的话可以和 royxroy@163.com 联系,欢迎讨论问题:)

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2016-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏极乐技术社区

一周小程序【资讯教程Demo】更新

轻松一刻 叹息的进化 ? 微信小程序官方更新 ? 资讯与教程 微信小程序开发之IOS/Android兼容坑 微信小程序登录逻辑整理 苹果取消打赏抽成,微信狂推小...

2499
来自专栏腾讯移动品质中心TMQ的专栏

浅谈ACC建模测试

1、黔驴技穷 随着测试新鲜血液的引入,如何在测试领域站稳脚跟,成为一名老司机是很多测试人头疼的问题,之前听过一门课程讲过测试人员发展的心路历程(图...

3437
来自专栏即时通讯技术

P2P技术如何将实时视频直播带宽降低75%?

实时视频直播经过去年的千播大战后已经成为互联网应用的标配技术,但直播平台的成本却一直居高不下,各个平台除了挖主播、挖网红以外,其背后高额的带宽费用也是他们最大的...

5043
来自专栏理论坞

一个APP的交互优化方案

这是之前为一个健身app【减约】做的交互优化建议方案,贴出来为大家分享下,有不同的建议大家也可以在留言区提出

1053
来自专栏有趣的django

Django+xadmin打造在线教育平台(六)

代码 github下载 九、课程章节信息 9.1.模板和urls  拷贝course-comments.html 和 course-video.html放入 ...

6389
来自专栏爱原型爱设计

2018年不可错过的创意404报错设计

404报错页面,作为提醒网站访问者服务器未找到请求资源或文件的页面,时常被UI/UX设计师,产品经理以及网页/软件开发者视作 (包括枯燥的登录页面,加载页面以及...

75220
来自专栏技术翻译

20个免费和开源数据可视化工具

数据可视化正在帮助全球公司识别模式,预测结果并提高业务回报。可视化是数据分析的一个重要方面。简而言之,数据可视化以可视格式传达表格或空间数据的结果。图像有能力吸...

1.6K0
来自专栏数据小魔方

数据地图系列11|PowerMap!(上)

今天跟大家分享的是数据地图系列11——PowerMap! 这是一个excel的内置地理信息系统可视化工具,是微软PowerBI系列的四大工具之一。 在offic...

4084
来自专栏腾讯大讲堂的专栏

产品经理必备的6款效率神器,到底好用在哪?

1813
来自专栏沈唁志

说一说平时遇到技术问题时的解决方法以及如何有效提问

4443

扫码关注云+社区

领取腾讯云代金券