专栏首页数说工作室导语:SAS正则表达式,统计师入门文本分析的捷径

导语:SAS正则表达式,统计师入门文本分析的捷径

文本分析很有用,数说君自己也玩过,炒鸡有意思,从论坛、网页上爬取网友的舆情数据,然后整理、统计、画图,就可以知道舆论的风暴是什么,可以知道网友最热议的话题、最想去的旅游景点、最喜欢的饮料等等,也可以从这些舆情数据中挖掘出两个话题之间的关联性等等。

统计领域比较流行的软件主要就是SPSS、R、SAS等,因为用它们来做统计模型/数据分析,实在太方便了,但是一旦遇到了文本形式的数据,就常常不知道该怎么办。比如下面这列杂乱无章的文本数据:

(01)1872-8756 Body shop P1 Book B13 (05)9212-0098 PD(05)9206-4571 Shushuo phone (12) 6753-5513 None here PD(12)6434-4532 P&D Washing PC Pro4321S: (09) 1352-3154

如果我们只想保留数字部分,即红色字体部分该怎么办呢?又或者是,我们想把淘宝上面关于某手机的参数信息给爬取下来,比如品牌、内存:

又该如何精准定位呢?

正则表达式就可以很容易的帮我们解决这些问题。其实无论是爬数据,还是整理数据,牵扯到文本的内容,正则表达式就非常好用。一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟甚至几秒钟完成!

然而对于一个经过正规统计学训练的统计师或者数据分析师来说,这方面可能并不那么擅长。因此我们如果能以SAS为工具,来学习正则表达式、学会做一些简单的文本数据处理,不仅学习起来变得非常容易,此后再用Python等其他编程工具去处理文本,都会变得简单了。

本文分享自微信公众号 - 数说工作室(shushuojun),作者:数说君

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

    这是一个相似匹配的问题(文本相似匹配基础→ 词频与余弦相似度)。但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的...

    数说君
  • 【微博汇】大数据如何改变我们的衣食住行?

    微博(@数说工作室网站)滚动播报大数据动态、咨询、行业最新解读,以及一些数据分享。 以下是本周微博内容的汇总, 一、大数据应用: 看看大数据如何在生活购物、家庭...

    数说君
  • 数据分析师扩展技能之「ELK」技术栈

    其中,第2步是每天的主要工作,有时候你会是 Sql boy,有时候又变身 TF boy (TensorFlow)。其他步骤都是傻瓜式操作。

    数说君
  • 利用requests和正则表达式爬取虎扑

    于是就可以写正则表达式了,需要获取的内容用括号括起来 代码如下: import requests import re def get_Page(url):...

    py3study
  • RabbitMQ - TcpConnection析构引发的一次handshake_timeout

    Aichen
  • RabbitMQ - TcpConnection析构引发的一次handshake_timeout

    Aichen
  • java – 为什么InputStream#read()返回一个int而不是一个字节?

    首先字节正好是8位,所以使用8位的char类型数据来与字节数据相互一一对应是最好的选择?但是为何方法InputStream#read()需要返回int类型值呢?

    Fisherman渔夫
  • BabyAI++:针对于超出记忆能力范围内的理性语言学习(CS Machine Learning)

    尽管 RL agents 在现实世界任务中(像是:机器人领域)取得成功,但是当他面对全新而又动态的场景时,它是从白板状态下学习(一无所知)。而与此相对的是,人类...

    Donuts_choco
  • C++有默认参数的函数 | 求2个或3个中的最大数

    在函数调用时形参从实参获取值,因为实参的个数要和形参相同,但有时需要多次调用同一函数,因此C++提供了一个简单的处理办法,给形参一个默认值。

    C语言入门到精通
  • leetcode1552题解【二分+贪心】

    1.根据题意描述,我们需要将m个球放入到n个篮子中,根据题目中数据范围描述发现m <= n,故可以将一个球放入到一个篮子中。这道题主要就是要求出相邻的两个球之间...

    _DIY

扫码关注云+社区

领取腾讯云代金券