爬一下快递巨头的用户评价,有何独特之处!

今天,来一个技术篇,在大家可以了解文本分析的同时,也能让我自己记住整个爬虫、分析、可视化过程,以免自己给忘了!

咱们要爬谁的信息?Fedex!

为啥?

在此,并不是要讨FEDEX的服务好坏,而仅仅是对于文本进行观察而已。一来总要找个分析对象,否则就无法继续后面的分析工作了;二来,则是可以了解一下国外群众们对于快递服务都有着怎样的诉求。

文本从哪里来?有一个叫Consumer Affairs的网站,有着众多的消费者留言,主要是针对于各类服务的评价,这里选一下Fedex:

公司标识:

消费者评价:

看看评论数:3082条,不算多,当然也不算少了!

启示一:这说明国外人士对于服务这件事还是很重视滴,各类意见与评价都不少!这和国内的快递一样,无论国别如何、外资或内资,有人烟的地方,就有需求、就有自己的感知与态度,形成丰富且不同的意见,并不稀奇,切莫以偏概全。

数据源的问题解决了,那么用啥来爬?这次咱不用python(Scrapy爬虫库),一来码字太慢,虽然好用,但时间有限。咱换个简单、快速、有效的工具使用一下:Gooseeker,个人观点是还挺不错的!

对于评论内容放置了爬虫,简单了爬取了10个页面(翻页),共300多条评论:

将其转化为.txt文件,以便后续的文本分析。利用wordij,咱们来建立一下词的逻辑联系,看看有着怎样的内在联系。其中需要注意一点,由于外文字符,是由空格自动分词的,会存在诸多重复的词,但是其信息度并不高,例如to、and、of等,需要建立Drop.Txt(词典)进行删除,以便更好的建立网络关系图:

.TXT原文

Drop.txt(词典):需要去除的词

Wordij界面:

当建立了.net文件后,对于这些词的网络关系分析,需要进一步转场到Gephi来进行分析,特别是对于中心度的分析,是很关键的。在此省略Gephi的具体操作,主要考虑的截图太多了,直接展示结果:

以上这些还仅仅是从词的关系来进行分析的,了解彼此之间的关系情况。那么到底哪些词是经常出现的呢?这里运用Python的NLTK_Data来进行Tags一下:

启示二:看过这些词的网络关系、高频词后发现了些什么?时间、到家、邮件、商务、地址、跟踪......等都是一个个值得关注的点。

接下来,想不想看看这些留言,到底蕴含着怎样的情感?这就要用NLP(自然语言处理)了,这也是Python的强项,运用TextBlob来进行分析,下一次有机会再用SnowNLP来对于中文进行情感分析。

Python3.6 界面:

在此仅仅列举一条评论为例来分析,对于每句话进行了Polarity(-1负面,1正面)赋值,分别为-0.1、-0.15555.....等等,这就可以对于关键词句进行分析了,以了解背后的信息。从评论来看,总体还是积极的。

一旦了解了怎样对于文本进行情感分析,后续可以做的还很多,包括评论正负的总体分布、时间序列的情绪变化等,由于篇幅、时间、精力的限制,在此仅仅列一下正负意见的分布图(选取了前1000句进行分析,上半部分为正向、下半部分为负向、中间为中立)

对于文本的分析,还有诸多可以深入的地方,特别是可以运用于Customer Voice,这是很有效的工具。对于快递企业而言,有着众多的用户,有着众多的正向评价,当然也会有消费者的现实期望和待提高反馈,这类讯息则是更会显得为重要和关键,对于形成独特且具竞争力的服务至关重要。

声明:

相应的数据仅作分析演示,不对样本企业(Fedex)进行优劣评价,秉承客观!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180801B1D6CP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券