python爬取百度新闻:分析共享单车火爆背后有哪些规则?

从12月份起,“共享单车”作为新生事物开始大量进入人们的视野,并且越来越多的上班族愿意接受、尝试。

本文将教与大家利用python爬虫抓取新闻页面,从媒体反映角度去了解,“共享单车”为何有井喷式发展,前景又是如何?

一、百度新闻页面抓取

进入百度新闻页面

http://news.baidu.com/ns?ct=1&rn=20&ie=utf-8&bs=%E5%8D%95%E8%BD%A6+%E6%8A%95%E8%B5%84&rsv_bp=1&sr=0&cl=2&f=8&prevct=no&tn=news&word=%E5%85%B1%E4%BA%AB%E5%8D%95%E8%BD%A6&rsv_sug3=9&rsv_sug4=679&rsv_sug1=4&inputT=6133&rsv_sug=1

在搜索框内输入关键词搜索即可出现我们要找的内容。

我们选定的关键词为“共享单车”,“网约+单车”,“网约+自行车”,“单车+投资”,“单车+融资”。在python爬虫的url代码中依次更换这几个关键字分别爬取。

爬取的网页源码如下:

红框内为我们需要提取的内容,即新闻标题,发布媒体,发布时间三个字段。

python2.7 爬虫代码如下:

#coding:utf-8
import urllib2
import csv
import re
from bs4 import BeautifulSoup

#设置默认encoding方式
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#此处需要注意,最好查看一下最大网页数,如果填超过了会报错
for k in range(1,38):
#待抓取的网页地址
    url = 'http://news.baidu.com/ns?word=单车+融资&pn=%s&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0'% ((k-1)*20) 
    #wb写 a+追加模式
    csvfile = file('rongzi.csv', 'ab+')
    writer = csv.writer(csvfile)
    
    content = urllib2.urlopen(url).read() #获取网页的html文本
   
    #使用BeautifulSoup解析html
    soup = BeautifulSoup(content,'lxml')
    list0 = []
    list1 = []
    list2 = []
    list3 = []
   
    #识别热点新闻
    for i in range(0,20):
        hotNews = soup.find_all('div', {'class', 'result'})[i]
        a1=hotNews.find(name="a", attrs={"target": re.compile("_blank")})
        list0.append(a1.text)
        a2=hotNews.find(name="p", attrs={"class": re.compile("c-author")})
        t1=a2.text.split()[0]
        list1.append(t1)
        t2 = a2.text.split()[1]
        list2.append(t2)
        if t2.find(u'年') == 4:
            t3 = a2.text.split()[2]
            list3.append(t3)
        else:
            list3.append(' ')
   
    #将数据写入csv
    data = []
    for i in range(0,20):
        data.append((list0[i], list1[i], list2[i],list3[i]))
    writer.writerows(data)
    csvfile.close()
    print "第" + str(k) + "页完成"


代码中需要注意的地方是开头的
for k in range(1,38):
最好查看一下百度搜索的最大网页数,如果填写超过了会报错




另外,数据爬取下来后保存的是csv格式,需要先用记事本打开,点另存为 设置编码格式,不然直接打开会是一堆乱码。(坑都为你指出来了~)




本次爬取的数据如下,共计2400多条。数据稍加清洗便可做分析。




二、文本数据分析

“共享单车”萌芽于何时?



最早提及“共享单车”一词的报道是腾讯科技于2015年11月9日发布。当时的经济背景是创投遇冷,共享经济火热。
2015年末,在移动互联网红利将尽,O2O项目接连倒闭的情况下,共享汽车、房子、自行车成为了最热门的项目。
共享经济的代表Uber和Airbnb连续几年都是美国创业公司估值排行中的第一和第二,而在中国遇见了太多的现实问题。
网约车新政、房屋出租的管理条例、以及地方性的城市管理条例都会对共享经济的发展造成巨大的影响。

腾讯科技推出系列文章《共享经济这一年》第三期:公共自行车入局,共享单车开启混战模式,谁能笑到最后?
引起媒体对“共享单车”的关注。

据原文介绍,自2015年9月以来,宣布进入共享单车领域的新厂商至少已有十几家,入局者遍及互联网公司、单车制造商、公共自行车运营方等。
一些厂商为了能在冬天继续开展业务,一反此前将北京上海作为首站的常态,将目标首先投向温暖的广东,以争取珍贵的几个月时间。
不过,老玩家们也不是没有想到这一点。原本在领域内占据最大的份额的摩拜与ofo两家已经布局了广州深圳两座南方城市。
至此,布局五座城的摩拜与布局四座城的ofo已在北上广深四座城开战,加上新入局的玩家,广深两地的共享单车市场预计将变得越发热闹。

使用在线词频分析工具进行统计

          词频 TOP10

去掉搜索关键词 “单车”、“共享”、“自行车”,从统计结果看,行业内前十的关键字,80%都跟“钱”有关。
媒体非常关注资本市场,换句话说,共享单车兴起不久,现在已演变为资本驱动市场,在资本领域的角逐异常激烈。“大战”一词的比重颇高,
不由得联想到前几年网约车刚兴起,滴滴与快滴之间为争夺市场而引发激烈的价格战。

从词云结果看,“烧钱”、“融资”,“火拼”,“混战”占据着头条。




以下为节选的近期共享单车行业融资消息:
2016年9月,滴滴出行数千万美元战略投资ofo共享单车;

2016年9月,摩拜单车宣布获得腾讯、红杉等战略投资,一亿美金的C轮融资;

2016年10月,ofo共享单车获1.3亿美元投资 小米顺为资本等领投;

2016年10月内3轮:小鸣单车宣布完成从天使融资至B轮融资;

2016年11月,优拜单车获1.5亿元A轮融资;

2016年12月,优拜单车再获1亿元B融资;

2016年12月“1步单车”A轮融资2亿元,投资方为恒基浦业和众驰投资

。。。。

简直白热化的融资速度。如果一个市场不能快速建立核心竞争力,建立行业壁垒,待资本加入进来,争夺将是残酷的
值得一提的是,前十关键字中,为何有“尴尬”一词?
查看原文~~



不禁让人哑然,与“尴尬”一词联系紧密的有“损毁”、"上锁",“频遭”,“骗钱”,“难觅”。。。
这行业缺乏有力监管,市场混乱可想而知。

从下面搜索结果看,单车还被扔到河里也是没谁了。。。



下面来看品牌热度

过去一年以来,媒体中报道的共享单车品牌在十家左右,其中ofo、摩拜两个品牌出现报道最早,现在的用户份额也最大,优拜、小鸣单车、小蓝单车为最近入行,资本实力不容小觑。其中,优拜在206年11月份获1亿元A+轮融资,“小鸣单车”在2016年9月份获联创永宣冯涛等数千万人民币天使融资,2016年10月20日,宣布1亿元A轮融资消息12天后,小鸣单车又顺利完成了B轮融资,融资额和投资方都暂未透露。

地域热度

可以看出,共享单车现在未在全国内推广,多数中小城市仍为空白,各品牌现在都是“先入者”,格局未定,处于“自由生长”阶段。待行业“领导者”出现,将迎来一场大规模的市场洗牌。

媒体特征

关注媒体共计438家,其中网易新闻以163条居首,前十家的媒体发布量占整体的26%。发布媒体类型的占比如下,其中财经类占半数。

发布日期

很明显,进入206年7月后,共享单车市场逐渐火热,直到12月份达到顶峰,一个月内新闻发布量达700篇。

从发布时间点来看,上午9点至11点间的发布量最大,一天之内有两个峰值,分别为上午10点左右,下午15:30左右。而媒体是倾向于第一时间发布消息的,0点至上午12点以前的发布量占54%。

本文至此结束。如借助微博等社交平台,爬取到用户评论信息,舆论的挖掘将更全面,这个留到下次再探究。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知晓程序

星巴克小程序新玩法!比微信群抢红包还刺激

没错,一杯咖啡,便可以让我们这帮「咸鱼」,迅速切换到「我爱工作,工作使我快乐」的清醒模式。

8210
来自专栏镁客网

「镁客晚报」华为和三星被无赖缠上,小米发布三款新品

16830
来自专栏PPV课数据科学社区

【每日一课】第38课:Index函数的基础用法介绍

课程名称 Excel 2007/2010表格基础入门和常用函数视频教程(共40课) 第38课:Index函数的基础用法介绍 课程目的 能基本掌握excel常...

36860
来自专栏CIT极客

极客周刊丨国产勒索病毒来袭,高校AI战胜律师团,DDoS事件刷历史记录...

30550
来自专栏老苏机

早报:个人网店大部分将要工商登记?

1、个人网店大部分将要工商登记:社会效益如何最大化 个人开网店需要工商登记吗?10月31日,《电子商务法(草案)》已提请全国人大常委会第三十次会议审议。本次二...

393130
来自专栏ytkah

微信官方整理出的一些“微信电子证件”

今年两会上,马化腾分享了关于“E证通”的一些想法:将身份证网证、港澳通行证、回乡证等证件通通“装进”微信卡包里,为粤港澳大湾区的居民提供更便捷的生活体验。其实,...

50690
来自专栏PPV课数据科学社区

【每日一课】第8课:数据的筛选与排序

PPV课大数据 课程名称 Excel 2007/2010表格基础入门和常用函数视频教程(共40课) 第8课:数据的筛选与排序 课程目的 能基本掌握excel常用...

30440
来自专栏coding

终于,在广州有了属于自己的窝

在一线城市漂泊打拼的年轻人,最大的梦想可能就是能尽快在这个大城市扎根落户。尤其是从小地方出来的年轻人,再也不可能回老家了。一来不知道回去能做什么工作,二来很难重...

14960
来自专栏大数据文摘

数据播报 | 黑客,何以上榜时代周刊2016年度风云人物

17650
来自专栏FreeBuf

暗网儿童个人信息数据增长182%,儿童身份盗用成为获利新手段

报告《身份泄露海啸仍在继续》显示,2017年4iQ发现了87亿条原始记录中的超过30亿条身份记录。

13410

扫码关注云+社区

领取腾讯云代金券