首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用python爬虫方式:刷文章阅读量

用python爬虫方式:刷文章阅读量

作者头像
努力在北京混出人样
发布2019-02-18 14:58:41
3.1K1
发布2019-02-18 14:58:41
举报
文章被收录于专栏:祥子的故事祥子的故事

利用python爬虫来抓取你要的网页内容,实际上是对该内容的一次阅读,这样可以带来阅读量的增加。这次以爬去CSDN博客为例,其他的网站也许要另外设置。

使用python第三方包有:bs4、requests、time 这里间歇时间设置为2秒 采用headers来隐藏,原因是:CSDN设置了防爬虫的措施。采用headers可以避开,成功获取CSDN网页内容。

代码如下:

from bs4 import BeautifulSoup
import requests
import time


url =('http://blog.csdn.net/googdev/article/details/52575079')



headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
for i in xrange(10000):
    time.sleep(2)
    req = requests.get(url,headers =headers )
    soup = BeautifulSoup(req.text,'lxml')
    rank =  soup.select('#blog_rank')
    view = soup.select('.article_manage .link_view .title')
    print view
    print i

若是你想采用这个代码,只需要对headers修改即可。关于如何获取headers可以百度下或谷歌下。方法很简单的,相信你也能学会这个很简单的方法。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年10月06日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档