前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >技术| Python中的从零开始系列连载(三十九)

技术| Python中的从零开始系列连载(三十九)

作者头像
灯塔大数据
发布2019-05-07 15:15:10
4470
发布2019-05-07 15:15:10
举报
文章被收录于专栏:灯塔大数据灯塔大数据

导读

为了解答大家学习Python时遇到各种常见问题,小灯塔特地整理了一系列从零开始的入门到熟练的系列连载,每周五准时推出,欢迎大家学积极学习转载~

以前一直不知道如何爬取动态内容,知道看了@Lerther 的文章,才知道。下面拿九派新闻来试试。 原文https://zhuanlan.zhihu.com/p/24838761

1.寻找URL

进入九派新闻内容页http://jphao.jiupaicn.com/index.php?m=content&c=jiupaihao&a=index,“F12”——“Network”——“F5”,勾选“XHR”,发现多个文件。

经过一个一个寻找,在Preview中先测试,发现就是内容页的新闻,打开Headers,寻找我们要的URL,GET请求。

2.爬取内容

先上代码

代码语言:javascript
复制
import requests
import json


url = 'http://appjph.jiupaicn.com/app/content/recommend_pc/list?deviceId=888&type=1&page=1&pageSize=15&_=1485163767294'
webdata = requests.get(url).text

data = json.loads(webdata)
news = data['resultData']

for n in news:
	title = n['title']
	name = n['memberName']
	News_url = 'http://jphao.jiupaicn.com/index.php?m=content&c=jiupaihao&a=article&' + '&id=' + n['id'] + '&memberId=' + n['memberId']
	print(title,name,News_url)

OK,大功告成,和头条不一样的是,九派新闻URL有所改变,是id + numberId 组成,只需要在最后修改下就可以了,但是只能爬取十多条。慢慢学,慢慢来吧。

至于为什么要爬取九派,哼哼,,,

好啦,这期的分享先到这里,大家可以按照上面的详细步骤进行练习。加油,我们下周五不见不散~

文章来源:Python爱好者社区

文章编辑:思加

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 融智未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档