hello,大家好,今天我们接着上次的话题继续聊,上次我们是获取了“天天基金网”主页的几个字段的内容,本期我们尝试获取一下:基金排行下面的第一页的基金数据。
好了,通过上图我们已经知道我们的任务以及最终获取的数据,接下来我们分析一下,如何从首页出发然后模拟人来点击基金排行,最终出现基金排行列表数据,最终如何通过解析元素来获取我们想要的数据。
我们先按一下F12,就会弹出我下图所示的画面,
我们通过元素定位发现:基金排行,其实背后是对应了一个a标签,其标签内容是一个请求地址http://fund.eastmoney.com/data/fundranking.html,好的看到这里我想看我前面分享的同学就清楚应该怎么做了,对的,就是我们使用这个链接发送一个get请求不就可以跳转到基金排行的页面了吗?事实如此吗?
果然如此,好了,我们已经通过请求这个链接来到了这个页面,那么我们怎么获取页面的数据呢?如法炮制,继续按我们的神器"F12".
首先,我们看到页面的内容确实有所反应,但是我们如何获取呢?网站请求数据是这样的一个流程:你发送一个请求给网站后台(这个过程叫请求)---->网站后台收到信息后会给你返回了你现在看到的这个页面(这个过程叫做相应),好了,那我就知道了,想要获取信息我就要去找网站后台发送给我的相应信息。去哪里找呢?请看下图:
通过上图我们发现在右侧的返回信息中可以找到一个特定的url,然后我们看到其返回的response中确实有我们想要的数据,可以看一下我红框圈住的数据是不是网站的第一条数据,中金瑞祥A这只基金的数据,通过以上的分析我们可以清楚的看到,我们是如何一步步去分析请求的流程以及分析如何找到我们想要的数据的全过程。
好了,分析就先到此结束,思路我已经讲完了,使用代码去实现这部分的数据抓取也算是给自己留的一个"小作业"吧
本文分享自 python编程从入门到实践 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!