前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >案例分享:义乌房屋租赁市场分析(2)

案例分享:义乌房屋租赁市场分析(2)

作者头像
逍遥之
发布2020-03-23 17:38:39
3830
发布2020-03-23 17:38:39
举报
文章被收录于专栏:数据技巧

分析网页结构:

我们知道Power Query可以直接通过函数获取网页的信息,我们要想获取这些信息,首先得分析网页的结构以便找到真实数据的存放地方。

我们先打开搜索界面https://yw.zu.anjuke.com/fangyuan/p/,同时按F12调出浏览器的开发者调试工具,找到我们需要对应信息的文档。

通常来说,一般的网页抓取主要有Get方式和Post方式。

Get方式就是所有的参数在网页链接上会显示;Post的方式就是需要递交一定的参数来获取,数据的变化不体现在网页链接上。那我们来看下这个网站的结构是如何的,是Get类型的还是Post类型的。

对于我们数据分析来说,网页数据格式如果是Josn格式或者是Xml格式,那最好,我们可以通过Power Query直接解析生成,通过观察在抓包过程中,我们看到在XHR格式里面确实有一个Josn格式的文件,但是并不是我们想要的内容。

这部分内容我们仔细观察是在底部广告栏这里的数据,所以我们还需要另外查找。

我们在Doc文档里面找到我们所需要的数据内容的文件,然后观察获取的方式。

我们所需要的就是数据已经找到,那接下来就是要把这里面的数据给提取出来。我们发现这个文件是Get方式获取的。我们可以把数据折叠下,可以看到所有所需要的数据是在每一个<divclass="zu-itemmod"层级下面。那我们实际上就只需要提取所有<divclass="zu-itemmod"所包含的数据内容后再做清洗。最后我们通过观察得到是数据所处的位置在"<!--区域板块租房房源列表页-->"和"<!--零少结果推荐文案,置于最底部-->"之间,所有我们之后要提取的数据就会用着2个关键词作为提取位置的定位。

外我们通过翻页可以观察到https://yw.zu.anjuke.com/fangyuan/p2/红色字体实际上就是页数,之后我们在构建公式的时候这一个地方需要实现变量操作。

对于搜索页面的主要展示数据我们已经知道了数据所在的地方,那我们来看下明细页面里数据所在的地方。

同理在XHR文件格式里面所看到的数据并不是我们所希望得到的,我们所希望得到的数据依旧在Doc文件里面。

请注意,配套设备这里表明了带有has的代表有,没有has关键词的代表不提供,也就是图案这里是显示灰色额。

到目前为止,我们把网页的结构以及数据所处的位置分析好了,接着就是在Power Query中进行提取这些信息了的操作了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据技巧 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分析网页结构:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档