我们知道Power Query可以直接通过函数获取网页的信息,我们要想获取这些信息,首先得分析网页的结构以便找到真实数据的存放地方。
我们先打开搜索界面https://yw.zu.anjuke.com/fangyuan/p/,同时按F12调出浏览器的开发者调试工具,找到我们需要对应信息的文档。
通常来说,一般的网页抓取主要有Get方式和Post方式。
Get方式就是所有的参数在网页链接上会显示;Post的方式就是需要递交一定的参数来获取,数据的变化不体现在网页链接上。那我们来看下这个网站的结构是如何的,是Get类型的还是Post类型的。
对于我们数据分析来说,网页数据格式如果是Josn格式或者是Xml格式,那最好,我们可以通过Power Query直接解析生成,通过观察在抓包过程中,我们看到在XHR格式里面确实有一个Josn格式的文件,但是并不是我们想要的内容。
这部分内容我们仔细观察是在底部广告栏这里的数据,所以我们还需要另外查找。
我们在Doc文档里面找到我们所需要的数据内容的文件,然后观察获取的方式。
我们所需要的就是数据已经找到,那接下来就是要把这里面的数据给提取出来。我们发现这个文件是Get方式获取的。我们可以把数据折叠下,可以看到所有所需要的数据是在每一个<divclass="zu-itemmod"层级下面。那我们实际上就只需要提取所有<divclass="zu-itemmod"所包含的数据内容后再做清洗。最后我们通过观察得到是数据所处的位置在"<!--区域板块租房房源列表页-->"和"<!--零少结果推荐文案,置于最底部-->"之间,所有我们之后要提取的数据就会用着2个关键词作为提取位置的定位。
外我们通过翻页可以观察到https://yw.zu.anjuke.com/fangyuan/p2/红色字体实际上就是页数,之后我们在构建公式的时候这一个地方需要实现变量操作。
对于搜索页面的主要展示数据我们已经知道了数据所在的地方,那我们来看下明细页面里数据所在的地方。
同理在XHR文件格式里面所看到的数据并不是我们所希望得到的,我们所希望得到的数据依旧在Doc文件里面。
请注意,配套设备这里表明了带有has的代表有,没有has关键词的代表不提供,也就是图案这里是显示灰色额。
到目前为止,我们把网页的结构以及数据所处的位置分析好了,接着就是在Power Query中进行提取这些信息了的操作了。