小勤:大海,上次你教我《爬取了沪深A股中的一页》内容,我练过了,这次,继续教我多爬取几个页面呗。
大海:嗯,其实爬取多几个页面跟爬取一个的方法是一样的,只是,一页一页的分开爬取了之后,要再整合一下数据而已。
小勤:鹅……
大海:首先,我们还是先按页面爬取数据,比如我们要爬取如第1、5、10三页数据,然后整合到一起。更多页数的操作方式完全一致,你可以自行练习。
Step-1:查看网站第1 、5 、10页的链接
Step-2:【新建查询】-【从其他源】-【自网站】
Step-3:填入URL(网址)-【确定】,进入PQ操作界面
Step-4:选择股票信息所在的表-【编辑】
Step-5:将第1页的查询的名称命名为“第1页”(根据自己喜欢)以方便后续区分
Step-6:加载数据【关闭并上载】-【关闭并上载至…】
——因为我们不需要这个单独页面的数据直接显示出来,所以【只创建连接】即可
重复Step-2至Step6,分别应用第5页和第10页的网址新建查询,得到相应页面的数据,最终Excel中分别建立了3个查询,如下图所示:
Step-7:整合数据【新建查询】-【合并查询】-【追加】
Step-8:选择要合并的表
Step-9:设置数据隐私信息
Step-10:修改查询名称为“整合1-5-10”(可按自己喜欢起名)
Step-11:筛选去除数据时间行
Step-11:删除多余的列
Step-12:上载数据
因为整个的数据要在Excel中显示出来,所以直接点击【关闭并上载】按钮即可,最终结果如下图所示:
小勤:太好了。虽然中间有很多步骤都是做过的,但也接触了几点新知识:
大海:嗯,总结得不错。
小勤:那啥时候教我们全部页面爬取啊?
大海:这个难度相对比较大一些,那涉及到自定义的函数,属于高阶内容,我先陆续把PQ的基础给你讲完,你练好了,我们再来一起做。
小勤:嗯。不要急,不要等!你说得真好!