前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >这个网站用PowerBI、PowerQuery不好爬?这一招交给你

这个网站用PowerBI、PowerQuery不好爬?这一招交给你

作者头像
陈学谦
发布2022-05-25 13:38:01
7360
发布2022-05-25 13:38:01
举报
文章被收录于专栏:学谦数据运营学谦数据运营

有同学想用powerbi爬这个网址

https://flk.npc.gov.cn/fl.html

但是发现它跟其他网址不太一样,因为翻页的时候地址栏还是一样的地址。

遇到这种情况该怎么办呢?

今天教你一招来搞定,此方法适用于很多网站,并且也是一项网爬的基本技能。

一、获取真正的url链接

1、打开网页,右键空白处-检查,选择网络:

2、点击翻页,下方会出现一个新的链接:

3、点击链接,右方默认会出现如图所示的栏目,选择标头,复制下方的请求URL,记住方法为GET:

4、分析URL

https://flk.npc.gov.cn/api/?page=5&type=flfg&searchType=title;accurate&sortTr=f_bbrq_s;desc&gbrqStart=&gbrqEnd=&sxrqStart=&sxrqEnd=&sort=true&size=10&_=1651834715885

page=5代表第5页,size=10代表一页有10行内容,最后的那个& =之后内容是个时间戳,一般无所谓的,删掉即可,其他内容代表一些筛选项

所以链接可以简化为:

https://flk.npc.gov.cn/api/?page=5&type=flfg&searchType=title;accurate&sortTr=f_bbrq_s;desc&gbrqStart=&gbrqEnd=&sxrqStart=&sxrqEnd=&sort=true

5、将简化的链接输入地址栏

返回了10条记录

并且我们在这里发现,该筛选一共有613条记录,每页10条,也就是62页:

我们可以将上方链接替换为62看看,果然这一页上只有2条记录:

二、PowerBI或PowerQuery获取数据

1、创建一个文本参数

2、新建源-web:

将此参数替换掉链接中的那个数字5:

3、展开得到数据:

4、创建参数:

在刚刚得到的这个表上右键创建函数:

5、新建一个空查询:

写入= {1..70}获取一个列表,并转换为表:

一共是62页数据,为了预备以后更新,设置为70页

6、调用自定义函数:

每一列都生成了一个table:

7、展开table:

8、关闭并上载即可得到想要的数据:

ok!搞定!

你学会了,以后遇到这种翻页时地址不变的网页,就可以采用相同的办法解决!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PowerBI生命管理大师学谦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、获取真正的url链接
    • 1、打开网页,右键空白处-检查,选择网络:
      • 2、点击翻页,下方会出现一个新的链接:
        • 3、点击链接,右方默认会出现如图所示的栏目,选择标头,复制下方的请求URL,记住方法为GET:
          • 4、分析URL
            • 5、将简化的链接输入地址栏
            • 二、PowerBI或PowerQuery获取数据
              • 1、创建一个文本参数
                • 2、新建源-web:
                  • 3、展开得到数据:
                    • 4、创建参数:
                      • 5、新建一个空查询:
                        • 6、调用自定义函数:
                          • 7、展开table:
                            • 8、关闭并上载即可得到想要的数据:
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档