前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python写的爬虫太难,那excel爬虫呢?

python写的爬虫太难,那excel爬虫呢?

作者头像
Python与Excel之交
发布2021-08-05 15:25:24
2.1K0
发布2021-08-05 15:25:24
举报
文章被收录于专栏:Python与Excel之交Python与Excel之交

excel爬虫其实已经存在很久,但很多人都不知道的,其中excel的 VBA代码就可以进行爬虫,但我觉得VBA代码相比python还是太难懂了!而本次也不是用VBA代码进行爬取,而是用excel的Power Query编辑器,接下来让我们看看它是怎么进行爬取的。

实战演练

本文案例网址:

代码语言:javascript
复制
http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml

首页如下,我们要爬取其商品价格:

单页爬取

如果只爬取一页数据,除了复制粘贴,这里介绍另一种简单的方式:点击【数据】导航栏→点击左边【自web】→在【地址栏中输入网址】→单击【橙色箭头】→点击【导入】。这样简单的数据就导入成功了。

以上操作虽然简单,但没有必要,一页数据复制粘贴其实已经可以搞定了,至于其是否有多页爬取的操作,小锋也不清楚,如果有知道的,希望能留言告知!

多页爬取

这里利用excel大杀器Power Query编辑器,该编辑器的功能多种多样,本次用其来爬取网页数据,其不仅能爬取一页数据,还可以爬取多页数据。

第一步:①点击【数据】→②点击【新建查询】→③点击【从其他来源】→④点击【自网站

第二步:在弹出的从web窗口中选择【高级】,在url部分中拆解网址链接,其中第二部分对应的是页码,拆解完成之后点击确定。

第三步:在弹出的从导航器窗口中选择相应的【表格】,在右边【表视图】中查看数据,确定为所需要的数据之后,点击【转换数据】。

这样一页数据就爬取成功了!

第四步:这一步只要是更改页码进行多页爬取,在主页中点击【高级编辑器】,在弹出的高级编辑器窗口中,在前面加入【(p as number) as table =>】,并将URL中的页码“1”更改为【(Number.ToText(p))】,然后点击完成!

第五步:在主页中依次点击【新建源】→【其他源】→【空查询

第六步:在【查询1】页面中的输入框输入={1..10},这里你想爬取多少页就更改这个区间;输入完成后,按回车!接着点击转换到表!在弹出的窗口点击确定!

第七步:点击导航栏中的【添加列】→选择【调用自定义函数】→在弹出的窗口中,在功能查询中选择【已自定义的函数】,然后点击确定!

第八步:调用自定义函数完成后,界面会出现两列数据,这时点击第二列右上角,里面会加载一些列名称,选择需要的然后点击确定!

第九步:查看数据并修改列名称,确认无误后,点击【关闭并上载】→【关闭并上载】。

爬取完成,十页一共200行数据:

结语

excel爬虫对静态网页且是表格类型的网页有奇效,其和python中pandas爬虫差不多,大家有兴趣可以多进行尝试!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与Excel之交 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档