首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软Excel和Python都能爬取网页信息,你该怎么选?

最近体验了一下Excel(PowerBI Desktop)爬取网页信息的能力,基于这些体验也写了几个帖子,对Excel(PowerBI Desktop)爬取网页的能力基本满意。

在Excel中,抓取网页的操作路径是:数据-新建查询-自web。可以简单抓取。

PowerBI Desktop可以进行稍微复杂的抓取。在输入网址后可以选择从网页页面自定义抓取的字段,甚至可以在查询代码编辑页面自己写css selector来进行更多样化的抓取。

这两天我又折腾了用Excel(PowerBI Desktop)抓取更复杂的网页信息。不得不说,在复杂抓取网页信息方面,Excel(PowerBI Desktop)体验比较糟糕——爬取网站信息的速度慢得让我无法忍受。刷新一次结果至少要两三个小时乃至更多。

我终于失去耐心,还是重操python大业(太多东西又忘掉了……),爬取同样的信息,python五六分钟就爬取完毕,这个效率的差异可比Excel和PowerBI Desktop高太多了。

所以,我的结论是:

1.简单爬取,页数不多情况下,用微软的Excel(PowerBI Desktop)不失为一个可行的选项。

2.大批量爬取,还是使用python这类工具吧(应该还有其他更高效的工具,但我只勉强会用python,所以只能提python)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181231A07DDN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券