谷歌表单Google SpreadSheet智能抓取实例

和你同年的人只会越来越少 —— 题记

又到了一月一篇的技术专题时间

破解大礼包倾情奉献

新鲜出炉的

一步一步的数据爬取教程。

背景

现在是大数据的时代

打开任意一个网站

绕开各种木马

也不一定能点开你想要的页面

这个时候,需要技术上线

问题

我找到了一个网站

叫盘易搜

网址是 http://www.panyisou.com/file-new/

里面有一个模块,叫最新资源

点开资源,再点击里面的百度云链接

好样的,可以直接看到资源本身了

作为一个影视资源站长

我们想要得到这样一个链接

左边是是剧名,右边是百度云链接

OK,跟我走起。

具体步骤如下,手把手教你爬资源

第一步,找到目标资源页面

http://www.panyisou.com/file-sp-new/

第二步,打开google spreadsheet。(啥,打不开?没关注我吧。。。)

起个名字

第三步,输入

第四步,获取所需元素的xpath

第五步,按照importxml公式的格式,补完

第六步,当当当当!

好像哪里不对

专家说直接复制chrome里自带的xpath有25%的概率不行

并建议好好学学xpath query

好好学学。。。

好像我学过。。。

哈哈哈哈

利用残存的记忆憋出来一个公式

=importxml(A2,"//*[@class='c_fn']/a")

还行,意会意会

找规律就好

第七步,百度云链接好像不在这个页面

没事,曲线救国

先获取包含百度云的链接

=importxml(A2,"//*[@class='c_fn']/a/@href")

公式如出一辙

但是出来的结果是相对链接

需要继续补完

/fileview-3593004/

第八步,补完链接

这个网站首页是http://www.panyisou.com

给他补上

=D2&C2

知识点!如何把俩单元格内容串一起!

第九步,获取百度云链接

公式 =importxml(E2,"//*[@class='jubao']/span")

第十步,抓取第二第三页

这个时候发现google也不是那么强大

任务量多了就装傻了

先不管了

到这里就差不多了?

我觉得还有优化的空间吧

1. 新建一个表

2. 发布这个表

3. 获取公开链接

4. https://docs.google.com/spreadsheets/d/e/2PACX-1vTxCBpVUUKwOlU5iTS6A9cfq3Yn2WtTqyRs4JW0atSWY8uT_F2_xWl6JY-O6w8KJIktUGJXR7TNTVFt/pubhtml?gid=1040063939&single=true

5. http://buxiang.com.cn/mw/latest.php

大功告成!

哎,不能只看中间这远点

整张图是方的!

是方的!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181129A1PON000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券