文章/答案/技术大牛

发布

谷歌表单Google SpreadSheet智能抓取实例

文章来源：企鹅号 - 睡前故事之不想长大

和你同年的人只会越来越少 —— 题记

又到了一月一篇的技术专题时间

破解大礼包倾情奉献

新鲜出炉的

一步一步的数据爬取教程。

背景

现在是大数据的时代

打开任意一个网站

绕开各种木马

也不一定能点开你想要的页面

这个时候，需要技术上线

问题

我找到了一个网站

叫盘易搜

网址是 http://www.panyisou.com/file-new/

里面有一个模块，叫最新资源

点开资源，再点击里面的百度云链接

好样的，可以直接看到资源本身了

作为一个影视资源站长

我们想要得到这样一个链接

左边是是剧名，右边是百度云链接

OK，跟我走起。

具体步骤如下，手把手教你爬资源

第一步，找到目标资源页面

http://www.panyisou.com/file-sp-new/

第二步，打开google spreadsheet。（啥，打不开？没关注我吧。。。）

起个名字

第三步，输入

第四步，获取所需元素的xpath

第五步，按照importxml公式的格式，补完

第六步，当当当当！

好像哪里不对

专家说直接复制chrome里自带的xpath有25%的概率不行

并建议好好学学xpath query

好好学学。。。

好像我学过。。。

略

哈哈哈哈

利用残存的记忆憋出来一个公式

=importxml(A2,"//*[@class='c_fn']/a")

还行，意会意会

找规律就好

第七步，百度云链接好像不在这个页面

没事，曲线救国

先获取包含百度云的链接

=importxml(A2,"//*[@class='c_fn']/a/@href")

公式如出一辙

但是出来的结果是相对链接

需要继续补完

/fileview-3593004/

第八步，补完链接

这个网站首页是http://www.panyisou.com

给他补上

=D2&C2

知识点！如何把俩单元格内容串一起！

第九步，获取百度云链接

公式 =importxml(E2,"//*[@class='jubao']/span")

第十步，抓取第二第三页

这个时候发现google也不是那么强大

任务量多了就装傻了

先不管了

到这里就差不多了？

我觉得还有优化的空间吧

1. 新建一个表

2. 发布这个表

3. 获取公开链接

4. https://docs.google.com/spreadsheets/d/e/2PACX-1vTxCBpVUUKwOlU5iTS6A9cfq3Yn2WtTqyRs4JW0atSWY8uT_F2_xWl6JY-O6w8KJIktUGJXR7TNTVFt/pubhtml?gid=1040063939&single=true

5. http://buxiang.com.cn/mw/latest.php

大功告成！

哎，不能只看中间这远点

整张图是方的！

是方的！

发表于: 2018-11-302018-11-30 08:30:00
原文链接：https://kuaibao.qq.com/s/20181129A1PON000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

谷歌表单Google SpreadSheet智能抓取实例

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐