首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬取百度文库搜索文章

阅读各种开源代码解读文章!

备注:以下代码只为研究技术分析,相关下载请于24小时内删除

Python是一门非常简单的语言,快速入门之后可以做很多事情。另外Python又名爬虫,就是因为其在网页抓取的上的快速功效,今天这个例子就是不到百行代码实现从百度文库抓取文章

从百度文库爬取相关的文章,其中大致分为两个步骤

1,给定关键字,搜索百度文库,并按页解析出要下载的文档url

2,批量下载url下的文档

网上关于Python爬取百度搜索结果的代码还是挺多的,但是没找到爬取百度文库的,对比百度搜索和百度文库的url,两者差异并不大,只是部分关键字,百度搜索用的缩写

对比了下看看里面的几个区别,差别不是太大,主要是百度搜索用的是缩写,所以只要把代码略微修改即可,这里就不重复贴代码了,文章的末尾我会把全部代码贴出来

找到搜索结果url后,后面翻页,两者的逻辑是一致的,都是用pn=?进行页面偏移,所以只要解析url的结果获取对应的文章地址,保存下来,第一步就算是完成了

第二步其实就是遍历拿到文档url,依次下载,只是需要url请求的时候需要模拟手机,因为电脑端会因为翻页问题导致无法完整下载

大概步骤就是这样,下面就直接上代码了

第一步骤代码

1、根据关键字拼出来搜索结果url

2、通过https访问百度文库获取搜索结果

3、解析搜索结果,将文库的文档地址,保存到一个txt中

第二步骤代码

1、读取txt,依次访问文档url,将url中的文档,保存到本地

—————END—————

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190209G04RM500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券