开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python爬取各类文档方法归类小结，获取文档资料必备小脚本

文章来源：企鹅号 - A2Data

前言

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。

抓取TXT文档

如果抓取的是某个HTML，最好先分析，例如：

抓取CSV文档

抓取PDF文档

抓取word

方法：

（1）利用urlopen抓取远程word docx文件；

（2）将其转换为内存字节流；

（3）解压缩（docx是压缩后文件）；

（4）将解压后文件作为xml读取

（5）寻找xml中的标签（正文内容）并处理

发表于: 2020-11-262020-11-26 08:19:03
原文链接：https://kuaibao.qq.com/s/20201126A01P9200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群