首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python-html转pdf

下班之后。

冷清灯光下的街道。

十字路口拐角情侣的拥抱。

而我。

我一个狗吃饭,到处走走停停。

今天给大家介绍如何把html网页转换为PDF文件。这样就可以卖盗版书发家致富了。

下图是网上的一个python教程。

我们可以看到页面结构是左侧为目录,右侧为正文。把目录和正文提取出来就OK啦。

转换之后的效果是这样的。图片和细节的部分没有调整。大致能看。盗版书管那么多干嘛。

实现的关键是使用了pdfkit这个库。pdfkit是wkhtmltopdf这个软件的python封装,可以将HTML、CSS格式的文件转换成PDF格式文档。

先使用requests抓取每个目录的url,然后再通过目录的url抓取对应的正文页面源码。使用BeautifulSoup工具来解析页面源码,将需要的html结构提取出来保存为html文件。之后用pdfkit把html文件转为pdf文件。

代码长这样:

就是这样。通过卖盗版书我们距离发家致富又进了一步。

而我。

我一个狗看盗版书。

2017.12.15

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215G0WMJJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券