前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >工作效率:通过pdfkit包实现网页导出为pdf

工作效率:通过pdfkit包实现网页导出为pdf

作者头像
Freedom123
发布2024-03-29 14:59:40
820
发布2024-03-29 14:59:40
举报
文章被收录于专栏:DevOpsDevOps

简介

遇到禁止复制该怎么办?幸好我会Pytho,相信大家都有遇到这种情况(无法复制):

或者是这种情况

以上这种情况都是网页无法复制文本的情况。不过这些对于Python来说都不是问题。今天辰哥就叫你们用Python去解决。

思路:利用pdfkit库将html网页保存为pdf

一、pdfkit

pdfkit,把HTML+CSS格式的文件转换成PDF格式文档的一种工具。它就是html转成pdf工具包wkhtmltopdf的Python封装。所以,必须手动安装wkhtmltopdf。

1.安装

首先需要安装 pdfkit 库,使用 pip install pdfkit 命令就好了。 还需要安装 wkhtmltopdf 工具,本质就是利用这个工具来进行转换,pdfkit 库就是作为接口来调用该工具。 python版本 3.x,在命令行输入:

代码语言:javascript
复制
pip install pdfkit

工具下载地址:wkhtmltopdf 官网:https://wkhtmltopdf.org/downloads.html

选择对于的版本下载并安装(记住自己的安装目录)

CentOS系统可以直接使用以下命令安装:

代码语言:javascript
复制
$sudo yum intsall wkhtmltopdf
2.使用
2.1将url生成pdf文件

不指定wkhtmltopdf,会从系统的默认执行路径下找 wkhtmltopdf

代码语言:javascript
复制
import pdfkit

'''将url生成pdf文件'''
def url_to_pdf(url, to_file):
    pdfkit.from_url(url, to_file,verbose=True)
url_to_pdf('http://www.baidu.com','out_3.pdf')

指定 wkhtmltopdf 的位置:

代码语言:javascript
复制
import pdfkit

'''将url生成pdf文件'''
def url_to_pdf(url, to_file):
 
    config = pdfkit.configuration(wkhtmltopdf='/usr/local/bin/wkhtmltopdf')
    pdfkit.from_url(url, to_file,configuration=config,verbose=True)


url_to_pdf('http://www.baidu.com','out_3.pdf')
3.执行

这样将内容保存为pdf就可以直接进行复制了。感兴趣的小伙伴,可以尝试其他的网页(你懂得)

二、小结

本文的讲解就到这里,内容主要是将网页保存为pdf,对于其他禁止复制的网页、长网页等都可以保存为pdf。大家下去可以去自己尝试。

1.参考

(2条消息) python包-pdfkit(wkhtmltopdf) 将HTML转换为PDF_python pdfkit_西京刀客的博客-CSDN博客

付费文章就不能复制了?Python第三方库轻松搞定!_python爬取不可复制的文章_码上开始的博客-CSDN博客

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 一、pdfkit
    • 1.安装
      • 2.使用
        • 2.1将url生成pdf文件
      • 3.执行
      • 二、小结
        • 1.参考
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档