首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

golang转换pdf到word

注:本例子适合将小文件纯文本的pdf转换为word文档

演示环境:

centos7

Apache/tika (解析pdf)

go-tika  (golang库)

1、首先下载Apache/tika的jar包,下载地址如下:

2、启动tika包,执行命令如下:

3、查看进程对应端口9998,如图:

4、定义main.go文件,文件内容如下:

18行:调用ReadPdf()函数,将new.pdf文件作为参数传递过去,通过os.Open()打开文件,调用tika的NewClient函数解析pdf文件(NewClient的第二个参数就是tika进程),返回解析后的字符串和错误

23行:将解析内容写入到html文件中

28行:调用函数deleteTitle,删除html文件中的title标签,因为此标签中包含特殊字符,如果不删除会报xml语法错误

32行:再次读取html文件,将html转换为doc文件

5、在main.go同级目录下创建文件夹readhtml,在文件夹中定义文件readhtml.go,内容如下:

8行:定义多个结构体,用于接收反序列化数据

22行:读取html文件的函数,接收第4步传递过来的html文件

28行:反序列化xml内容到结构体中

33行:遍历P标签内容,并将遍历后的字符串转为字节切片后再次添加到字节切片b中(主要目的为了后面的写入doc中)

36行:将字节切片b的内容写入到文件res.doc中

6、上传new.pdf文件到main.go同级目录下,然后执行main.go,如图:

可看到执行后生成了out.html和res.doc文件,查看res.doc文件内容(截取部分)如下:

源文件new.pdf内容如下:

至此,PDF转word完成!!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230207A0202200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券