专栏首页面朝大海春暖花开java读取pdf文本转换html

java读取pdf文本转换html

完整代码地址 也就两个文件

 java读取pdf中的纯文字,这里使用的是pdfbox工具包

maven引入如下配置

     <dependency>
            <groupId>net.sf.cssbox</groupId>
            <artifactId>pdf2dom</artifactId>
            <version>1.7</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox-tools</artifactId>
            <version>2.0.12</version>
        </dependency>

工具类直接读取

代码示例

  /*
    读取pdf文字
     */
    @Test
    public void readPdfTextTest() throws IOException {
        byte[] bytes = getBytes("D:\\code\\pdf\\HashMap.pdf");
        //加载PDF文档
        PDDocument document = PDDocument.load(bytes);
        readText(document);
    }

    public void readText(PDDocument document) throws IOException {
        PDFTextStripper stripper = new PDFTextStripper();
        String text = stripper.getText(document);
        System.out.println(text);
    }

将pdf转换为html

效果图

 代码示例

/*
    pdf转换html
     */
    @Test
    public void pdfToHtmlTest()  {
        String outputPath = "D:\\code\\pdf\\HashMap.html";
        byte[] bytes = getBytes("D:\\code\\pdf\\HashMap.pdf");
//        try() 写在()里面会自动关闭流
        try (BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(outputPath)),"UTF-8"));){
            //加载PDF文档
            PDDocument document = PDDocument.load(bytes);
            PDFDomTree pdfDomTree = new PDFDomTree();
            pdfDomTree.writeText(document,out);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
    将文件转换为byte数组
     */
    private byte[] getBytes(String filePath){
        byte[] buffer = null;
        try {
            File file = new File(filePath);
            FileInputStream fis = new FileInputStream(file);
            ByteArrayOutputStream bos = new ByteArrayOutputStream(1000);
            byte[] b = new byte[1000];
            int n;
            while ((n = fis.read(b)) != -1) {
                bos.write(b, 0, n);
            }
            fis.close();
            bos.close();
            buffer = bos.toByteArray();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return buffer;
    }

完整的一个上传pdf转换为HTML功能(今后转换pdf也不需要找什么第三方了,哈哈)

@RequestMapping("ud")
@Controller
public class UpAndDownController {
    @RequestMapping("upload.do")
    @ResponseBody
    public Map<String,Object> upload(@RequestParam("file") MultipartFile file, HttpServletRequest request){
        Map<String, Object> map = new HashMap<>();
        map.put("code","200");
        try {
            PdfConvertUtil pdfConvertUtil = new PdfConvertUtil();
            String pdfName = file.getOriginalFilename();
            int lastIndex = pdfName.lastIndexOf(".pdf");
            String fileName = pdfName.substring(0, lastIndex);
            String htmlName = fileName + ".html";
            String realPath = ResourceUtils.getURL("classpath:").getPath() + "/templates/file";
            File f = new File(realPath);
            if(!f.exists()){
                f.mkdirs();
            }
            String htmlPath = realPath + "\\" + htmlName;
            pdfConvertUtil.pdftohtml(file.getBytes(), htmlPath);
        } catch (Exception e) {
            map.put("code","500");
            e.printStackTrace();
        }
        return map;
    }

}

可以使用postman调试

需要设置请求头 Content-Type 指定为 application/x-www-form-urlencoded

之后选择body选择form-data,OK

如果涉及到HTML页面直接加载PDF,无需插件

可以参考下 

https://www.cnblogs.com/jacksoft/p/5302587.html

https://github.com/mozilla/pdf.js

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在docker中运行mysql实例

    Docker是一种新兴的虚拟化技术,能够一定程度上的代替传统虚拟机。下图是容器跟虚拟机的对比

    陈灬大灬海
  • 在docker中运行mysql实例

    Docker是一种新兴的虚拟化技术,能够一定程度上的代替传统虚拟机。下图是容器跟虚拟机的对比

    陈灬大灬海
  • springboot不占用端口启动

    有人可能会说,引入spring-boot-starter-web主要是为了方便测试,其实完全可以使用单元测试进行操作

    陈灬大灬海
  • java基础io流——字符流的变革(深入浅出)

    在io流里,先诞生了字节流,但是字节流读取数据会有乱码的问题(读中文会乱码)。比如:

    100000860378
  • java实现多个网络文件批量下载并压缩

    文档管理模块,列表中显示的记录的每日文件上传保存的记录.每条数据中有一个字段存放了文件的存储地址文件服务器上

    java攻城狮
  • itext7知识点研究(PDF编辑)

    static class MyEventListener implements IEventListener { private List<Recta...

    老梁
  • Flink-Kafka 连接器及exactly-once 语义保证

    在 Flink 中,Source 代表从外部获取数据源,Transfromation 代表了对数据进行转换操作,Sink 代表将内部数据写到外部数据源

    kk大数据
  • 【死磕Sharding-jdbc】---SQL解析-词法分析

    sharding-jdbc对SQL解析的源码主要在下图所示parsing模块中,由下图可知SQL解析主要分为两部分:lexer和parser。lexer就是本文...

    用户1655470
  • Go 并发实战--协程浅析 二

    继续上一篇的内容,我们介绍了go协程的实现中的几个核心的对象,也说了他们之间是如何合作工作的。

    邹志全
  • DIY 13.8V 通信电源

    于是就有了给开关电源做个外壳的想法,去华强北走了一圈发现各种配件,可以做一个更完美的机箱。

    netkiller old

扫码关注云+社区

领取腾讯云代金券