前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >POI系列之根据样式识别word内容和标题

POI系列之根据样式识别word内容和标题

作者头像
SmileNicky
发布2020-11-03 10:45:30
1.2K0
发布2020-11-03 10:45:30
举报
文章被收录于专栏:Nicky's blogNicky's blog

业务场景:最近接到需求,想实现将一份word文档,其中特定的文本内容获取出来,首先想到两种方法,一种是通过OCR技术,一种是通过模板占位符。 虽然想起来好像是可以实现的,不过ocr技术自己要在短时间实现是不太现实的,要用第三方的会加重项目成本。然后思路是想通过先固定特定的模板,通过一些占位符技术去实现,想法可以,也有在一些付费的第三方应用里看到过,不过实现起来也没那么容易,特别是想要在一两天内实现,时间太紧促了,所以只能通过一种小技巧绕过,方法虽然可行,不过不是好的方法

这种方法是先约定模板,要筛选出来的文本固定一种特定的样式,然后通过通过程序识别出这种文本,还有一种方法是通过书签,不过网上搜到有第三方jar是要收费的,就不描述了

poi-ooxml是word文档需要的

代码语言:javascript
复制
<properties>
   <poi.version>3.9</poi.version>
</properties>

<dependencies>
   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi</artifactId>
       <version>${poi.version}</version>
   </dependency>
   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi-ooxml</artifactId>
       <version>${poi.version}</version>
   </dependency>
</dependencies>
代码语言:javascript
复制
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;

import java.io.*;
import java.util.List;

public class WordUtils {

    public static void main(String[] args) throws Exception {
        String filePath = "D://test.docx";
        printWord(filePath);
    }

    public static void printWord(String filePath) throws IOException {

        XWPFDocument document = new XWPFDocument(POIXMLDocument.openPackage(filePath));
        List<XWPFParagraph> paragraphs = document.getParagraphs();

        for (XWPFParagraph p : paragraphs) {
        	//获取段落中的句列表
            List<XWPFRun> runsLists = p.getRuns();
            for (XWPFRun runs : runsLists) {
            	//获取句的字体颜色
                String c = runs.getColor();
                //获取句中字的大小
                int f = runs.getFontSize();
                //获取文本内容
                String s = runs.getText(0);
                // 字体为16的黑色字体都筛选出来
                if (f == 16 && "000000".equals(c)) { 
                    System.out.println(s);
                }
            }
        }
    }
}

ps:本博客内容比较简单,只是自己做下记录,有时间再探讨一下实现,网上实现的很多都是付费的,不建议用本博客的方法,本博客只是自己做下笔记

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-11-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档