首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java 操作 Office:POI word 之文档信息提取

    最近频繁地在与文档开发打交道,除了之前做过的文档生成,最近又在调研文档内容提取、解析相关的内容。顺手整理下来,供各位开发同学参考。 一 背景 简单来说,就是有一些文档数字化的场景。...包括对word、pdf格式的文档进行内容提取,之后做格式解析,并根据具体的业务需求,还会有文本识别提取关键内容的一些动作。...说起来看似简单,但仔细分析,其中会涉及ocr(pdf文档内容识别)、nlp(文本内容解析,例如标题提取、关键字解析等)等等。...重点:1、文档读取方式:HWPFDocument;2、格式获取:通过Range获取所有段落的数量,并逐个遍历,再通过文档的StyleSheet,获取格式名;3、根据业务需要,对格式做一些基础转换 public...再细化一点,如下是某个系统的文档: 我们希望提取到系统的功能清单,如果是批量或者动态的解析(非人工)该怎么做?

    4.3K21
    领券