我使用docx4j创建docx文件。在文档创建之后,我需要知道页面的数量。
我知道我可以使用docx4j读取持久化的页面数如下:
final WordprocessingMLPackage doc = ... // read doc
org.docx4j.openpackaging.parts.DocPropsExtendedPart docPropsExtendedPart = doc .getDocPropsExtendedPart();
org.docx4j.docProps.extended.Properties extendedProps = docPropsExtendedPart.getJaxbElement();
final Integer pages = extendedProps.getPages();
但是它总是返回1
,因为这是持久化到docx文件的页面数。Apache显然返回相同的结果(XWPFDocument为docx文件返回1页)。
当您用Word打开文档时,您可以注意到在最初的几秒钟内,页面数稳步更新(这确定初始页数为1
,Word在应用影响页数的样式等之后动态更新它)。
我读到你可以先把它转换成PDF格式,然后再读取页数。docx4j在github上提供的样例PDF转换使用商业PDF转换器,所以我不能重用这段代码。此外,首先把它转换成PDF似乎很麻烦,而且对我来说也是不必要的浪费时间。
问题:在不使用商业软件的情况下读取Java中的docx文件的页数最快的方法是什么?
//编辑:不幸的是,java中的word文档中的页数这个问题对我没有帮助。正如我上面所写的,apache (和其他API)只读取持久化的页面数(即1)。我需要的是实际的页数,因为Word在实际打开文件时会显示它。
发布于 2020-03-26 21:22:42
您可以使用documents4j (尽管这需要Word);请参阅https://www.docx4java.org/blog/2020/03/documents4j-for-toc-update/
您可能需要更多地定制word_convert.vbs。
https://stackoverflow.com/questions/60863007
复制相似问题