我正在尝试使用iText7创建一个验证工具,以比较标记的PDF的阅读顺序和标记顺序。我是iText的新手。
我在c#中使用了下面的代码来提取标记结构并将其保存为xml。参考:(Get marked content using the MCID content)
FileStream outXml = new FileStream("pdf_content.xml",FileMode.CreateNew);
TaggedPdfReaderTool tool = new TaggedPdfReaderTool(pdfoc);
tool.SetRootTag("root");
tool.ConvertToXml(outXml);
outXml.Close();
我希望将读取顺序导出为Xml或其他格式。
发布于 2019-08-23 16:58:56
不是的。
阅读顺序是人类的概念,可能因人而异。
看一下下面的例子:
红色部分是与故事相关的片段,但它们打破了正常布局。
读取顺序(一般情况下)至少需要人工验证。
https://stackoverflow.com/questions/57587354
复制相似问题