文章/答案/技术大牛

发布

社区首页 >问答首页 >使用PDF Clown检测PDF表格中的标题和边框

问使用PDF Clown检测PDF表格中的标题和边框
EN

Stack Overflow用户

提问于 2015-07-20 22:39:12

回答 1查看 393关注 0票数 1

我正在使用PDF Clown的TextInfoExtractionSample将PDF表格提取到Excel中，除了合并的单元格之外，我可以做到这一点。在下面的代码中，对于object，" content“，我看到扫描的内容是文本、XObject、ContainerObject，但没有边框。谁知道什么对象代表PDF表格中的边框，或者如何检测文本是否是表格的标题？

   private void Extract(ContentScanner level, PrimitiveComposer composer)
   {
      if(level == null)
        return;
      while(level.MoveNext())
      {
        ContentObject content = level.Current;
      }
    }

pdf

pdfclown

回答 1

Stack Overflow用户

发布于 2015-08-07 23:29:01

我用的是

的TextInfoExtractionSample...

在下面的代码中，对于object，" content“，我看到扫描的内容是文本、XObject、ContainerObject，但没有边框。

while(level.MoveNext()) { ContentObject content = level.Current；}

A)访问所有内容

    if(content is XObject)
    {
        // Scan the external level!
        Extract(((XObject)content).GetScanner(level), composer);
    }

和

    if(content is ContainerObject)
    {
        // Scan the inner level!
        Extract(level.ChildLevel, composer);
    }

这些块使得样本递归成为复杂的对象(您提到的XObject、ContainerObject )，而这些对象又包含它们自己的简单内容。

B)检查所有内容

任何人都知道什么对象代表

表格中的边框

因此，在扫描页面内容时(递归地，如A中所示)，您必须查找包含以下内容的Path实例(名称空间org.pdfclown.documents.contents.objects

moveTo m，lineTo l和笔划S操作或
矩形re和填充f操作。

(This answer可能会有所帮助)

如果PDF恰好是带标签的，事情可能会更容易一些，因为你需要解释的更少。相反，您可以阅读标记信息，它可能会告诉您单元格的开始和结束位置，因此您不需要解释图形线。不幸的是，更少的PDF被标记。

或者如何检测文本是否是表格的标题？

如上所述，除非您碰巧检查了带标签的PDF，否则不会立即告诉您某些文本是表格标题。你得再解释一遍。它是在顶部的里面吗？或者就在里面的任何地方？它是以特定字体绘制的吗？还是更大？不同的颜色？等。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31519363

复制

相似问题

问使用PDF Clown检测PDF表格中的标题和边框
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PDF Clown检测PDF表格中的标题和边框EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PDF Clown检测PDF表格中的标题和边框
EN