首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用PdfSharp从C#中提取文本

使用PdfSharp从C#中提取文本
EN

Stack Overflow用户
提问于 2012-04-13 20:48:57
回答 3查看 46.5K关注 0票数 53

有没有可能用PdfSharp从PDF文件中提取纯文本?我不想使用iTextSharp,因为它有许可证。

EN

回答 3

Stack Overflow用户

发布于 2014-06-05 03:37:48

采用了Sergio的答案,并做了一些扩展方法。我还将字符串的累加过程更改为迭代器。

代码语言:javascript
复制
public static class PdfSharpExtensions
{
    public static IEnumerable<string> ExtractText(this PdfPage page)
    {       
        var content = ContentReader.ReadContent(page);      
        var text = content.ExtractText();
        return text;
    }   

    public static IEnumerable<string> ExtractText(this CObject cObject)
    {   
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                    foreach (var txt in ExtractText(cOperand))
                        yield return txt;   
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
                foreach (var txt in ExtractText(element))
                    yield return txt;
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            yield return cString.Value;
        }
    }
}
票数 45
EN

Stack Overflow用户

发布于 2014-05-15 09:02:08

我以某种方式实现了它,类似于David是如何做到的。下面是我的代码:

代码语言:javascript
复制
    {
        // ....
        var page = document.Pages[1];
        CObject content = ContentReader.ReadContent(page);
        var extractedText = ExtractText(content);
        // ...
    }

    private IEnumerable<string> ExtractText(CObject cObject )
    {
        var textList = new List<string>();
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                {
                    textList.AddRange(ExtractText(cOperand));
                }
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
            {
                textList.AddRange(ExtractText(element));
            }
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            textList.Add(cString.Value);
        }
        return textList;
    }
票数 21
EN

Stack Overflow用户

发布于 2013-08-01 16:36:29

PDFSharp提供了从PDF中提取文本的所有工具。使用ContentReader类访问每个页面中的命令,并从TJ/Tj运算符提取字符串。

我已经将一个简单的实现上传到了github

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10141143

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档