首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在 Linux 使用 gImageReader 从图像PDF 中提取文本

,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。...然而,Tesseract 本身是一个没有任何 GUI 命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它从图像和文件中提取文本。...让我重点介绍一些有关它内容,同时说下我在测试期间使用经验。...以列表总结下功能,这里是你可以用它做事情: 从磁盘、扫描设备、剪贴板和截图中添加 PDF 文档和图像 能够旋转图像 常用图像控制,用于调整亮度、对比度和分辨率。...所有的仓库和包链接都可以在他们 GitHub 页面中找到。 gImageReader 使用经验 当你需要从图像中提取文本时,gImageReader 是一个相当有用工具。

2.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

基于iTextSharpPDF文档操作

,DHL公司将物流面单以pdf文件流形式返回,就是我们可以保存成Pdf文件,这样就容易处理多,我们自己拣货面单,如果也可以保存至Pdf文件,这样就可以将这2个Pdf文件一块打印出来,这算是一个折中解决方案...技术点如下     1, 将DataTable导出至Pdf     2, DataTable中包含图片,也要能导出     3, Pdf类库,字体引入(居然需要引用字体绝对路径,想不通)   下面分别讲解...代码如下: /// /// 创建Pdf所需图像 /// /// /// <param name...baseFont = iTextSharp.text.pdf.BaseFont.CreateFont(fontPath, iTextSharp.text.pdf.BaseFont.IDENTITY_H...前2联是DHL返回Pdf文件,第3联是我本地生成Pdf文件,合并成一个完整发货面单 ?

1.7K100

iText 制作PDF

前言 由于在MVC项目中需要使用PDF,所以自己抽空也来看看itext,以便于丰富自己知识吧。在此也简单记录一下,说不定以后可能还用到。...在此您可以下载你想使用版本http://sourceforge.net/projects/itextsharp/files/itextsharp/。于是我就下载了现在最新版本5.4.0。   ?...,如果希望使用横向页面,你只须使用rotate()函数: Document document = new Document(PageSize.A4.rotate());   当创建一个文件时,你还可以定义...、主题、关键字、作者、创建程序,但以下产品信息将始终被添加:   iTextSharp (或者iTextSharp引用)和创建时间(实际这两种方法是自动调用)。   ...itextsharp 类库创建PDF文件例子"); doc.AddTitle("此PDF由aehyok创建,嘿嘿"); doc.AddKeywords

2.2K20

强大 .NET PDF处理神器:PDFSharp

://www.e-iceblue.cn/Introduce/Spire-Office-NET.html iTextSharp:https://github.com/itext/itextsharp 有一说一都挺好用...尝试使用了下,还不错,该有的都有,简单pdf文件可以直接使用PDFSharp库生成,复杂点则提供了MigraDoc来编辑。 自己小应用都已经生成环境了,觉得该库是挺ok了。...主要功能 1、创建PDF:无需预先存在模板,PDFSharp允许您直接从头开始构建PDF文档。 2、内容插入:支持在PDF页面中添加文本、图像、表格、图形等丰富元素。...PDFSharp文档 .NET Framework 文档站点下有很多例子大家可以看看 我使用方式较为粗暴,使用MigraDoc编辑文档表格,再生成PDF文件。...代码示例 让我们来制作下图PDF 新建一个项目,通过Nuget引入PDFsharp、PDFsharp-MigraDoc, 若用System.Drawing图形库则不用引用SkiaSharp,我例子使用

28710

一些好用开源控件

archive/2005/03/24/124254.html 官网地址:http://logging.apache.org/log4net/ 三、MagickNet 缩图工具       MagickNet是著名图像处理组件...            MagickNet.Image img = new MagickNet.Image(fileallname);//fileallname为图片在服务器绝对路径             .../Files/lts8989/lucene.rar 官网地址:http://lucene.apache.org/ 五、PDFBox读取PDF文件       好多对pdf操作工具都是创建pdf文件,...读取pdf工具有PDFBox和iTextSharp,有网友推荐使用iTextSharp,我在项目中使用是PDFBox,个人感觉这个工具效率很低。...PDFBox是一个将java源码编译成.netdll文件工具(看到此处时候我也感到很神奇)。以下地址不太详细介绍了PDFBox和iTextSharp使用

1.6K60

LIMS系统仪器数据采集-使用xpdf解析pdf内容

不同语言解析PDF内容都有各自库,比如Javapdfbox,.netitextsharp。...itextsharp或者pdfbox解析某PDF文件时,文本内容以竖排形式输出,不易解析信息。...而使用xpdf,则可以指定-layout参数,将其按照页面显示布局方式输出。 下图为PDF样式: ? 下图为pdfBox、itextsharp解析出内容样式: ?...下图为xpdf设置了layout后解析样式: ?  可以看出,使用xpdf解析出内容较容易识别出有意义数据项。...例子中中文没有解析出来,可通过配置PDF中文字体解决,xpdf另一个强项功能,就是它支持配置pdf字体,有些PDF内容通过itextsharp解析不出来情况下,使用xpdf在配置了正确字体后可以解析出内容

1.7K40

文档在线预览实现

最近在研究企业文档管理,这个是基本所有企业都需要软件,当然也是有很多种解决方案。对于企业文档来说,最基本需求就是独立存储,共享。...这一点微软高级解决方案是使用RMS,能够设置每个用户打开权限,是否打印等,要求必须是域内,而且只管理Office文件权限,对txt,pdf就没办法了。...如果是文本需要转换为PDF,我们可以使用iTextSharp这个组件,对于纯文本,注意是源文件中没有设置字体之类,需要在转换成PDF时指定字体,否则对于中文可能由于没有设置字体而转换不出来。...功能,在转换后,我们可以进一步使用ITextSharppdf进行加工,比较常见添加水印功能。...这个在以前是不现实,现在有了HTML5,只要浏览器支持HTML5就可以使用pdf.js库,将服务器pdf文件转换成HTML5代码展示在浏览器

3.5K10

开源免费且稳定实用.NET PDF打印组件itextSharp(.NET组件介绍之八)

对于项目开发中使用到打印地方会非常多,在.NET项目中,选择打印方式比较多,例如原始IE网页打印、水晶报表、JS插件实现打印、导出文档打印,以及今天提到使用itextSharp组件实现PDF打印等等...在.NET中实现PDF打印组件比较多,例如PDFsharp、Report.NET、sharpPDF、itextSharp等等,今天主要简单介绍itextSharp组件。...一.itextSharp组件概述:          1.iTextPDF库,它允许你创建,调整,检查和维护可移植文档格式文件(PDF):         (1).基于从XML文件或数据库中数据生成文件和报告...iText所使用Java,.NET,Android和GAE开发人员加强与PDF功能应用程序。iTextSharp是.NET端口。    ...2.itextSharp一些特征:        (1).PDF生成。        (2).PDF操作(冲压水印,合并/拆分PDF文件,...)。

7.4K50

c# 常用框架整理

POI是一个开源Java读写Excel、WORD等微软OLE2组件文档项目。使用 NPOI 你就可以在没有安装 Office 或者相应环境机器对 WORD/EXCEL 文档进行读写。...它使用相同绘制程序来创建 PDF 文档,在屏幕显示,以及输出到打印机。可以修改、合并、拆分已经存在 PDF 文件,支持透明图像。...它接受DataTable 和一些其它参数来创建XSL FO,并使用NFOP (Apache FOP Port in J#) PDF Formatter来绘制一个类似PDF Report DataGrid...iTextSharp iTextSharp是一款开源PDF操作类库,使用它可以快速创建PDF文件。...它结合了美国国家航空航天局(NASA)从卫星拍摄图像,这些图像应用于Blue Marble, Landsat 7, SRTM, MODIS 以及其它更多地方。

4.7K10

iOS开发之使用Storyboard预览UI在不同屏幕运行效果

在之前博客中也提到过,团队合作使用Storyboard时,避免冲突有效解决方法是负责UI开发同事最好每人维护一个Storyboard, 公用组件使用轻量级xib或者纯代码来实现。...言归正传,接下来就介绍一下如何使用Storyboard来预览UI在不同那个分辨率屏幕运行效果,这就很好避免了每次调整约束都要Run一下才能看到不同平面上运行效果,今天博客就来详述一下如何使用Storyboard...一、创建工程添加测试使用UIImageView     创建一个测试工程,在ViewController添加4个不同尺寸UIImageView, 并且添加上不同约束,最后添加上不同文艺小清新图片...,最终Storyboard控件和约束如下所示。...三、添加预览设备     1.双击上面加号按钮回出现预览窗口,在预览窗口左下方有一个加号按钮,通过加号按钮你可以添加不同尺寸屏幕进行预览,从3.5到iPad应有尽有,添加是的截图如下所示。

2.2K80

Excel催化剂开源第31波-pdf相关功能实现及类库介绍

在Excel催化剂刚推出pdf相关功能中,反馈很热烈,不止是用户层面好多人喜欢,也听到在.NET开发群里有询问pdf在winform展现功能诉求,一段时间没写开源篇,生怕大家以为Excel催化剂太小气了...PdfiumViewer关键词下好像有一个86和64合成版 PdfiumViewer更多用途可以在winform显示pdf文档,这里只是借用了人家直接pdf转图片小部分功能。...里面提供Table行、列坐标,貌似测试了好久,不能用来在itextSharp提取到数据。...pdf提取内容 这个用itextSharp,但听说这个是开源有限制,5.0高版本不能用在商业软件。...pdf提取图片 这个也是用itextSharp,厚道点,这里直接给大家贴代码,不用花时间找了。

64520

java PDF开源库选择与iText发展历史

2.2 iText vs Apache FOP和PDFBox 2.2.1 点击量/浏览量/欢迎度比拼 先来看一下14年google两款软件点击量比较: 图1. google上访问量比较...再看一下和PDFBox在Github两者的人气: iText: PDFBox: 这还不包括iText其他项目,光一个项目iText就占上风了。...iText 1.x-2.x/iTextSharp 3.x-4.x(2006-2009) 这些版本库很受欢迎,但是这些库不在更新也不能在商业环境中使用 这些版本最后版本是在2009年(iText...iText库.NET版本,并且与iText版本号同步,iText 5.0.0和iTextSharp5.0.0同时发布 Java方面,使用Java 5/JDK 1.5 iText开始逐渐专业化,iText...参考资料 [1] PDF百度百科词条 [2] PDF文件读写(使用SDK).

5.6K30

PDF添加水印(Python+C#)

1、Python + PDFlib    以下是用PDFlib给pdf添加水印速记,另外PDFStamp是个很好用pdf水印工具。PDFlib功能比较多、杂;PDFStamp功能单一,更方便使用。..., pdf_file_out, p_w_picpath_file):     p = PDFlib()     p.set_option("license=xxxxx")   #your key     ...p.end_page_ext("");                       p.close_p_w_picpath(p_w_picpath)     p.end_document("") 2、C# + iTextSharp...using System; using System.IO; using iTextSharp.text; using iTextSharp.text.pdf; //给单个文件添加水印,在右上角和左下角各添加一个水印...//所有参数均为全路径文件名 bool add_watermark(string srcPdf, string dstPdf, string p_w_picpathpath) {          iTextSharp.text.Image

97130

使用iText5来处理PDF

项目要求,通过pdf模板,把用户提交数据保存到一个PDF文件中。其中有文字内容,也有图片。...之前选了aspose.pdf,因为抠门,不能花钱买,就从网上找开心版,好不容易出来点模板,结果插入图片时候,同一页只能插入一张图片,而官方试用版是可以正常两张,另外字段比较多,速度比较慢,几百个字段需要一分多钟...之后尝试iText,发现要比aspose.pdf好用多,下面就说下用法。 需要通过nuget安装iTextSharp,选第一个,版本号是5.5.12,也就是iText5版本,该版本是AGPL许可。...完整代码如下: using iTextSharp.text; using iTextSharp.text.pdf; using System.IO; namespace Tools { public...outputPdfStream = new FileStream(savefile, FileMode.Create, FileAccess.Write, FileShare.None)) //创建新pdf

2.4K10

C#服务器端生成报告文档:使用帆软报表生成Word、Pdf报告

http://www.fanruan.com/  二、服务器端集成 帆软报表使用Java实现,可部署在Tomcat,客户端查看报表时可直接在浏览器呈现。...对于企业应用中报告文档生成,可通过模拟Web请求获取到报表/报告Word、Pdf输出文档;如果需要对生成文档做二次加工,例如与其他文档合并等,可接着使用Word操作组件、服务(例如DocX、MS...Word DCOM等)或PDF操作组件(iTextSharp等)操作文档,最终生成一份完整报告。...=paramvalue格式追加到url使用HTTP Get请求该URL,则可访问到报表。...参数format指定输出文件格式,可指定为pdf、doc、xls,输出PDF、Word、Excel文件;需要注意是,输出Word文件实质是RTF文件,如果需要用DocX等Office Open XML

2.2K70
领券