怎么把pdf文件扫描成文字

将PDF文件扫描成文字可以通过以下步骤实现：

准备扫描设备：首先需要准备一台支持扫描功能的设备，如扫描仪或多功能一体机。
扫描文件：将要转换的PDF文件放置在扫描设备上，并使用设备的扫描功能将文件扫描为图像格式，如JPEG或TIFF。
图像处理：将扫描得到的图像文件进行预处理，以提高后续文字识别的准确性。常见的预处理操作包括图像增强、去噪、裁剪等。
文字识别（OCR）：使用光学字符识别（OCR）技术将图像中的文字转换为可编辑的文本。OCR技术可以识别图像中的文字，并将其转换为计算机可处理的文本格式。
校对和编辑：对识别出的文本进行校对和编辑，以确保准确性和完整性。校对过程中可以修正识别错误、调整格式、添加必要的标点符号等。
导出为文本文件：将编辑好的文本保存为文本文件，如TXT、DOC或PDF等格式，以便后续使用或分享。

腾讯云提供了一款名为"腾讯文档识别（OCR）"的产品，它可以帮助用户将PDF文件扫描成文字。腾讯文档识别（OCR）支持多种语言的文字识别，并提供了丰富的API接口和SDK，方便开发者在自己的应用中集成文字识别功能。您可以通过访问以下链接了解更多关于腾讯文档识别（OCR）的信息和产品介绍：

腾讯文档识别（OCR）产品介绍：https://cloud.tencent.com/product/ocr

请注意，以上答案仅供参考，具体的实施步骤和推荐产品可能因个人需求和环境而异。

页面内容是否对你有帮助？

有帮助

没帮助

在OSX中为扫描手写便笺的PDF添加文本层

、、

在课堂上，我喜欢手写的笔记，然后我扫描它们，然后把它们打出来(帮助我记住它们，也使它们易于搜索)。主要的问题是，我使用了大量的绘图和复杂的数学，将数学公式转换成胶乳(或word)非常耗时，绘图要求我保存PDF和文本文档。我想做的是把我自己输入的基本文本(没有OCR)添加到PDF的文本层中，这样PDF就可以搜索，并且我可以通过不转换数学或绘图来节省很多时间。我已经研究过Preview、PDFpenPro、acrobat和一些linux程序，但到目前为止，我还没有找到任何能够做到这一点的东西。知道我怎么做这个或者一个程序来用吗？

浏览 9提问于2013-09-12得票数 2

2回答

如何确定是否扫描了.pdf文件的内容

、、

因此，我有一个.pdf文件，我需要能够确定它是否是通过扫描到PDF中创建的。我正在尝试确定它是否是我可以显示为文本的pdf。我可以使用PHP和Zend。我在想我也许可以用Zend的 $pdf->properties['Producer'] 但我不是百分之百确定。有没有办法确定我处理的是哪种类型的.pdf文件？

浏览 6提问于2010-03-05得票数 3

回答已采纳

1回答

如何将pdf文件从灰度转换为黑白？

、

我的操作系统是Ubuntu12.04。如何将pdf文件从灰度转换为黑白？灰度pdf文件来自于带有灰度选项的扫描，并且OCR需要黑白等级pdf。更新：根据Marco的答复，B pdf不是很好，原始文件是这里。

浏览 0提问于2013-07-28得票数 13

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

2回答

用java从PDF中提取文本的最佳方法

、、、、

我想制作一个能够读取PDF文件并解析其内容的程序。因此，我需要使用某种库来提取文本。我找到了三种方法。 OCR库(如Tesseract) ScanPdf库(如iText) 从PDF到文本的转换。我无法理解它们之间的巨大差异，因为它们最终都会从PDF中生成一个文本文件。那么，这件事的最佳方式是什么呢？

浏览 6提问于2020-12-28得票数 1

3回答

找不到bash grep文件

、

我希望应用一些基于grep搜索的命令，我执行了grep -l "If you wish to distribute" *.pdf，并且看到了我想要处理的文件，但是使用以下bash脚本，这些文件不会被处理： #!/bin/bash -x text1="If you wish to distribute" #Science papers # Originally: grep -l "text1" \*.pdf | grep -l "$text1" *.pdf | while IFS="" read -r -d &

浏览 1提问于2012-10-29得票数 1

1回答

扫描PDF文件并通过php上传

、

如何上传pdf文件后，扫描通过扫描仪馈线？我使用插件将图片上传到服务器，但在我正在开发的应用程序中，我必须将PDF文档上传到服务器。你能建议我插件或图书馆，即使不是免费的，我会非常感谢。

浏览 4提问于2012-09-17得票数 0

1回答

波斯文件的PDFBOX

、、、、

我想使用pdfBox从波斯语pdf文件中提取测试，但是它返回所有波斯字符的"?" (它正确地返回同一文档中的拉丁单词)。我怎么才能修好它？有什么建议吗？

浏览 3提问于2018-08-29得票数 3

1回答

如何用python提取pdf中包含图片的页面？

、、

我有4000个扫描的文件作为pdf的。每个pdf包含一个kyc表格，我想提取.Each pdf有40个pages.What技术，我们可以用来获得图像的页码，因为我可以使用pdf2image提取页面提供我有页码。 kyc的形式将是类似的，并将有张贴的图像。我把图像弄模糊了，但质量会更好。

浏览 1提问于2018-12-20得票数 0

1回答

如何指定从我的网站链接的PDF的Google结果条目的标题？

、、

我维护一个小的个人网站，这是由谷歌索引，与一个PDF文件(简历)生成使用LaTeX。目前，PDF和网站主页是我名字的首选，但是PDF的搜索引擎结果出现了错误的标题： 📷 我认为这是因为与PDF的唯一链接是...as a PDF <a href="cv.pdf">here</a>。有没有一种方法，我可以指示谷歌索引器，这个PDF的预定标题不是here，无论是在链接还是在PDF本身？

浏览 0提问于2018-10-07得票数 3

回答已采纳

1回答

具有不同前缀的Ubuntu命令- awk - list文件

、、、、

我在Ubuntu机器上有一个包含大量文件的目录，以及以相同前缀开头的文件子组。我需要目录文件名称中的不同前缀列表，如下所示。关于列名： pj6_ex_18_i535_tr_92.pdf pj6_ex_18_i535_tr_95.pdf ... pj6_ex_14_i535_tr_96.pdf pj6_ex_14_i535_tr_97.pdf pj6_ex_14_i535_tr_98.pdf .... pj1_ex_24_i535_tr_91.pdf pj1_ex_24_i535_tr_92.pdf pj1_ex_24_i535_tr_93.pdf ... pj3_ex_16_i535_tr_2

浏览 0提问于2021-05-05得票数 0

2回答

扫描文件作为可搜索的PDF -工作流程是什么？

我最近买了一台爱普生扫描仪，这样我就可以开始数字化多年来积累的大量文件。我已经学会了如何将文档扫描到PDF文档中，但是，我想确保我的PDF文档有可搜索的文本--我认为技术术语是OCR，但我完全搞不懂。我可以用我的扫描仪把文件扫描到PDF中。但是，如果我正确理解，我无法使他们OCR搜索，除非我使Acrobat和/或ABBYY精细阅读器的工作流程的一部分。(顺便说一下，我用的是一台运行小牛的Mac电脑。) 我想我需要问的第一件事是:我需要什么软件来创建一个OCR可搜索的PDF？就像我说的，我已经安装了爱普生扫描仪软件，但看起来我也需要Acrobat和/或ABBYY精细阅读器。我想我应该问的第二

浏览 0提问于2014-05-12得票数 0

回答已采纳

1回答

无法将文件链接到数据库(phpmyadmin)

、

任务:将新PDF与网站数据库(phpmyadmin)链接起来链接：说明:我将所有旧PDF上传到网站的上传文件夹(在httpdocs目录中) 障碍：如何将所有上传的PDF链接到phpmyadmin数据库。我总是可以提供任何额外的信息，因为我不能真正从表中找到问题所在。，意思是链接：，所以我的意思是，在把PDF上传到他们指定的文件夹上，数据库中已经有名字了，数据库会自动检测，当你按下按钮时，它会提示你从我发送的第一页下载PDF。我指的是phpmyadmin: MySQL数据库。它嵌入在大多数网络主机服务器上。

浏览 3提问于2015-03-15得票数 0

2回答

斜扫描PDF

、

我最近把一本书扫描成了一个600页的PDF文件。然而，页是随机倾斜/旋转顺时针或逆时针方向。有软件可以自动修正吗？我知道Acrobat可以，但是有任何免费的Ubuntu软件/脚本吗？

浏览 0提问于2018-04-26得票数 3

2回答

MS Word文档在不同的浏览器中是否有不同的mime类型？

、

我有一个Java应用程序，允许用户上传Word或PDF文件。我有2个用户在上传.DOCX文件时抱怨文件类型错误。我有两个文件，并上传到我自己的电脑。两人都很顺利。我使用MultipartRequest.getContentType()获取文件类型。然后使用以下方法检查 if(!(myFileType.equals("application/pdf") || myFileType.equals("application/msword") || myFileType.equals("application/vnd.openxmlformats-office

浏览 4提问于2013-08-21得票数 1

回答已采纳

2回答

如何使用惠普特使4500将多个页面扫描到一个PDF文件

、、

我使用的Ubuntu14.04和惠普特使4500打印机(hplip 3.14.10)通过USB连接。我有一份大约12页的文件。我想把它们扫描到一个PDF上。我能够单独扫描每个文件，因此有12个单独的PDF文件，但不是一个PDF。我在网上搜索过，现在很困惑，我不知道该怎么做。有谁可以帮我？

浏览 0提问于2014-11-30得票数 0

1回答

wkhtmltopdf，从perl管道编码西里尔文

、、

因此，我从perl的system方法运行wkhtmltopdf命令脚本。我需要它通过命令行将自定义值(span类)传递给pdf： my $time = "Время"； my $command = "./wkhtmltopdf ...blablabla... gen_date \"$time\“...blablabla..."；但是当我运行这段代码时，我在输出.pdf中遇到了这样的编码垃圾：----μ--。几乎尝试了我所知道的所有方法来编码/解码$time字符串，但一无所获。我的javascript片段对于wkhtmltopdf是常见的，所以...

浏览 0提问于2017-09-13得票数 0

2回答

c# - PdfDocument.GetTextWithFormatting()并不会占用所有页面

、、、、

我试图打开一个大PDF文件，但是用下面的代码 using BitMiracle.Docotic.Pdf; PdfDocument pdf = new PdfDocument("document.pdf") string document = pdf.GetTextWithFormatting(); 字符串document获得第87页(174页)。为什么只需要文件的前半部分？编辑:这是一个评估模式的库限制。还有其他选择吗？

浏览 6提问于2017-07-02得票数 1

回答已采纳

1回答

我需要一个脚本来覆盖背景图像上的MySQL数据库信息，并导出为PDF

、、、、

这就是问题所在。我们正在创建一个营销中心，人们可以去那里拉传单，然后把他们的信息放在这个传单上，然后保存传单和他们的信息。目前的设置只是一个带有可编辑PDF的存储库，但我们刚刚收到的消息是，可编辑的PDF是不允许的，我们必须想出一种方法来自动为每个人生成传单。下面是我希望它是如何工作的：我们不知道该怎么做。如果目前有工具可以做这样的事情，那就太棒了，但我们也可以从头开始工作。任何和所有的建议都将非常感谢！提前感谢！

浏览 2提问于2013-10-03得票数 0

1回答

从webapi2服务调用常规MVC控制器方法

、、

给定一个MVC控制器方法，它构建并返回一个PDF。 [HttpGet] [Route("pdf/{acc}/{sign}")] public async Task<ActionResult> Download(string acc, string sign) { ... // omitted some irrelevant detail. var html = this.View("Letter", model).Capture(this.ControllerContext);

浏览 1提问于2017-04-17得票数 0

回答已采纳

3回答

免费IOS‘扫描’应用程序

、、、、

我正在寻找一个免费的应用程序，可以让我拍摄的文件(‘扫描’)，并优化它。我想要：获得自由保存颜色自动优化允许我把它切下来输出到图像和PDF 自动/手动“透视”(?)修复从角度来看，我的意思是，即使我用一个轻微的角度看，它也应该是笔直的。我不在乎它是不是：广告支持，或大量的应用程序内采购只要上面的功能是在免费版本。

浏览 0提问于2014-10-12得票数 4

回答已采纳

3回答

如何替换多维文本javascript regex

、

我不知道这个案子的术语。我把它叫做multidimensional文本替换。所以#cmiiw。案卷我有一个像这样的text var text = 'Budy: [expression 3 4 5]\nJohn: [expression 2 5 6]'; 但我想要的输出是： Buddy: 3 times smile, 4 times laugh, 5 times mad John: 2 times smile, 5 times laugh, 6 times mad 我已经尝试了regex查询。但我不知道该怎么替换这个号码。这就是我所尝试的： var text = '

浏览 1提问于2021-02-03得票数 0

回答已采纳

5回答

如何在扫描的.jpeg中编辑文本？

、、、

我需要上传一个扫描图像作为PDF文件。扫描完文档后，我有一个带有小文本的.jpeg，在转换为PDF进行上传之前，我希望对其进行编辑。我以前从来没有这样做过，所以我真的被困住了。我该怎么做？

浏览 0提问于2012-12-05得票数 15

回答已采纳

1回答

如何在户外阅读图片和pdf格式的内容

、、

我想知道如何搜索内容从图像和PDF在户外使用光学字符识别集成，请让我知道的步骤，我可以做到这一点？？使用Kofax或EpheSoft扫描软件。告诉我步骤..。我尝试过链接，但安装amp文件失败。例如:内容是从图像或pdf中搜索，这是怎么可能的？请帮帮我.. 在进阶时谢谢

浏览 3提问于2014-08-25得票数 0

1回答

如何处理双引号中的通配符？

、、

在bash中，文件globbing *在双引号中不工作，但是我的文件名包含空格，所以在将它传递给shell脚本之前，我需要双引号文件名。我怎么能这么做？例如 myscript.sh "0$i*.pdf" 其中pdf文件可能是"01a b.pdf"，"02c d.pdf“。我使用i存储1，然后存储2。谢谢。

浏览 0提问于2020-11-27得票数 1

回答已采纳

2回答

从扫描仪扫描并直接打印到另一台打印机(2个设备)

、、、

我有一个佳能PIXMA MFP，可以双工扫描堆栈与其文件馈线。我有一个独立的双工激光打印机兄弟。佳能是通过WiFi，可以轻松地扫描与简单的扫描应用程序。兄弟打印机在USB上，打印得很好。佳能是喷墨打印机。因此，我不愿使用喷墨复制大量文件，因为激光打印机效率更高，速度更快。现在，我们扫描文件作为PDF从佳能。把PDF打印在兄弟身上。我想把这个PDF的步骤从过程中，并能够扫描从佳能和打印到兄弟。所以在伪命令中：scan Canon | print Brother 这能实现自动化吗？我知道简单扫描应用程序可以从GUI打印，但我看不到从命令行打印选项。

浏览 0提问于2016-05-26得票数 1

2回答

在PDF文件中自动粗体显示整个文本

、

我收到了一组大的pdf文件(每个文件> 1000页)，我想在这些文件中“自动”粗体显示整个文本(以便以后执行OCR过程)。我可以通过手动、一页一页地完成这项任务。但我不知道是否可以通过工具或编写代码来自动完成这一任务？ P.S.：这些pdf文件是私有的，不允许将它们上传到在线服务(如果存在这种服务的话！)

浏览 1提问于2017-10-10得票数 0

2回答

从pdf文件中提取单词而不是字母？

、

我使用less，它使用pdftotext从less my.pdf的pdf文件中提取文本。这样，一些单词的字母由空格与pdf文件隔开。 CH APTE R 2 5 T E ST IN G WE B A P P LIC AT IO N S 540 一些人声称Adobe没有问题。我没有程序来证实这一点。但是我想知道Linux中的哪个软件程序可以正确地提取单词呢？

浏览 0提问于2015-02-16得票数 1

1回答

解读"virustotal“中的信息

、

我想知道是否有人能帮助我的病毒全面扫描(在线病毒实验室)的结果。我向virustotal提交了一本俄德教科书("1_Ulrike_Patow_Gabriela_Stelzig_Russisch_bitte.pdf")的pdf文件。结果: 0/59。因此，似乎不会有任何问题(参见：https://www.virustotal.com/de/file/a7bb9a6e8a0f217844a343f171e158e2f57fce062c974ccec7f9d3e34c8bf60e/analysis/1526815455/)。然而，当查看“文件详细信息”时，它说：此PDF文件包

浏览 0提问于2018-05-20得票数 1

回答已采纳

1回答

简单扫描-将默认输出文件类型更改为PDF并改进压缩？

、、、、

有没有办法将Ubuntu12.10提供的“简单扫描”软件中的默认输出文件类型更改为PDF而不是JPEG？是否有可能修改PDF上的压缩设置，使简单的扫描输出更高，从而产生更小的文件大小？背景:我使用Ubuntu12.10上的简单扫描扫描多张收据，为税务季节做准备。我一次扫描数百张收据，所以这是一项非常重复的任务。问题1:每次使用简单扫描扫描新文档时，软件都会默认文件格式为JPEG，这意味着每次扫描都需要将输出格式从JPEG更改为PDF。这是非常重复的，也正是Ubuntu通常非常擅长通过gconf或dconf设置或其他调整工具提供的用户偏好。问题2:我需要以PDF格式存储我的扫描，并具有高度

浏览 0提问于2013-01-19得票数 9

回答已采纳

1回答

如何在不打开文件的情况下检测到无声的.pdf漏洞？

、

我怀疑一个文件正在使用一个无声的.pdf漏洞。我怎么才能不打开文件就确认它们呢？

浏览 0提问于2016-05-06得票数 1

1回答

Python2vs.3带有巨大文件列表的慢速os.path.getmtime() -为什么？

我目前正在成功地使用python 2.7脚本，该脚本递归地在一个巨大的目录/文件路径上循环，收集所有文件的路径，获取此类文件的mtime和具有相同路径和名称的相应文件的mtime，但作为比较的pdf文件。我在python2.7脚本中使用了scandir.walk()，在python3.7中使用了os.walk()，最近对它进行了更新，使其也使用了scandir算法(没有额外的stat()调用)。但是，python 3版本的脚本仍然要慢得多！这并不是因为算法的扫描/遍历部分，而是显然是由于getmtime算法(然而，在python2和3中是相同的调用)，或者是通过处理庞大的列表(我们正在讨论的

浏览 2提问于2019-02-22得票数 3

1回答

缩减PDF

、

我不确定这是不是发布这个问题的合适地点。我试图缩小多个7MbPDF文件的大小，所以我尝试了下面这个在网上找到的鬼怪脚本命令： simple ghostscript with printer quality setting gswin32c.exe -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf tried this gswin32c.exe -o output.pdf -s

浏览 0提问于2017-05-27得票数 0

1回答

带有后端的HTML5同步文件系统

、

实际上，每次连接到应用程序时，我都必须与服务器同步本地文件系统(Browser FS)：下面是我作为JSON对象获得的服务器上的根文件夹结构： { "rootFolder":{ "childrens":[ { "path":"/RTW", "name":"RTW", "type":"DIR", "u

浏览 4提问于2015-02-10得票数 3

1回答

如何在reactjs前端将pdf字符串正确转换为pdf？(带有puppteer的空白pdf )

、、、、

我使用puppeteer在后台生成pdf，并将其发送到前端，代码如下： exports.createPdf = async (req, res) => { const { resumeContent } = req.body; console.log("datadatadatadatadatadatadatadatadatadata", resumeContent); const browser = await puppeteer.launch(); const page = await browser.newPage(); aw

浏览 45提问于2021-04-12得票数 4

回答已采纳

1回答

在thunar自定义操作中，pdf分离器的转义%d

、、

我想要创建一个thunar自定义操作，让我右键单击一个PDF，然后选择“拆分PDF”来分割成单独的页面。这样做的命令是： $ pdfseparate mypdf.pdf mypdf-%d.pdf 它将为每个页面创建一个新的PDF，名为mypdf-1.pdf、mypdf-2.pdf等。%d被pdf分离器命令替换，并按照手册页的页码进行替换：概要PDF单独的PDF-文件PDF-页面模式PDF-页面模式应该包含%d (或任何有关printf格式的变体)，因为%d被页码所取代。 Thunar自定义动作用文件所在的目录插入任何%n作为选定的文件，任何%d。因此，如果我试图复制上面的命令，将mypdf.

浏览 0提问于2023-01-18得票数 2

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

Apache不对扫描的PDF进行索引。

、、、

我想索引扫描的PDF文件。我在Centos 6上安装了Solr 6.3.0，tesseract 3.04，轻子1.74。我已经测试了tesseract和solr的png，jpg和每件事看起来都很好。但是当我尝试索引扫描的PDF文件时，Solr不只是索引扫描图像只提取pdf评论消息()。(根据索引响应使用DefaultParser和PDFParser ) 在此之后，我搜索了问题，并找到了这个 (我测试了，它的工作！)但是，我无法将Java代码转换为Xml配置。如何将java代码设置为Xml配置文件？任何帮助都会很好！

浏览 1提问于2017-01-16得票数 0

1回答

Photoshop PDF编辑XML，然后“刷新”并保存新的PDF

、、

当您将Photoshop文档另存为PDF时，它会生成一些XML元素，我假设Photoshop稍后会使用这些元素进行编辑。无论如何，这些节点的一部分如下所示： <rdf:li rdf:parseType="Resource"> <photoshop:LayerName>Item 1</photoshop:LayerName> <photoshop:LayerText>Item 1</photoshop:LayerText> </rdf:li> <rdf:li rdf:parseType=

浏览 2提问于2012-12-18得票数 0

回答已采纳

1回答

从Python文件中读取字典的书面列表

、、

我有一个文件，它是这样的字典列表： [{'text': 'this is the text', 'filed1': 'something1', 'filed2': 'something2', 'subtexts': [{'body': 'body of subtext1', 'date': 'xx'}, {'body': 'body of subtext2', 'date'

浏览 1提问于2016-04-13得票数 7

回答已采纳

1回答

从PDF中提取文本时出现异常字体

、、、、

我一直在尝试从PDF文件中提取文本，大多数文件似乎都工作得很好。但是，有一种特殊的文档具有这种不同寻常的字体的文本：我尝试过使用PHP和Python进行解压，但都无法修复此字体。我尝试复制文本，并试图看看我是否可以得到它在文本编辑工具，但不能做much.Please注意，原始的PDF文件看起来很好，但当文本被复制和粘贴在文本编辑工具中，字符之间的间隙开始出现。我完全不知道该怎么办。请建议使用PHP/Python (最好是PHP)解决此问题。

浏览 30提问于2020-07-07得票数 1

回答已采纳

2回答

如何通过cdn在我的网站中使用木偶剧

、、、、

我试图使用木偶直接在我的网站上生成PDF文件。我的问题是我不知道如何添加所需的文件到我的网站。所有的指南都有这一行： const puppeteer = require('puppeteer'); 但是当我运行代码时，我得到这个错误:没有定义require 这是我尝试运行的代码： const puppeteer = require('puppeteer'); puppeteer.launch().then(async browser => { const page = await browser.newPage(); await page.g

浏览 0提问于2018-06-17得票数 0

1回答

如何更新脂弹剂？

Poppler0.20.4无法以正确的方式呈现特定的pdf文件。我怎样才能把脂器升级到最新版本呢？我使用Xubuntu12.10，并试图打开的pdf与，等等。他们中没有人能打开文件。所以我认为问题在于脂爆剂。但我该怎么修补呢？

浏览 0提问于2013-01-30得票数 1

1回答

将所有图像从PDF文件传送到OpenCV

、、、、

目标:将文档扫描仪上的文件扫描到一个PDF文件中，然后通过OpenCV处理它们。预期的结果是这样的程序：从PDF文件中提取一个图像为二进制文件。把它转换成OpenCV的。对待Mat就像对待、等等。对下一个图像重复。

浏览 24提问于2022-01-05得票数 -1

1回答

如何使用iText写入已完成的PDF文件

、、

我有一个PDF文件，我想添加文本或数字到特定的位置。PDF有方框，我希望将文本放在特定的框中。我使用iText和Java。我这样做，但我必须对我的文本的x和y进行硬编码。我想知道如何找到我的副翼的位置，然后把文字放在那里。 lPdfContentByte content = pdfStamper.getUnderContent(1); ColumnText ct = new ColumnText( content ); ct.setSimpleColumn(200,549,500,10); ct.setText(new Phrase("4")); ct.

浏览 4提问于2015-07-08得票数 2

1回答

除ofstream之外的任何写入文件的替代方法

、

我正在执行文件操作(writeToFile)，它从xml获取数据并写入输出文件(a1.txt)。我正在使用MS Visual C++ 2008和windows XP。目前，我正在使用这种写入输出文件的方法。 01.ofstreamhdr OutputFile; 02./* few other stmts */ 03.hdrOutputFile.open(fileName, std::ios::out); 04. 05.hdrOutputFile << "#include \"commondata.h\""<< endl ;

浏览 0提问于2010-06-18得票数 0

1回答

simplescan -fix-pdf因分段错误而失败

我试图使用新的--fix-pdf选项的简单扫描，以修复错误的pdf文件创建的早期版本的简单扫描。命令： simple-scan --fix-pdf test.pdf 导致分割错误。是否有人成功地使用了--fix-pdf选项？

浏览 0提问于2011-10-16得票数 1

1回答

帮助Canon CanoScan LiDE扫描PDF文档

、、、

在过去的10天里，我刚刚开始使用Ubuntu，打算永久停止使用Windows。到目前为止已经很棒了。我已经用可用的Ubuntu应用程序和Google的一些帮助替换了几乎所有的Microsoft应用程序。我的佳能CanoScan LiDE 110扫描仪出了问题。当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我尝试在Ubuntu中使用简单的扫描应用程序进行同样的操作。我通过简单的扫描将页面扫描为文本，并将其保存为PDF格式。但是在Ubuntu中，当我打开扫描的PDF页面

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

恢复刚刚删除的pdf扫描而不卸载

、

我刚刚删除了一个扫描的pdf文件。我正试图用scalpel来恢复它。问题是手术刀将恢复许多已删除的文件并对其进行数字命名(例如0001.pdf、0002.pdf、. 9999.pdf)。根据本教程，我可以使用一个grep命令并在被删除的文件中搜索一些文本。问题是，文件被扫描了(我知道原始文件名)，所以我不知道要搜索什么。

浏览 0提问于2016-04-07得票数 3

1回答

通过Varioref引用文档中的Latex在Rmarkdown中不起作用。

、

我已经使用了很长一段时间的香草胶乳文档，最近切换到Rmarkdown。我正在努力使各种不同的工作，或任何文件中的参考为这件事。参见下面示例Rmarkdown文件内容。我试着把它变成一个最少可重复的例子。 --- title: "vref" output: pdf_document: keep_tex: true latex_engine: pdflatex header-includes: \usepackage{varioref} --- Please see \vref{section} \newpage \section{This is a s

浏览 2提问于2022-04-04得票数 1

回答已采纳