我有一个扫描过的文档,我想使用Tesseract来获取其中的文本。
下面是我的PDF质量的一个例子:
如您所见,“维护”的"c“上方有一个小圆点。Tesseract使用以下命令将该单词翻译为:"mafintenanée“:
tesseract 1.pdf final -l eng --oem 2
tesseract 1.pdf final -l eng --oem 1
tesseract 1.pdf final -l eng
我负担不起这种检测,所以我试着用imagemagick改进我的PDF。
我已经尝试了以下所有命令:
convert 1.pdf -resize
我正在使用Magick.NET并尝试创建多页面-TIFF-文件。我的输入是PDF文件。但是,将结果写入MemoryStream或将其作为字节数组获得将导致一个错误:
iisexpress.exe:在写目录之前刷新数据的错误。@error/tiff.c/TIFFError/551
但是,当我将结果写入硬盘上的文件时,没有错误,文件也很好。
这是我的代码:
var outputStream = new MemoryStream();
using (var inputPdf = new MagickImageCollection())
{
inputPdf.Read(rawData,
我有一个包含数千个pdf和tif的目录树。一个文件夹可以包含多个pdf或tif,在这种情况下,它们的编号为1.pdf、2.pdf等...我必须让它们可用,并确保它们首先是主要处理的最旧文件-所以我想用它们的创建日期和时间来重命名它们(1.pdf -> 20150415481876.pdf):
目前我使用的是
@echo off
set datetime=%~t1
set name=%~n1
set extension=%~x1
set year=%datetime:~6,4%
set month=%datetime:~3,2%
set day=%datetime:~0,2%
set
我在Windows上通过python2.7运行ghostscript,将一堆1页的PDF文件转换成TIFF图像。
from os import listdir, remove
from os.path import isfile, join
import ghostscript
import os
import time
import sys
#Assumption #1: The input folder, output_tif_folder and output_pdf_folder
#Assumption #2: Paths in windows use a backslash for
我正试图用pdfbeads从数百张D0图像中制作一个pdf。我不能让程序按照正确的数字顺序使用图像。例如,在此过程中,我看到:
Prepared data for processing image-098.tif
Prepared data for processing image-099.tif
Prepared data for processing image-100.tif
Prepared data for processing image-1000.tif
Prepared data for processing image-1001.tif
Prepared data for p
我在用WinForms。在我的表单中,我有一个显示tif图像文档的picturebox。我使用PdfSharp作为引用之一,将tif文档转换为pdf文档。好消息是我可以转换当前显示在picturebox中的一个tif页面。
问题是,当我有一个有超过1页的tif文档时,我不能将它们全部转换成一个Pdf文件。例如,如果我有一个包含5页的tif文档图像,我需要按一个按钮并将这5个tif页面转换成5个pdf页面。
对于测试,这里是一个5页的tif文档。
链接:
我的代码:
using PdfSharp;
using PdfSharp.Pdf;
using PdfSharp.Drawing;
我已经编写了一个脚本来自动从web上下载文件,如下所示:
#Automatically download files to a given folder profile settings
#---------------------------------------------------------------
profile = Selenium::WebDriver::Firefox::Profile.new
profile['browser.download.dir'] = 'C:\Documents and Settings\My Documents\use
我正在尝试编写一个批处理文件,该文件将在目录中搜索*.pdf文件扩展名,然后用ImageMagic将它们转换为*.tif文件扩展名。如果目录中有一个PDF文件,我就能做到这一点,但如果有多个PDF文件,我就不知道如何用正确的名称转换它们。问题是在循环中,似乎没有分配fName变量,但是在循环之外的有一个值.
下面是用于单个PDF文件和多个PDF文件的代码,但是名称包含".pdf":
echo off
set dSource=C:\Users\Nick\Documents\Research\Journal Article\Figures
set fType=*.pdf
for /
我一直试图在R内做OCR (读取PDF数据作为扫描图像)。一直在读到这个@
这是个很好的职位。
有效的3个步骤:
将pdf转换为ppm (图像格式)
将ppm转换为tif,准备好进行训练(使用ImageMagick进行转换)
将tif转换为文本文件
上述三个步骤的有效代码,如链接所示:
lapply(myfiles, function(i){
# convert pdf to ppm (an image format), just pages 1-10 of the PDF
# but you can change that easily, just remove
我正在尝试使用我在这里找到的Powershell脚本将PDF文件转换为TIFF文件。我已经运行了大部分脚本,但是我似乎不知道如何将TIFF文件保存在PDF所在的原始文件夹中。
#Path to your Ghostscript EXE
$tool = 'C:\Program Files\gs\gs9.25\bin\gswin64c.exe'
#Directory containing the PDF files that will be converted
$inputDir = 'C:\Temp\Test_ED_Data\1\'
#Output path
我正在使用黑板创建一个测试。其中一个问题的答案是:TIF, PDF, or Native。黑板有能力使用模式匹配,以验证答案填补空白的问题.
什么样的regex会接受包含所有这些单词的答案,而不管顺序如何,如果学生在答案中添加了" and“,那么忽略它呢?
可能的正确答案:
TIF PDF Native
Tifs, Pdfs, and natives
native and pdf and tif
pdf, tifs natives
tifs with text and metadata, PDF, Native
我需要这三个词,但我可以忽略多余的单词。
我会对答案进行质量
真的不知道该怎么做?我可以把一个tif格式转换成pdf格式。我可以将一个目录中的所有tif转换为一个pdf。我想要做的是根据一组tif的上次写入访问、创建日期或修改日期来转换它们。
例如,如果我在一个目录中有7个tif,其中3个具有相同的时间戳,4个具有另一个相同的时间戳,我想将这3个文件合并到一个pdf中,然后将另4个文件合并到另一个pdf中。我有点卡在如何处理这个问题上了。我是否需要创建所有文件的列表,然后对它们进行分组,或者我可以合并3,然后使用for each进行下一组合并,等等,等等?
下面的代码是我用来收集前5个文件的代码:
Dim dir As New DirectoryInfo