腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
可将OCR文本插入回源
PDF
的OCR库
、
是否有库(或可执行文件)可以OCR
PDF
(通常是通过
扫描
纸张创建的
PDF
),并将识别出的文本重新注入到
PDF
中?很可能是
扫描
图像背后的隐形
文字
。 最好是开源的。(目标:我有一个巨大的由Lucene索引的
PDF
文件库。如果
PDF
包含文本,Lucene将更容易找到哪些
PDF
是相关的。)
浏览 3
提问于2011-02-28
得票数 2
2
回答
如何将
pdf
扫描
图像转换为最适合ocr的高分辨率tiff?
、
、
我转换
pdf
到tiff图像与图像魔术,从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像: 为什么会发生这种情况,以及如何将
pdf
扫描
图像转换为最适合ocr
浏览 1
提问于2018-05-16
得票数 0
回答已采纳
1
回答
如何从
PDF
文件中正确提取日文txt
、
我需要从
pdf
文件中提取文本。谁能给我一个如何处理的提示?
浏览 5
提问于2022-02-22
得票数 1
回答已采纳
1
回答
加农炮MP140设置
、
、
我想安装我的佳能打印机
扫描
仪MP140与Ubuntu到目前为止的结果。我不能打印excel,
文字
,
pdf
文件。
浏览 0
提问于2014-04-23
得票数 0
2
回答
如何确定是否
扫描
了.
pdf
文件的内容
、
、
因此,我有一个.
pdf
文件,我需要能够确定它是否是通过
扫描
到
PDF
中创建的。我正在尝试确定它是否是我可以显示为文本的
pdf
。$
pdf
->properties['Producer']有没有办法确定我处理的是哪种类型的.
pdf
文件?
浏览 6
提问于2010-03-05
得票数 3
回答已采纳
1
回答
使用xsane作为没有
扫描
器的OCR
、
当我启动xsane时,它会以不可访问的消息退出。如何抑制设备搜索?
浏览 0
提问于2015-07-03
得票数 1
2
回答
用python打开不带文本的
pdf
、
我希望为Django视图打开一个
PDF
,但是我的
PDF
没有文本,python返回给我一个空白
PDF
。在每一页上,这是对一个页面的
扫描
: with open(path) as
pdf
: response = HttpResponse(
pdf
.read(),content_type='application/
浏览 1
提问于2018-09-17
得票数 0
回答已采纳
3
回答
找不到bash grep文件
、
我希望应用一些基于grep搜索的命令,我执行了grep -l "If you wish to distribute" *.
pdf
,并且看到了我想要处理的文件,但是使用以下bash脚本,这些文件不会被处理/bin/bash -x grep -l "$text1" *.
pdf<
浏览 1
提问于2012-10-29
得票数 1
1
回答
如何判断
pdf
文件中隐藏的文本层是否来自OCR?
我见过一些
pdf
文件后,OCR有非常准确的文本(无论是在识别率,在文本对齐图像)。 如果
pdf
文件中隐藏的文本层是否来自OCR,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
免费Windows OCR软件
、
、
我有一些
PDF
,其中包含
扫描
打印-作为图像。有些是有插图或没有插图的书,有些是带有混合
文字
和图形的漫画(所有这些都没有版权)。
浏览 0
提问于2020-05-19
得票数 0
回答已采纳
1
回答
使用PDFRenderer打印
PDF
-形状不是锐利的
、
、
我需要打印
PDF
运输标签。这些标签是
PDF
格式的。印刷的运输标签有尖锐的
文字
,但有问题的条形码有小的“齿轮齿”-条形码-条纹是不光滑的边缘,这是问题的
扫描
仪。我试图使用
PDF
-创建者作为打印机,并将其打印到文件-条形码是尖锐的,然后(在PC显示器)。我也尝试使用
PDF
-创建者打印已经创建的文件(如上面所示),然后用
PDF
打印它,在这种情况下条形码是尖锐的。
浏览 2
提问于2017-04-20
得票数 0
回答已采纳
7
回答
连接路径和文件名
、
、
soffice.exe', '--convert-to', r'C:\Users\A\Desktop\Repo\'+filename]) SyntaxError:
扫描
字符串
文字
时的
浏览 5
提问于2016-11-14
得票数 8
回答已采纳
1
回答
无法打开用gscan2
pdf
乳胶创建的简单
pdf
、
所以,我想从多个地方做一个
pdf
。为此,我决定使用gscan2
pdf
。我有一堆“”打开得很好。\documentclass{article}\begin{document}test警告: gscan2
pdf
期望每页有一幅
浏览 0
提问于2020-07-09
得票数 1
回答已采纳
1
回答
关于拆分
PDF
和OCR识别
、
、
、
我有很多
pdf
文档,它们都是
扫描
过的
文字
版本。我需要在
pdf
中拆分一个页面。 例如,如果有1个页面。我需要将一页分成页眉部分,页脚部分,主体部分和侧面部分。我知道Python的
PDF
和OCR库,但我找不到任何关于拆分单个页面的内容。 然后,最后希望将
pdf
页面的拆分部分传递给OCR,以识别字符并将输出转换为csv或文本文件。 提前感谢您……
浏览 18
提问于2021-04-20
得票数 0
回答已采纳
2
回答
用java从
PDF
中提取文本的最佳方法
、
、
、
、
我想制作一个能够读取
PDF
文件并解析其内容的程序。因此,我需要使用某种库来提取文本。我找到了三种方法。OCR库(如Tesseract) 我无法理解它们之间的巨大差异,因为它们最终都会从
PDF
中生成一个文本文件。
浏览 6
提问于2020-12-28
得票数 1
2
回答
使用PB、EZTWAIN和TOCR 3.0无法识别带有希腊语单词的
pdf
扫描
页面
、
Iam使用Dosadi的PB 10.5.2和EZTwain 3.30.0.28,XDefs 1.36b1进行
扫描
。问题是,
扫描
的
pdf
页面包含拉丁语(对英
文字
符的搜索非常精确,但对希腊语字符的搜索则完全不精确。提前感谢
浏览 4
提问于2010-04-08
得票数 1
2
回答
LibreOffice中的光学字符识别
我
扫描
了它,得到了16份jpeg文件。每个jpeg都是一个
扫描
页面。 现在,我需要一个OCR将每个jpeg转换成文本,以便将这个表插入到excel文档中。
浏览 0
提问于2013-07-03
得票数 3
1
回答
书籍页的最佳图像文件格式
、
、
我想
扫描
图书页面,并将图像组合成一个
pdf
“电子书”(仅为我),但文件的大小变得非常大。即使是.jpg,也产生了一个60mb+大小的
pdf
文件。谢谢你的帮助。 我试着将它保存为.jpg和其他文件格式(如.png ),但没有得到足够小的文件,使其易于处理,而不会影响到很高的分辨率。
浏览 2
提问于2022-11-27
得票数 0
1
回答
在OSX中为
扫描
手写便笺的
PDF
添加文本层
、
、
在课堂上,我喜欢手写的笔记,然后我
扫描
它们,然后把它们打出来(帮助我记住它们,也使它们易于搜索)。主要的问题是,我使用了大量的绘图和复杂的数学,将数学公式转换成胶乳(或word)非常耗时,绘图要求我保存
PDF
和文本文档。我想做的是把我自己输入的基本文本(没有OCR)添加到
PDF
的文本层中,这样
PDF
就可以搜索,并且我可以通过不转换数学或绘图来节省很多时间。
浏览 9
提问于2013-09-12
得票数 2
1
回答
在图像中查找已知文本(引导OCR)
、
具体来说,我正在创建一个工具,将一组
扫描
页面转换为支持搜索和copy+paste的
PDF
。我理解这通常是如何做到的: OCR页面,保留文本的位置,然后将文本作为不可见层添加到
PDF
中。Acrobat具有此功能,tesseract可以输出hOCR文件(包含识别的文本及其位置),hocr2
pdf
可以使用这些文件生成文本层。将已经知道的文本与
扫描
页面上的位置匹配起来似乎要容易得多,但我没有发现任何具有这种内置功能的软件。我如何利用现有的软件来做到这一点? 编辑:
文字
的大小和字体各不相同,尽管段
浏览 3
提问于2015-02-23
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
对PDF进行ocr文字识别怎么操作?扫描识别软件推荐
文字识别扫描,如何文字识别扫描出来?
免费文字识别扫描,有什么免费文字识别扫描
AppStore今日推荐 识图取字,扫描图片转文字和PDF文档
图片扫描pdf格式 图片扫描pdf格式保存教程
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券