腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4997)
视频
沙龙
2
回答
如何用谷歌翻译
图片
上的文字?
如果我遇到一个含有未知
文本
的
图片
文件,我可以为它拍另一张照片,然后用我的手机使用进行翻译,但我如何在我的电脑上翻译它呢?我试着输入谷歌翻译的
图片
链接,但显示无法打开文件。
浏览 18
提问于2014-08-06
得票数 0
回答已采纳
1
回答
如何使用doc取器在
PDF
文件中搜索
文本
?
、
、
我试图在
PDF
文件中找到一些
文本
,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有
文本
,而其他
PDF
是
文本
和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
5
回答
是否有
OCR
无法
识别
的字体?
为此,我将其页面转换为
图片
,并将其添加回
PDF
文件。主要的问题是,任何
OCR
程序都可以恢复整个书面
文本
,特别是页面将是清晰的(而不是扫描的书),这将提高
OCR
的准确性。那么,有没有
OCR
无法
识别
的字体呢?否则,有没有一种技术可以让我的文档只被人类阅读,而不被
OCR
识别
?(例如,添加特定的背景,等等) 提前谢谢你。
浏览 3
提问于2012-11-13
得票数 4
回答已采纳
1
回答
从
PDF
中获取树的文件(最好使用Python)
、
、
、
、
我想制作一系列文件,其中包含了这个
PDF
()中的树。文件的名称将是左边对应的树号(t0、t1等)。 我试图使用python提取相关信息和树,但我遇到了麻烦。然而,当我尝试将其全部提取为
文本
(如)时,树会丢失它们的所有格式(以及它们的一些信息,我认为)。我怎样才能从这个
PDF
中获取我想要的文件呢?能用Python完成吗?还有更简单的方法吗?或者,我获得
PDF
的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
2
回答
使用.NET抓取屏幕
、
我有大约100K的
pdf
格式/tif,jpg格式的扫描图像,需要从其中读取数据,然后上传到硬盘驱动器。我计划来一个小的应用程序,将有助于自动化的数据输入工作。
浏览 0
提问于2011-07-09
得票数 0
11
回答
免费的
OCR
软件,使
PDF
可搜索(与可搜索的
文本
在正确的地方)
、
、
、
、
是否有任何免费的
OCR
软件(用于Linux和/或Windows)可以像Acrobat那样将
PDF
扫描文档作为输入并输出可搜索的
PDF
?使用可搜索的
PDF
格式,我的意思是OCRed
文本
在原始
文本
上是不可见的,可以用鼠标选择并复制。我知道Linux上的gscan2
pdf
可以这样做,但是
文本
被放置在页面的左上角,而且太小了,与背景扫描页面上的
文本
完全不同步。这是因为gscan2
pdf
将整个页面提供给
OCR
浏览 0
提问于2014-04-20
得票数 72
回答已采纳
5
回答
如何在扫描的.jpeg中编辑
文本
?
、
、
、
我需要上传一个扫描图像作为
PDF
文件。我以前从来没有这样做过,所以我真的被困住了。我该怎么做?
浏览 0
提问于2012-12-05
得票数 15
回答已采纳
2
回答
Tesseract
OCR
混淆了0到8的斜线
、
、
我曾在终端字体上训练过tesseract,但无论如何,我都无法让它
识别
出0。我正在使用jTessEditor创建培训tif和框。即使在验证时,它也会将所有的0读为8s。我遗漏了什么吗?
浏览 8
提问于2018-10-31
得票数 22
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取
文本
、
、
、
我一直在尝试从扫描的
PDF
中提取
文本
(具有不可选
文本
的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.ge
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
4
回答
哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的
文本
pdf
?
、
、
、
、
我需要将扫描文档转换为mac上可搜索的
文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
1
回答
如何判断
pdf
文件中隐藏的
文本
层是否来自
OCR
?
我见过一些
pdf
文件后,
OCR
有非常准确的
文本
(无论是在
识别
率,在
文本
对齐图像)。 如果
pdf
文件中隐藏的
文本
层是否来自
OCR
,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我使用此代码将图像转换为
文本
,但我希望生成主格式的
图片
,但格式将随着转换为
文本
而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
4
回答
一种基于
OCR
的
PDF
文本
提取方法
、
、
是否有人尝试过使用
OCR
库和Java从
PDF
中提取
文本
?你认为什么是最可靠的
文本
提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。我熟悉pdfbox,它现在是Apache 0.8.x版的孵化器项目,但是它的
文本
提取并不总是准确的。我正在寻找一种更可靠的替代方法。
浏览 2
提问于2009-04-22
得票数 6
3
回答
将
pdf
的内容读取为字符串
、
、
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的
文本
元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil)
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
1
回答
如何在蟒蛇的景观方向上阅读
pdf
?
、
、
、
我有一个
pdf
文件,是在肖像方向,但在一些页面,
文本
是在景观方向。当使用PyPDF2读取上面的页面时,我从extractText()函数获得以下
文本
:Out24:"U ~ 00 w.T.-O.O.O.mó00 woNN p 00 a+ -fl n~n a O ;~ 0 ~^ o a. ~… 下面是我试图提取
文本
的页面示例:
浏览 1
提问于2018-04-03
得票数 0
回答已采纳
1
回答
是否有任何不基于
OCR
的通用布局分析库或工具?
、
我正在寻找布局分析库或工具(最好是开源的),可以应用于
文本
PDF
,以
识别
主要
文本
内容与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们使用光学字符
识别
和图像
识别
来
识别
布局。有没有库可以在没有
OCR
的情况下做同样的事情?可以从
文本
PDF
中提取
文本
和图像,并将包含
文本
和图像位置的输入提供给该工具;对于此类文件
浏览 2
提问于2013-05-08
得票数 2
回答已采纳
1
回答
我想从
OCR
数据中提取表信息。
、
、
、
我想从
OCR
数据中提取表格信息,我有原始
文本
和它的
文本
。我试过pytesseract,但找不到实际的实现。我试过这个: 这种方法对我一点用也没有。我希望从
OCR
数据中获得此表的表格结构,以供进一步处理。
浏览 3
提问于2019-01-20
得票数 0
3
回答
如何在没有microsoft.office.interop的情况下将
PDF
转换为文档?
、
、
、
、
我需要转换成.doc文件使用C#的
PDF
文件。虽然这台计算机没有安装Office,但它没有文件系统。有没有什么好办法让我这么做呢?我做了一些研究,大多数人都在使用互操作服务。
浏览 2
提问于2011-04-23
得票数 0
回答已采纳
1
回答
快速检查
PDF
文件上的
OCR
文本
层
、
有没有什么程序可以让我在
PDF
渲染的基础上叠加
PDF
的
文本
(
OCR
)层?如果这可以用程序来完成,那会更方便,如果不能,一些cli命令或脚本也可以工作。
浏览 2
提问于2017-11-18
得票数 1
1
回答
在Tesseract
OCR
中是否有从
PDF
中查找字符串和删除页面的属性?
、
、
、
、
我试图在Tesseract
OCR
中将Image转换成
文本
PDF
。在中间,我需要检查封面页,并从结果中删除。在Tessaract
OCR
中是否可以根据封面的特定属性(封面
文本
匹配)来
识别
封面。或者,我是否需要获取tessetact
OCR
结果的全部输出,并提供我的逻辑来扫描
PDF
和删除封面页。我非常困惑,任何帮助都将不胜感激。
浏览 1
提问于2018-09-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Umi-OCR:免费开源的Ai文字识别神器,轻松搞定图片与PDF 文本提取及二维码解析
图片文字识别与翻译OCR应用:白描
如何使用OCR软件识别手写图片文字?
图片怎么识别成文字?用ocr文字识别软件!
怎么对图片文字进行ocr识别-一招轻松识别图片文字
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券