腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(4293)
视频
沙龙
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
python
、
ocr
、
rgb
、
cmyk
、
wand
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在
word
转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
3
回答
将
扫描的
PDF
转换为可搜索的
PDF
( R)
r
、
pdf
、
tesseract
、
pdftools
、
ropensci
我正在尝试使用tesseract和pdftools包
将
一系列扫描的
PDF
转换成可搜索的
PDF
。我已经完成了两步。现在我需要写回一个可搜索的
pdf
。读取扫描
PDF
eg <- download.file("https://www.fujitsu.com/global/Images/sv600_c_automatic.
pdf
",
浏览 22
提问于2021-09-01
得票数 1
2
回答
PDF
和文本层
pdf
、
ocr
、
scanning
根据这个站点的,当添加一个文本层时,
PDF
是可搜索的。如果扫描仪在图像上执行
OCR
,它是否
将
文本存储在“文本层”中?或者是&qu
浏览 2
提问于2012-07-10
得票数 15
回答已采纳
2
回答
如何
在R中逐行读取
PDF
?
r
、
pdf
、
text-mining
我使用pdftools包中的read_
pdf
()函数逐行读取
PDF
文件,但突然之间,它没有改变脚本、任何参数或行中的任何内容,而是开始读取整个页面,而不是逐行分隔元素。我怎样才能让它回到逐行分离?
浏览 8
提问于2022-09-30
得票数 0
回答已采纳
3
回答
使用R在
PDF
中存储Tesseract输出
r
、
pdf
、
ocr
、
tesseract
我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的
PDF
文件。我已经看到了前面的问题,但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我
将
tessedit_create_
pdf
选项设置为1,但没有得到新的
pdf
文件。我没有看到设置输出文件的选项。
如何
使tesseract创建一个带有嵌入式文本的
pdf
?下面的代码在内存中生成很好的文本,但是没有
PDF
文件。tesseract(language = "eng"
浏览 9
提问于2021-08-29
得票数 1
1
回答
使用R突出显示
PDF
文件中的文本
r
、
pdf
我想用R高亮显示
PDF
文档中的一些文本,我想搜索
PDF
文档中的一些文本,如果找到的话突出显示文本。我在寻找能做到这一点的包裹。有没有一种方法,我们可以突出显示一个
PDF
文件使用R?
浏览 2
提问于2017-03-08
得票数 2
2
回答
如何
将
PDF
转换为JSON/EXCEL/
WORD
文件?
java
、
excel
、
pdf
、
ms-word
、
ocr
我需要从
pdf
文件中获取数据及其标头,以便进一步与DB数据进行比较 我试着使用pdfbox,google vision
ocr
,itext,但是所有的库都没有结构和头文件。示例: Date\nNumber\nStatus\n12\12\2020\n442334\delivered 我会尝试
将
pdf
转换为excel/
word
并从中获取数据,但为了实现这一点,我需要读取
pdf
并将数据写入excel/
word
。
如何
获取带headers的数
浏览 54
提问于2020-04-17
得票数 0
回答已采纳
1
回答
按行而不是按列从
pdf
文件中读取表
python
、
pdf
、
datatables
、
pdf-scraping
我正在尝试从
PDF
文件中提取所有文本。我正在使用在线
PDF
,其中包括表格。这段代码可以工作,但是,当它到达
PDF
中的表格时,表格中的文本是按列而不是按行打印的,这会弄乱我的数据。我仍然需要
PDF
中的所有文本一起打印。我使用的是python。
浏览 15
提问于2020-07-01
得票数 0
4
回答
如何
在c#中将
PDF
文件转换为
WORD
文件
c#
、
.net
、
pdf
、
ms-word
有没有人知道一个.Net组件,可以通过编程
将
PDF
转换为
Word
或RTF?我不想使用
OCR
和Adobe相关解决方案。
浏览 1
提问于2011-04-20
得票数 7
3
回答
如何
在没有microsoft.office.interop的情况下
将
PDF
转换为文档?
c#
、
pdf-generation
、
ms-office
、
openoffice.org
、
doc
我需要转换成.doc文件使用C#的
PDF
文件。虽然这台计算机没有安装Office,但它没有文件系统。有没有什么好办法让我这么做呢?我做了一些研究,大多数人都在使用互操作服务。
浏览 2
提问于2011-04-23
得票数 0
回答已采纳
1
回答
pytesseract无法使用
OCR
识别图片中的数字
python-3.x
、
python-tesseract
我正在尝试使用Python-tesseract通过光学字符识别(
OCR
)从这个(picture)中提取数字。由于某些原因,pytesseract无法识别数字,我不完全理解原因(数字之间的距离?)。有人可以帮助我理解
如何
正确地从这张图像中提取数字吗?
浏览 63
提问于2019-03-15
得票数 0
1
回答
在
PDF
中用python执行
OCR
有可能吗?
python
、
pdf
、
ocr
、
autodesk-bim360
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
1
回答
上传
pdf
文件与gdata docs python v3.0与
ocr
python
、
pdf
、
ocr
、
gdata
、
gdata-api
我已经获得了以下用于
将
pdf
文件上传到google docs的实现(取自gdata API示例): """Upload a document,doc = gdata.docs.data.Resource(type='document', title='My Sample Doc') print 'C
浏览 0
提问于2011-12-31
得票数 2
回答已采纳
1
回答
无法使用TIKA提取文本
java
、
parsing
、
apache-tika
我们有一个
pdf
,这是一个手写的文件,并使用扫描仪转换为
pdf
。我正在使用TIKA 1.13,但无法从这样的file.After解析中提取文本,我只能得到"\n\n“作为文本。
浏览 21
提问于2016-09-16
得票数 1
2
回答
ITextSharp在C#中无法读取
pdf
中的文本
c#
、
pdf
、
itextsharp
我有两个
pdf
文件。在Sercurity选项卡上,两个文件都设置了Security方法:无安全性和文档程序集:不允许,页提取:不允许。其他项目是允许的。我使用standart ITextSharp方法从
pdf
中检索文本: for
浏览 4
提问于2014-05-21
得票数 0
回答已采纳
4
回答
是否有任何web应用程序可以
将
PDF
转换为
word
(或html),并为表提供良好的支持?
webapp-rec
、
pdf
是否有一个web应用程序可以
将
PDF
文件转换为
word
(或html)文件,包括恢复表?(我希望
将
PDF
规范转换成我可以用来驱动系统测试的格式) 我还没有接受一个答案,如果有人想写一个答案,比较不同的选择,我会接受它。
浏览 0
提问于2010-07-17
得票数 1
回答已采纳
1
回答
如何
将
所有图像转换为
Word
文档中的文本?
webapp-rec
、
ocr
这些图片中有文字,我找不到一个工具,可以很容易地做到这一点,最好没有任何安装。
浏览 0
提问于2011-02-17
得票数 0
2
回答
使用此
OCR
保存代码
将
djvu转换为
pdf
麻烦
pdf
、
convert
、
ocr
、
djvu
我想在保存
OCR
的同时
将
djvu转换成
pdf
。这个页面描述了
如何
做到这一点,但是我得到了一个空白的html文件。" content="djvu2hocr 0.7.9" /> <meta name="
ocr
-capabilities" content="
ocr
_carea
ocr
_page
ocr
_par ocrx_blockocrx_line ocrx_
wor
浏览 0
提问于2013-03-25
得票数 1
1
回答
如何
将
jpg文件目录转换为以文件名为书签的
pdf
?
pdf
、
pdftk
、
bookmarks
如何
将它们转换为一个
将
文件名作为书签的
pdf
文件? (我最终也想加入
ocr
。如前所述,我们可以使用.jpg
将
.
pdf
文件转换为img2
pdf
.jp --output combined.
pdf
,然后可以使用ocrmypdf combined.
pdf
combined_
ocr
.
pdf
添加
ocr
。我的问题主要是
如何
确保
pdf
文件有书签(由文件名创建)
浏览 0
提问于2021-09-23
得票数 0
1
回答
PDF
Store文本
如何
pdf
、
pdf-generation
、
text-extraction
我试图更好地理解
PDF
是
如何
存储文本的。一般来说,当从MS
Word
(在我的例子中是SQL Server Reporting Services)之类的应用程序创建
PDF
时,
PDF
如何
存储文本?我希望在这种特定场景中,生成的文档不会像从图像创建原始
PDF
文档那样经过
OCR
处理。 为了获得更多的细节,我正在尝试了解
PDF
的文本提取器是
如何
工作的。我最初对
PDF
的理解是,它存储了(PostScript)
浏览 2
提问于2013-03-26
得票数 9
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券