腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Laravel
-
PDF
:
无法
将
PDF
中
的
文本
编码
为
文本
、
、
、
我正在尝试上传
PDF
文件,并希望将其从
PDF
转换为
文本
。其中一些文件能够转换并从
PDF
中
获得
文本
,但其中一些文件存在问题,如截图所示。有两个不同
的
例子,(虽然它显示3,但2是相同
的
),顶部
的
和第二个是相同
的
,我认为它不是一个正确
的
编码
(不确定)和第三个,它只捕获了
PDF
的
一半信息。我需要
的
主要内容是在它停止之后。use App\
浏览 10
提问于2019-03-08
得票数 0
8
回答
如何在Perl
中
从
PDF
文件中提取
文本
?
、
、
、
我正在尝试使用Perl从
PDF
文件中提取
文本
。我一直在命令行中使用pdftotext.exe (即使用Perl函数)从system文件中提取
文本
,这种方法工作得很好。问题是我们有像α,β和其他特殊字符
中
的
符号,这些符号不会显示在生成
的
txt文件
中
。此外,在
文本
中
随机添加
的
额外空格也很少。有没有一种更好、更可靠
的
方法来从
PDF
文件中提取
文本
,使
文本
浏览 11
提问于2009-07-16
得票数 23
0
回答
如何正确提取此
PDF
文件
的
阿拉伯语
文本
?
、
、
今天我试着在一个包含阿拉伯语内容
的
PDF
文件
中
搜索一个阿拉伯语单词。用hw ½oiC代替آخرین سخن 此
PDF
文件中使用
的
<
浏览 9
提问于2018-07-20
得票数 2
2
回答
为什么
pdf
文档不能搜索?
、
、
、
、
我有一个包含阿拉伯语内容
的
pdf
文档,当我试图在文档
中
搜索特定
的
单词时,adobe reader没有返回任何结果。 似乎是格式问题...我怎么才能修复它呢?谢谢。
浏览 0
提问于2009-12-31
得票数 1
回答已采纳
3
回答
有没有用objective-c或c编写
的
PDF
解析器?
、
、
、
我正在写一个
pdf
阅读器iPhone应用程序。我现在要做
的
是在
pdf
文件
中
搜索
文本
,并突出显示搜索到
的
文本
。因此,我需要一个能够检测
文本
在什么位置
的
库。此外,我希望这个库能够处理unicode和中文字符。我试过xpdf,但它是用c++写
的</em
浏览 1
提问于2011-01-03
得票数 4
2
回答
如何使用itext读取
pdf
?
、
、
现在我有错误了:2018年5月8日12:27:47下午toUnicode 和空洞
的
结果
浏览 0
提问于2018-05-08
得票数 0
回答已采纳
3
回答
在终端linux
中
没有任何应用程序
的
pdf
中
搜索单词。
、
、
、
、
是否可以使用grep或其他命令和/或regex来搜索
PDF
文件
中
的
特定模式?
浏览 7
提问于2014-07-03
得票数 1
回答已采纳
9
回答
如何从非ASCII
编码
的
PDF
中
剪切粘贴?
、
、
我有一些
PDF
,我正在尝试从Acrobat Reader
中
剪切并粘贴它们包含
的
文本
到HTML表单
中
。似乎其中一些文件使用(我怀疑) unicode进行
文本
编码
,所以当我尝试粘贴到HTML表单(在firefox上)时,我得到
的
是带有十六进制字符
的
小方框,而不是可读
的
文本
。问题不是
PDF
没有被OCRed --当我在Acrobat Pro
中
尝试这样做时,它说它不能,因为
浏览 0
提问于2012-02-05
得票数 7
回答已采纳
2
回答
Python Tesseract西里尔字母问题
、
、
我正在尝试创建一个脚本,
将
突出显示内部使用tesseract图像
中
的
特定单词。我
的
方法适用于大多数语言,除了带有西里尔字符
的
语言,如俄语或希腊语。,当我使用tesseract image_to_string提取
文本
时,它被正确地打印出来(如下所示) 但是,当我尝试处理图像并使用tesseract数据“text”突出显示所需
的
文本
时,得到
的
文本
不包含西里尔字符我知道tesseract已经对字符进行了
编码</e
浏览 2
提问于2020-04-30
得票数 0
1
回答
如何使用Python3和PyPDF2
将
unicode
编码
的
PDF
文件转换为
文本
、
、
、
我正在尝试使用Python3和PyPDF2库
将
PDF
转换为
文本
文件。但
PDF
主要是用韩语编写
的
,所以在处理
PDF
文本
之前,它似乎是用'utf-8‘
编码
的
。但是,无论是使用"open“功能读取
PDF
文件,还是使用"codecs”功能读取
PDF
文件,似乎都
无法
正确提取‘utf-8’
编码
的
文本
。你有什么想
浏览 0
提问于2018-12-17
得票数 1
1
回答
面对使用java从
pdf
文件中提取
文本
的
问题
、
、
无法
从具有客户加密字体
的
pdf
中提取
文本
,后者可以通过Adobe
中
的
File -> ->字体识别。其中一种字体被提及
为
,C0EX02Q0_22类型:类型3
编码
:自定义实际字体: C0EX02Q0_22实际字体类型:类型3 让我知道是否有任何方法来提取这些
pdf
文件
的
文本
内容。目前,我正在使用
的
PDFText2HTML从
pdf
util。在提取这样<em
浏览 0
提问于2014-01-22
得票数 1
1
回答
如何在
将
文档从
PDF
转换为
文本
时处理unicode字符
编码
问题
、
、
、
、
我正在尝试从
PDF
中提取
文本
。
PDF
包含印地语(Unicode)
文本
。我使用
的
提取实用程序是Apache PDFBox ( )。提取器提取
文本
,但
文本
无法
识别。我尝试了在多种
编码
和字体之间切换,但仍然
无法
识别预期
的
文本
。下面是一个例子:假设
PDF
中
的
文本
是:पवार 解压后
的
内容是:̄?3⁄4
浏览 3
提问于2011-09-20
得票数 4
回答已采纳
2
回答
如何在
PDF
中正确显示Jasper输出
的
越南语?
、
、
越南人字符显示错误@RequestMapping(value = "/ca_audit/minute_
pdf
", method = RequestMethod.GET) JasperExportManager.exportReportToPdfFile(jasperPrint, "D:/foo/out.
pdf
");文件*.jrxml
的
内容 <?]&
浏览 0
提问于2019-07-26
得票数 1
回答已采纳
2
回答
在
Laravel
中
创建包含html和gujarati
文本
的
pdf
、
、
、
我已经尝试在
Laravel
中
创建
pdf
。使用barryvdh/
laravel
-dompdf供应商包类。我
的
pdf
内容英文和古吉拉特文。但古吉拉特文内容打印
为
?
pdf
格式。我已经成功地创建了
pdf
,使用这种类型
的
代码pdfview是我
的
pdf
php,html内容文件视图 $
浏览 28
提问于2019-08-19
得票数 0
3
回答
如何
将
NSData与textEncoding utf-8转换成textEncoding
、
、
、
、
我正在编写下面的代码,但是从NSData转换到NSString返回
为
零。(可能是
编码
类型造成
的
)那么,在我
的
情况下,如何
将
NSData转换为NSURL呢?但是当我试图
将
这些数据加载到
浏览 1
提问于2015-01-24
得票数 4
回答已采纳
8
回答
PDF
中
的
Copy+pasting
文本
导致垃圾
、
它从
PDF
文件中提取纯
文本
。有几个
PDF
文件
无法
正确提取。cD╬lh d f his~n╗xd f“d┤ffih” 我是检查每个文件,使这个提取
的
问题,所有这些文件
的
文本
也不能复制粘贴从
PDF
(Adobe和FoxIt阅读器)。在这个阅读器
中
查看它们是启用
的
,但是在选择它
的
内容
浏览 5
提问于2010-05-28
得票数 15
1
回答
当我尝试读取
PDF
时,PDFBox读取空字符串
、
、
、
、
我正在尝试使用
pdf
box从文件
中
读取
文本
,以便在文件系统
中
对其进行排序。我正在使用C#。我可以从互联网上读取示例
pdf
,但出于某种原因,我试图读取
的
pdf
只返回一个没有实际字符
的
字符串。string[] args) string fileName = @"C:\Users\Development\Desktop\purchaseOrder.
pdf
doc.close();
浏览 5
提问于2018-08-09
得票数 0
1
回答
PyPDF2
无法
读取非英语字符,在extractText()上返回空字符串
、
、
、
、
我正在编写一个脚本,该脚本将从一个大型
PDF
文件(40-60多页)中提取
中
的
数据,不是英文,但该文件包含希腊语字符,在我运行PyPDF2
的
extractText()函数获取页面内容之前,这一切看起来都很好我是这个图书馆
的
新手,我不知道该怎么做,来解决这个问题!!
浏览 2
提问于2020-02-24
得票数 3
回答已采纳
4
回答
在windows窗体
的
web浏览器控件
中
获取
PDF
中
的
选定
文本
、
、
、
、
我需要知道我是否可以从已加载到windows窗体
中
的
web浏览器控件
的
pdf
中
获取所选
文本
。我使用
的
是带有.net 3.5及更低版本
的
C#和Visual Studio2008。我在控件
中
显示了
pdf
,但我不知道如何访问该文档
中
的
选定
文本
。mshtml文档
为
空。 提前感谢!
浏览 0
提问于2009-08-13
得票数 3
2
回答
来自Copy+pasting文件
的
希伯来文
将
导致最终字母被错误地复制。
、
、
、
、
所以我得到了一些希伯来文
的
PDF
文件,我想要翻译成英语,当我试图把
PDF
文件
中
的
文本
复制到
文本
编辑器
中
时,所有希伯来文最终字母
的
都被错误地复制了。我试着从acrobat阅读器和chrome
PDF
查看器复制和粘贴内容,但是它们都没有正确地复制内容。我发现
的
另一件有趣
的
事情是,当您在浏览器
中
Ctrl+F (我在铬上试用过)并搜索最后
的
字母"
浏览 7
提问于2017-07-11
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券