Laravel - PDF:无法将PDF中的文本编码为文本 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Laravel - PDF:无法将PDF中的文本编码为文本

、、、

我正在尝试上传PDF文件，并希望将其从PDF转换为文本。其中一些文件能够转换并从PDF中获得文本，但其中一些文件存在问题，如截图所示。有两个不同的例子，(虽然它显示3，但2是相同的)，顶部的和第二个是相同的，我认为它不是一个正确的编码(不确定)和第三个，它只捕获了PDF的一半信息。我需要的主要内容是在它停止之后。use App\

浏览 10提问于2019-03-08得票数 0

8回答

如何在Perl中从PDF文件中提取文本？

、、、

我正在尝试使用Perl从PDF文件中提取文本。我一直在命令行中使用pdftotext.exe (即使用Perl函数)从system文件中提取文本，这种方法工作得很好。问题是我们有像α，β和其他特殊字符中的符号，这些符号不会显示在生成的txt文件中。此外，在文本中随机添加的额外空格也很少。有没有一种更好、更可靠的方法来从PDF文件中提取文本，使文本

浏览 11提问于2009-07-16得票数 23

0回答

如何正确提取此PDF文件的阿拉伯语文本？

、、

今天我试着在一个包含阿拉伯语内容的PDF文件中搜索一个阿拉伯语单词。用hw ½oiC代替آخرین سخن 此PDF文件中使用的<

浏览 9提问于2018-07-20得票数 2

2回答

为什么pdf文档不能搜索？

、、、、

我有一个包含阿拉伯语内容的pdf文档，当我试图在文档中搜索特定的单词时，adobe reader没有返回任何结果。似乎是格式问题...我怎么才能修复它呢？谢谢。

浏览 0提问于2009-12-31得票数 1

回答已采纳

3回答

有没有用objective-c或c编写的PDF解析器？

、、、

我正在写一个pdf阅读器iPhone应用程序。我现在要做的是在pdf文件中搜索文本，并突出显示搜索到的文本。因此，我需要一个能够检测文本在什么位置的库。此外，我希望这个库能够处理unicode和中文字符。我试过xpdf，但它是用c++写的</em

浏览 1提问于2011-01-03得票数 4

2回答

如何使用itext读取pdf？

、、

现在我有错误了:2018年5月8日12:27:47下午toUnicode 和空洞的结果

浏览 0提问于2018-05-08得票数 0

回答已采纳

3回答

在终端linux中没有任何应用程序的pdf中搜索单词。

、、、、

是否可以使用grep或其他命令和/或regex来搜索PDF文件中的特定模式？

浏览 7提问于2014-07-03得票数 1

回答已采纳

9回答

如何从非ASCII编码的PDF中剪切粘贴？

、、

我有一些PDF，我正在尝试从Acrobat Reader中剪切并粘贴它们包含的文本到HTML表单中。似乎其中一些文件使用(我怀疑) unicode进行文本编码，所以当我尝试粘贴到HTML表单(在firefox上)时，我得到的是带有十六进制字符的小方框，而不是可读的文本。问题不是PDF没有被OCRed --当我在Acrobat Pro中尝试这样做时，它说它不能，因为

浏览 0提问于2012-02-05得票数 7

回答已采纳

2回答

我正在尝试创建一个脚本，将突出显示内部使用tesseract图像中的特定单词。我的方法适用于大多数语言，除了带有西里尔字符的语言，如俄语或希腊语。，当我使用tesseract image_to_string提取文本时，它被正确地打印出来(如下所示) 但是，当我尝试处理图像并使用tesseract数据“text”突出显示所需的文本时，得到的文本不包含西里尔字符我知道tesseract已经对字符进行了编码</e

浏览 2提问于2020-04-30得票数 0

1回答

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

、、、

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的文本。你有什么想

浏览 0提问于2018-12-17得票数 1

1回答

面对使用java从pdf文件中提取文本的问题

、、

无法从具有客户加密字体的pdf中提取文本，后者可以通过Adobe中的File -> ->字体识别。其中一种字体被提及为，C0EX02Q0_22类型:类型3编码:自定义实际字体: C0EX02Q0_22实际字体类型:类型3 让我知道是否有任何方法来提取这些pdf文件的文本内容。目前，我正在使用的PDFText2HTML从pdf util。在提取这样<em

浏览 0提问于2014-01-22得票数 1

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

、、、、

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार 解压后的内容是：̄？3⁄4

浏览 3提问于2011-09-20得票数 4

回答已采纳

2回答

如何在PDF中正确显示Jasper输出的越南语？

、、

越南人字符显示错误@RequestMapping(value = "/ca_audit/minute_pdf", method = RequestMethod.GET) JasperExportManager.exportReportToPdfFile(jasperPrint, "D:/foo/out.pdf");文件*.jrxml的内容 <?]&

浏览 0提问于2019-07-26得票数 1

回答已采纳

2回答

在Laravel中创建包含html和gujarati文本的pdf

、、、

我已经尝试在Laravel中创建pdf。使用barryvdh/laravel-dompdf供应商包类。我的pdf内容英文和古吉拉特文。但古吉拉特文内容打印为？pdf格式。我已经成功地创建了pdf，使用这种类型的代码pdfview是我的pdf php，html内容文件视图 $

浏览 28提问于2019-08-19得票数 0

3回答

如何将NSData与textEncoding utf-8转换成textEncoding

、、、、

我正在编写下面的代码，但是从NSData转换到NSString返回为零。(可能是编码类型造成的)那么，在我的情况下，如何将NSData转换为NSURL呢？但是当我试图将这些数据加载到

浏览 1提问于2015-01-24得票数 4

回答已采纳

8回答

PDF中的Copy+pasting文本导致垃圾

、

它从PDF文件中提取纯文本。有几个PDF文件无法正确提取。cD╬lh d f his~n╗xd f“d┤ffih” 我是检查每个文件，使这个提取的问题，所有这些文件的文本也不能复制粘贴从PDF (Adobe和FoxIt阅读器)。在这个阅读器中查看它们是启用的，但是在选择它的内容

浏览 5提问于2010-05-28得票数 15

1回答

当我尝试读取PDF时，PDFBox读取空字符串

、、、、

我正在尝试使用pdf box从文件中读取文本，以便在文件系统中对其进行排序。我正在使用C#。我可以从互联网上读取示例pdf，但出于某种原因，我试图读取的pdf只返回一个没有实际字符的字符串。string[] args) string fileName = @"C:\Users\Development\Desktop\purchaseOrder.pdfdoc.close();

浏览 5提问于2018-08-09得票数 0

1回答

PyPDF2无法读取非英语字符，在extractText()上返回空字符串

、、、、

我正在编写一个脚本，该脚本将从一个大型PDF文件(40-60多页)中提取中的数据，不是英文，但该文件包含希腊语字符，在我运行PyPDF2的extractText()函数获取页面内容之前，这一切看起来都很好我是这个图书馆的新手，我不知道该怎么做，来解决这个问题！！

浏览 2提问于2020-02-24得票数 3

回答已采纳

4回答

在windows窗体的web浏览器控件中获取PDF中的选定文本

、、、、

我需要知道我是否可以从已加载到windows窗体中的web浏览器控件的pdf中获取所选文本。我使用的是带有.net 3.5及更低版本的C#和Visual Studio2008。我在控件中显示了pdf，但我不知道如何访问该文档中的选定文本。mshtml文档为空。提前感谢！

浏览 0提问于2009-08-13得票数 3

2回答

来自Copy+pasting文件的希伯来文将导致最终字母被错误地复制。

、、、、

所以我得到了一些希伯来文的PDF文件，我想要翻译成英语，当我试图把PDF文件中的文本复制到文本编辑器中时，所有希伯来文最终字母的都被错误地复制了。我试着从acrobat阅读器和chrome PDF查看器复制和粘贴内容，但是它们都没有正确地复制内容。我发现的另一件有趣的事情是，当您在浏览器中Ctrl+F (我在铬上试用过)并搜索最后的字母"

浏览 7提问于2017-07-11得票数 0

回答已采纳

点击加载更多