腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
从
pdf
中
提取
文本
在
Laravel
中
不起作用
、
我正在尝试使用Spatie-PdfToText
从
Laravel
的
PDF
文件中
提取
一些
文本
。但是,我得到的错误是没有这样的文件或目录。该函数位于路径app\Http\Controllers\AddRecordsController
中
,而
PDF
位于路径\app\Http\Controllers\book.
pdf
中
。我还尝试将getText()
中
的路径更改为上面写的路径,但同样的错误。要
提取
的代码:
浏览 25
提问于2019-06-27
得票数 1
回答已采纳
2
回答
使用Algolia搜索(
提取
文本
)
PDF
文件
、
、
对于一个拥有大量
PDF
文件的客户来说,这只是一个推测性的想法。 它需要是一个自动化的系统,因为客户端不应该告诉它索引。它将构建在PHP
中</em
浏览 9
提问于2016-07-28
得票数 3
回答已采纳
2
回答
如何
从
扫描的文档中
提取
垂直标签和值?
、
、
、
、
我正在制作一个文档解析器,它从文档中
提取
数据字段,并以结构化的方式存储它们。我的数据集中的每个字段都是水平的,这很容易
提取
。 ? 但是这个模型
在
垂直字段上失败了,例如,我想从这样的图像中
提取
发票编号和日期,这在任何类型的预先训练的OCR中都是不可能的。 ?
浏览 8
提问于2020-01-17
得票数 0
4
回答
PyMuPDF
提取
纯
文本
的几个问题
、
、
我想使用阅读
PDF
文件。我所需要的是纯
文本
(不需要
提取
颜色,字体,表格等信息)。(ifile)
不起作用
,所以我试着 doc然后,我
从
PyMuPDF的一位作者那里找到了一个PyMuPDF,它具有按
从
文件
中
读取的顺序
提取
文本</e
浏览 3
提问于2018-06-04
得票数 4
1
回答
阿拉伯
PDF
文本
抽取器
、
有没有
从
pdf
中
提取
阿拉伯
文本
的
pdf
文本
提取
器api。private String extractPDF(String path) throws IOException { String parsedTextcont
浏览 2
提问于2018-06-05
得票数 1
回答已采纳
2
回答
从
.
PDF
文件中
提取
数据
我需要从.
PDF
文件中
提取
数据并将其加载到SQL2008
中
。谁能告诉我该怎么做??
浏览 5
提问于2011-02-07
得票数 3
1
回答
转换/编译
从
数据库中
提取
的多个.
pdf
文件为一个.
pdf
/
文本
文件/html的程序
、
、
在数据库
中
查询姓名。所讨论的数据库更像是ebscohost而不是mysql。2.从一系列.pdfs
中
单独移除
文本
。3.将这些结果粘贴/输出到单个文件
中
。所以我猜我只是
在
寻找1.一种语言/或方法,可能很适合我已经学到的东西。2.这将是一个多大的承诺的描述。我将尝试
从
他那里获得一些更精确的信息,当我得到它时,我会补充这一点。而且我没有必要的代表。添加'.
pdf
‘到标签,似乎它适合。提前谢谢!
浏览 0
提问于2011-11-29
得票数 0
回答已采纳
1
回答
将PDFpage下载为字符串
、
、
、
、
在做了一些基本的教程之后,我开始
在
eclipse
中
制作我的第一个真正的android应用程序。我想让这个应用程序检查EditText
中
的
文本
是否与PDFpage上的
文本
匹配(这个: (它包含我学校的课程表更改))。我已经了解了如何让应用程序检查EditText
中
的
文本
是否与字符串匹配(使用方法PDFpage ()),所以现在我唯一需要做的就是将该字符串
中
的所有
文本
下载到一个字符串
中
。但我不知道该怎么做。
浏览 4
提问于2012-07-22
得票数 0
回答已采纳
2
回答
如何使用pdfminer.six
、
、
我正在尝试使用Python3.x
中
的pdfminer
从
pdf
中
提取
文本
。我使用以下命令安装了它当我尝试使用下面的命令
提取
文本
时,我得到了一个错误错误:
pdf
2txt.py:找不到命令 我已经阅读了官方文档,它们显示了我上面遵循的相同步骤,但仍然
不起作用
。
浏览 102
提问于2018-02-08
得票数 1
回答已采纳
1
回答
python
从
列
中
打开
PDF
urls并将
文本
数据加载到新列
中
、
、
、
URL栏包含web上
PDF
的链接。我想打开每个
pdf
并将
pdf
的内容复制到新的列
PDF
data
中
。我知道一些
PDF
文件可能会很长,
在
某些情况下,该列
中
的
文本
数量可能会很大。例如,
在
第一行
中
,我希望将URL '‘的内容复制到列
PDF
data
中
。
在
第三行
中
,<e
浏览 12
提问于2018-02-13
得票数 0
1
回答
使用GhostScript将PostScript转换为
文本
、
、
、
、
我想从PostScript文档中
提取
文本
数据。问题是,当我使用GhostScript来做这件事时,一些
文本
会被正常
提取
,而另一些
文本
会被转换成奇怪的符号字符。我意识到那些通常被
提取
出来的
文本
是字体,由于许可限制,GhostScript不会将它们嵌入到
PDF
中
。而且,具有讽刺意味的是,没有许可限制的字体通常嵌入到
PDF
中
,但没有正确地转换回来。我尝试了txtwrite设备直接将PostScript转换
浏览 2
提问于2013-11-12
得票数 1
2
回答
iText
在
安卓系统上的
文本
提取
/阅读
、
、
其他人说iText只用于创建
PDF
?而且它不能从
PDF
中
读取或
提取
文本
。这是真的吗?如果这是真的,那么我还可以选择哪些其他选项来
从
PDF
文件中
提取
文本
并将其保存在变量
中
或显示
在
Android设备
中
? 如果iText能够
从
PDF
中
提取
文本
,那么如何
提取
呢?
浏览 0
提问于2012-10-22
得票数 2
回答已采纳
1
回答
使用bash读取
pdf
内容
是否可以使用bash命令读取
pdf
的第一页(并执行一个琐碎的grep等)并相应地重命名文件?-a
浏览 2
提问于2014-07-08
得票数 1
回答已采纳
1
回答
波斯文件的PDFBOX
、
、
、
、
我想使用pdfBox
从
波斯语
pdf
文件中
提取
测试,但是它返回所有波斯字符的"?" (它正确地返回同一文档
中
的拉丁单词)。 我怎么才能修好它?有什么建议吗?
浏览 3
提问于2018-08-29
得票数 3
5
回答
解析大型
PDF
文件的方法
、
、
、
、
我有一个非常大的
PDF
文件(200,000 KB或更多),其中包含一系列的页面只包含表格。我想以某种方式使用Ruby解析这些信息,并将结果数据导入到MySQL数据库
中
。有没有人知道
从
PDF
中
提取
数据的方法?数据的格式如下:有时,Name字段会溢出到address字段,在这种情况下,剩余的列将显示在下面的行上。至少,有人能为我推荐一个Ruby
PDF
库来完成这项任务吗? 更新:我不小心提供了错误的信息!文件的实际大小为300 MB或300,00
浏览 0
提问于2010-09-15
得票数 2
回答已采纳
1
回答
使用pypdf2
从
pdf
文件中
提取
文本
、
、
、
、
尝试使用python(v3.8.2)模块pypdf2(v1.26.0)
从
pdf
文件/s中
提取
文本
。所有的好,除了与特定的
pdf
文件/s(产生的铬打印选项)。
在
使用chrome的print选项生成/下载的期间,我有这些文件,其中有一个选项可以将页面/文档保存为
pdf
。我无法从这些
pdf
文件中
提取
文本
,因为代码只返回‘’(空),其他
pdf
文件没有问题。如果你想测试
浏览 4
提问于2020-05-13
得票数 0
回答已采纳
1
回答
如何
从
PDF
中
提取
文本
,包括图像和
文本
、
、
、
我要从多个
PDF
文件中
提取
文本
。
PDF
文件包括
文本
和一些图像,甚至一些页面是扫描的页面(我假设扫描的页面就像图像)。我按照下面的命令
从
PDF
文件中
提取
文本
。我的问题是,如何使用条件编辑命令,以检查每个页面是否包含任何图像,然后
从
图像中
提取
文本
。如果你能帮助我,我将不胜感激。for foldername,subfolders,files in os.walk(r"C:
浏览 10
提问于2021-10-14
得票数 0
1
回答
从
PDF
文件获取
文本
属性
、
如何使用或获取
文本
属性?我需要字体大小和样式信息。$
pdf
->getPageContent(1); 但里面有文字信息。
浏览 0
提问于2014-08-12
得票数 0
3
回答
在
NSString
中
从
pdf
中
获取
文本
、
我试图使一个iOS应用程序,这将从
pdf
文件中
提取
纯
文本
,并在UITextView
中
显示它。它根本不是一个
pdf
阅读器来查看
pdf
文件,但我希望稍后对该
文本
执行某些操作。我已经尝试过使用,但文件使用的是ARMV6架构,这在Xcode4.5
中
似乎已过时 如果任何人能使用iOS的Quartz-2d框架提供一些准确和清晰的代码,那就太好了。
浏览 4
提问于2012-12-26
得票数 1
1
回答
根据
pdf
_reference_1-7,ToUnicode CMap比编码有更大的优先级,但是这里有一个相反的文件,我该怎么办?
、
原产地代码:(037)TjBaseEncoding: WinAnsiEncoding根据ToUnicode CMap,CID 31被映射到'3‘,这是错误的。/CIDInit /ProcSet findresource beginbegincmap<< /Registry (Adobe)/CMapName /Adobe-Identity-
浏览 1
提问于2019-07-01
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券