腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
办法
在
使用
Python
解析
PDF
文件
时
识别
划掉
的
单词
?
、
、
、
我正在
使用
PyMuPDF
解析
PDF
文件
(顺便说一下,这是一个很棒
的
库!) 但是我需要
识别
那些被
划掉
的
单词
。
有没有
办法
做到这一点?
浏览 27
提问于2020-08-26
得票数 0
1
回答
非
PDF
格式
文件
中可填入
PDF
表格
的
正面
识别
、
我正在寻找一种编程方法,以积极
识别
非
PDF
表单
文件
中
的
可填充
PDF
表单。我认为可供选择
的
办法
如下: 用支持十六进制
的
语言(如
Python
)
解析
文件
以进行签名标识。
使用
具有十六进制能力
的
语言(如
Python
)
解析
文件
,以标记告示符号。
浏览 5
提问于2013-07-23
得票数 0
3
回答
读取
Python
语言中
的
.docx
文件
以查找删除线、项目符号和其他格式
、
、
谁能帮我
在
Python
中
使用
python
-docx
识别
.docx
文件
中
的
段落是否包含格式化为删除线(即,它出现,但被
划掉
了),或者
在
开头有一个项目符号?我正在尝试编写一个脚本来
识别
文档中
的
结构并
解析
内容。 for run in p.
浏览 3
提问于2017-10-09
得票数 2
1
回答
使用
CAM::
PDF
解析
.
pdf
文件
时
出现正则表达式问题
、
不匹配
的
[
在
正则表达式中;
在
m/ <-- HERE /at./
pdf
_parse.pl第37行用<-- HERE标记。实际上,我正在逐个
单词
地
解析
.
pdf
文件
,以便从中生成字典第37行:}
解析
器脚本停止工作
的
实际
单词
在
我正在
解析
的</
浏览 4
提问于2011-05-19
得票数 0
回答已采纳
1
回答
pocketsphinx batch vs continuous
、
用pocketsphinx、continuous和batch对.wav格式
的
音频
文件
进行解码
时
,结果差异非常显着。我想问: 1.为什么pocketsphinx batch通常比pocketsphinx给出好
的
结果? 2.
有没有
关于pocketsphinx batch和continuous工作的确切解释?3.当
使用
pocketsphinx解码
时
cmninit值不正确,因此,我认为循环wav音频
文件
,结果相当好。
有没有
办法</em
浏览 2
提问于2018-06-19
得票数 0
1
回答
Perl CAM::
PDF
拆分
单词
不正确
、
我正在
使用
CAM::
PDF
Perl模块来
解析
PDF
。这个模块运行得很好,除了一个问题,它似乎随机拆分
单词
。
有没有
办法
通过设置或某种算法将
单词
重新组合在一起?“
在
纽约和都柏林设有办事处。”-Notice纽约代码部分如下: $text = $<em
浏览 1
提问于2011-06-07
得票数 0
回答已采纳
2
回答
可以
使用
wordcloud生成基于矢量
的
pdf
吗?
、
我
在
python
中
使用
来生成
单词
云。 我能够
在
我
的
机器上重现这个,然后尝试将最后一行plt.show()更改为plt.savefig('image.
pdf
'),以获得
pdf
输出。我有一个同样
的
结果
的
pdf
,然而,
pdf
似乎是基于像素而不是基于矢量。当我
在
pdf
中聚焦一个特定
的
点
时
,它会变成一
浏览 2
提问于2015-07-10
得票数 1
1
回答
防止Sphinx中下载链接中
的
粗体文本读取文档
、
、
在
使用
Sphinx和RTD主题编写
python
库
的
过程中,我
使用
:download: Download Text <_download/the_file.
pdf
>角色链接了一些供下载
的
PDF
文件
,但由于某些原因,导致了如下所示
的
链接:第一个词是正常
的
,但下面的所有
单词
都是粗体。
有没有
办法
阻止下载链接文本中
浏览 0
提问于2017-03-21
得票数 1
回答已采纳
3
回答
用于读取
PDF
文件
的
Python
、
我发现很多帖子都提出了阅读
PDF
的
解决方案。我想一个字一个字地阅读
PDF
文件
,并对它做一些处理。人们推荐pdfMiner,它可以将整个
PDF
文件
转换成文本
文件
。但我想要
的
是一个字一个字地读
PDF
。
有没有
人能推荐一个这样
的
图书馆呢?
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
1
回答
PyPDF2在用
pdf
格式读取
时
正在创建非字母数字字符。
、
我正在
使用
包读取一个
PDF
文件
。但是,当它读取
PDF
文件
时
,会出现许多非字母数字字符,这些字符
在
原始
PDF
文件
中不存在。例如,我
在
pdf
中有行;“这一年实际上比预期
的
更令人困惑,但这也让我越来越相信大量
的
案例都是错误
的
。”。我知道以后我可以
使用
正则表达式来去除这些特殊字符,但我一
浏览 0
提问于2018-05-14
得票数 0
回答已采纳
3
回答
将
PDF
转换为.ipynb (从
PDF
中恢复木星笔记本)
、
、
我有一个
PDF
文件
是从木星笔记本创建
的
,但是原始
的
.ipynb
文件
丢失了。有什么工具可以帮助将
PDF
转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
1
回答
使用
Python
解析
PDF
文件
、
、
、
(1)
有没有
办法
在
pdf
文件
中搜索文本,并
使用
Python
转到
pdf
文件
中
的
那个位置?(2)
有没有
办法
突出显示
pdf
文件
中
的
文本,然后
使用
Python
提取该文本?我试过
使用
Javascript,它实际上是有效
的
,但我想尝试
pdf
.js。任何
浏览 7
提问于2018-08-09
得票数 0
回答已采纳
2
回答
如何编辑可搜索
PDF
的
搜索文本?
、
我可以访问我
的
图书馆
的
扫描仪,它可以创建“可搜索
的
PDF
”。这些
PDF
显示扫描文档的确切图像,但是当您尝试选择包含文本
的
图像
的
一部分时,
PDF
中有一种隐藏
的
文本可以被选择。通过这种方式,您可以
在
扫描文档中复制和粘贴文本或搜索文本。这很有用。这是一个可怕
的
改进比原始扫描图像。我
的
mac上也有几个应用程序,可以从扫描文档或原始图像创建这种可搜索
的
PDF</em
浏览 6
提问于2015-10-02
得票数 1
1
回答
从
pdf
蔚蓝认知搜索中摘取段落或句子
、
我有一个blob容器,在那里我存储
pdf
文件
,我
使用
Azure认知搜索搜索
单词
或内容
的
PDF
。当搜索容器中
的
一个
pdf
中存在
的
单词
或句子时,Azure认知搜索返回
pdf
中
的
全部内容。
有没有
一种方法,我们可以只提取一个句子或段落从
pdf
中出现
的
单词
或句子?
有没有
办法
突出显
浏览 2
提问于2021-11-25
得票数 1
2
回答
在
IE中保存来自php
的
pdf
输出
、
我
使用
tcpdf通过php生成一个
pdf
文件
,并相应地设置头
文件
,以便当在浏览器中打开php
文件
时
,它显示为
pdf
。现在在另一个页面中,我有一个指向此php
文件
的
超链接,
在
Firefox中,当有人右键单击此链接并
使用
“另存为”
时
,该
文件
将保存为
pdf
文档。然而,
在
IE上,它以包含垃圾值(
pdf
编码内容)
浏览 1
提问于2012-06-15
得票数 0
1
回答
iText
PDF
PArser不会
使用
八位位流将数据
解析
为一个完整
的
单词
、
、
、
我正在尝试
使用
itextsharp (版本: 5.5.1.0)
解析
一个
pdf
文件
。
pdf
文件
的
content-type为"application/octet-stream“。我正在
使用
C#代码根据位置策略进行读取var bottomLeftVector.I2]);
浏览 0
提问于2017-05-17
得票数 0
2
回答
NLP挑战:自动删除书目/参考文献?
、
、
最近我遇到了以下问题:当在一堆
解析
的
PDF
文件
上应用主题模型
时
,我发现引用
的
内容不幸也是模型
的
一部分。例如,引用中
的
单词
出现在标记化
的
单词
列表中。 有什么已知
的
“最佳实践”来解决这个问题吗?我想到了一种搜索策略,
在
最后一次提到“引用”或“参考书目”之后,
python
代码会自动删除所有内容。如果我首先在全文中随意提及“引用”或“参考书目”,
浏览 0
提问于2018-01-25
得票数 0
回答已采纳
3
回答
如何计算给定
PDF
中给定
单词
的
数量?
面试问题问题
的
措辞如下:我提出这项质询
的
理由如下: 为了更好地理解这个问题
的
背景--我仍然无法理解这个问题
的
背景,面试官可能会通过问这个问题来寻找什么?为了获得不同
的
意见,我倾向于根据我在编程语言(
浏览 0
提问于2012-01-24
得票数 5
回答已采纳
1
回答
node.js如何将url用作
pdf
2json
的
pdf
路径
、
、
、
、
我正在
使用
node.js和
pdf
2json
解析
器来
解析
一个
pdf
文件
。目前,它正在处理一个本地
pdf
文件
。但是我试图通过node.js
的
URL/HTTP模块获得一个
pdf
文件
,我想打开这个
文件
来
解析
它。
有没有
可能
解析
/处理一个在线
的
pdf
?let query = ur
浏览 18
提问于2017-07-12
得票数 4
1
回答
从
PDF
文件
中提取嵌入式超链接
、
我目前工作
的
PDF
文件
,特别是,我需要收集信息与超链接嵌入
在
PDF
文件
的
文本。到目前为止,我所做
的
是
使用
pdftools包
解析
PDF
文件
。然而,它只呈现文本,而不呈现潜在
的
超链接。下面可以找到一个
PDF
文件
的
例子,它有两个嵌入
的
超链接(
单词
"sentencia“和&
浏览 1
提问于2018-08-28
得票数 7
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券