首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >提取PDF的部分

提取PDF的部分
EN

Stack Overflow用户
提问于 2016-07-29 22:36:48
回答 1查看 207关注 0票数 0

我正在尝试提取PDF文件的部分,以便在文本分析中使用。我尝试使用pdfextract来实现这一点。但是,像这样的命令

代码语言:javascript
运行
复制
pdf-extract extract --regions --no-lines Bauer2010.pdf

仅提取区域的(x,y)坐标,如下例所示。

代码语言:javascript
运行
复制
<region x="226.32" y="750.47" width="165.57" height="6.37"
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and
Counseling 79 (2010) 315-319</region>

可以提取PDF的各个部分吗?

EN

回答 1

Stack Overflow用户

发布于 2016-08-30 07:08:16

看看http://text-analyzer.com,在那里你可以上传你的PDF文件,它会将它转换成适合自然语言处理的格式。一旦转换成文本文件,它就可以处理该文件,并通过情感分析将其分解为句子。它有超过40种不同类型的句子视图,你可以在其中标记部分。这些带标签的句子可以导出。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38661508

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档