首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将扫描的pdf转换为R中可搜索的pdf

将扫描的pdf转换为R中可搜索的pdf
EN

Stack Overflow用户
提问于 2022-11-16 20:28:48
回答 1查看 25关注 0票数 0

我有一个pdf,大约50页扫描表。我需要最终把它刮到R中,这样我就可以清理数据并将其导出为.csv。我有使用tabulizer抓取可读的pdfs的经验,但我以前从未真正使用过扫描pdfs,tabulizer无法读取它们。

环顾在线,我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中,但这会使格式发生很大的变化,因此表中的列都错对齐了,并出现了无序。即使它的格式仍然很好,我也不知道如何将字符对象转换成最终的df。

有没有一种方法可以将扫描的pdf转换成可读的pdf,这样我就可以在tabulizer中抓取它了?还是另一种将扫描的pdfs抓取到表中的方法?

EN

回答 1

Stack Overflow用户

发布于 2022-11-16 22:49:09

tesseract::ocr函数可以读取PDF文件并将它们转换为文本。然后,您可以将其作为文档处理,并生成一个(可能非常难看!)PDF文件:

代码语言:javascript
运行
复制
library(tesseract)

eng <- tesseract("eng")

yaml <- '
---
output: pdf_document
---'
text <- tesseract::ocr("scanned.pdf", engine=eng)
lines <- unlist(strsplit(text, "\n"))
lines2 <- c(yaml, lines2)
writeLines(lines2, "ocr.Rmd")

然后在那份文件上运行run。您会得到很多OCR错误,所以编辑.Rmd文件来修复它们,然后再做一次(然后再次.)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74466819

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档