前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言:OCR图文识别,tesseract支持png、pdf转word

R语言:OCR图文识别,tesseract支持png、pdf转word

作者头像
拴小林
发布2022-04-18 14:37:36
3.2K0
发布2022-04-18 14:37:36
举报
文章被收录于专栏:数据驱动实践数据驱动实践
代码及补充文档分享链接:

https://pan.baidu.com/s/1kNngtcRUXH9J1CEeE2MaVw?pwd=oj5g

提取码:oj5g

代码语言:javascript
复制
##############################################
###########     OCR图文识别    ###############
###########     tesseract包    ###############
# REFER
# https://tesseract-ocr.github.io/docs/
# https://tesseract-ocr.github.io/tessdoc/Data-Files
# Date:20220318
##############################################

# 安装和加载包。
# 如遇Rcpp报错,建议remove包后重新install
# 特别情况下可直接至library安装路径下手动删除
# if(!require(Rcpp)) install.packages("Rcpp")
# if(!require(tesseract)) install.packages("tesseract")
rm(list = ls())
library(Rcpp)
library(tesseract) #如果不报错,正常会加载一段实践(30s以上)

# 先查看包含信息,和可以识别文字的包有哪些。
tesseract_info() 
# > tesseract_info() 
# $datapath
# [1] "C:\\Users\\USER\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/"
# 
# $available
# [1] "chi_sim"      "chi_sim_vert" "chi_tra"      "chi_tra_vert" "eng"          "osd"         
# 
# $version
# [1] "5.0.1"
# 
# $configs
# [1] "alto"             "ambigs.train"     "api_config"       "bigram"          
# [5] "box.train"        "box.train.stderr" "digits"           "get.images"      
# [9] "hocr"             "inter"            "kannada"          "linebox"         
# [13] "logfile"          "lstm.train"       "lstmbox"          "lstmdebug"       
# [17] "makebox"          "pdf"              "quiet"            "rebox"           
# [21] "strokewidth"      "tsv"              "txt"              "unlv"            
# [25] "wordstrbox"      


# 首次要下载下语言库
# 语言包https://blog.csdn.net/qq_41897154/article/details/109499741
# 官方语言包地址(选择更多)https://tesseract-ocr.github.io/tessdoc/Data-Files
# tesseract_download("chi_tra") # 下载繁体中文 
# tesseract_download("chi_sim")  # 下载简体中文
# 如果是直接在github下载的语言包
# 【需要操作】直接将相应的语言包复制到tesseract_info()路径下即可。


#查看和设置工作路径(图片所在位置)
# getwd()
setwd("C:\\Users\\USER\\Desktop")
# 图片支持JPG PNG。
text <- ocr('ec.png', engine = tesseract("chi_sim"))
cat(text)



# 支持pdf图文识别,Read from PDF files
pngfile <- pdftools::pdf_convert('ocrscan.pdf', dpi = 600)
## Converting page 1 to ocrscan_1.png... done!
text <- tesseract::ocr(pngfile)
cat(text)

# 更多关于OCR图文识别de  wen dang yu chu li
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据驱动实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
AI 应用产品
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档