前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >看完复旦博士用Python统计核酸结果后,我照着也写了一个

看完复旦博士用Python统计核酸结果后,我照着也写了一个

作者头像
卷福同学
发布2023-04-28 11:51:23
2650
发布2023-04-28 11:51:23
举报
文章被收录于专栏:奶奶看了都会

前几天,人民日报公众号报道了复旦博士生自己写代码,通过OCR和正则表达式统计核酸截图结果。具体文章见:https://mp.weixin.qq.com/s/l8u9JifKDlRDoz32-jZWQg

行外人看热闹,行内人都知道很容易实现的,这里就只说在Mac上如何用Python来实现图片内容识别,以及文字提取功能

准备工作

•安装Python3运行环境,安装pycharm开发工具

安装包

第一步:安装tesseract (这里都是在Mac操作系统上进行的)

代码语言:javascript
复制
brew install tesseract

第二步:安装pytesseract

代码语言:javascript
复制
pip install pytesseract

第三步:安装语言包

打开https://github.com/tesseract-ocr/tessdata,下载需要的语言包,需要中文简体就下载`chi_sim.traineddata`,然后将下载好的语言包放到`/usr/local/Cellar/tesseract/4.1.1/share/tessdata`(版本号以实际安装为准,这里我安装的版本是4.1.1)

开发

在pycharm上新建一个py文件,输入示例代码:

代码语言:javascript
复制
import pytesseract as ts
import re
img_fn = '/Users/yuyunlong/Pictures/博客/文字.png'
lang = 'chi_sim'
text = ts.image_to_string(img_fn,lang)
print(text)

#正则表达式提取需要的信息
print(re.findall(r"姓 名 (.*)", text))
print(re.findall(r"公 众 号 (.*)", text))
print(re.findall(r"检 测 结 果 (.*)", text))

贴一下我用的图片

最后再看一下运行的结果:

操作很是简单,看到这,我不禁感慨,还有多少重复性的工作可以自动化处理呢

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 卷福同学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 准备工作
  • 安装包
  • 开发
相关产品与服务
内容识别
内容识别(Content Recognition,CR)是腾讯云数据万象推出的对图片内容进行识别、理解的服务,集成腾讯云 AI 的多种强大功能,对存储在腾讯云对象存储 COS 的数据提供图片标签、图片修复、二维码识别、语音识别、质量评估等增值服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档