前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ChatOCR:文心一言/千帆API实现关键信息提取

ChatOCR:文心一言/千帆API实现关键信息提取

作者头像
机器学习AI算法工程
发布2023-11-24 15:23:19
7640
发布2023-11-24 15:23:19
举报

向AI转型的程序员都关注了这个号👇👇👇

  • 文心一言+OCR是一种新颖的程序开发方法,它结合了深度学习与OCR技术,能够自动化提取图像中的文本信息。这一技术的崛起已经改变了信息提取的方式,因为它能够帮助人们更多地关注信息理解和分析,从而自动完成许多繁琐的任务,如文本扫描和识别。
  • 在传统的文本信息处理过程中,人们通常需要投入大量的时间和精力来进行文本扫描、识别和整理等工作。在这个过程中,借助文心一言+OCR等智能化工具进行辅助,能够极大地提高工作效率和信息准确性。
  • 如果您正在着手开展项目,使用文心一言+OCR技术可以帮助您更高效地实现项目目标。它可以自动化文本信息提取,减少处理时间和成本,同时提高信息准确性和可用性。此外,文心一言+OCR还可以在信息处理过程中提供更多可能性,帮助人们更好地理解和分析信息的含义。因此,使用文心一言+OCR技术将成为您项目中不可或缺的重要支持力量。

案例一:股东持股

现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用符号包围,包含所识别出来的文字,顺序在原始图片中从左至右、从上至下。我指定的关键信息使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、对应错位等问题,你需要结合上下文语义进行综合判断,以抽取准确的关键信息。输出为json格式。

文心一言SDK

环境要求与配置

!pip install erniebot==0.3.1

调用文心一言大模型功能是收费服务,所以使用EB SDK需要认证鉴权。

EB SDK认证鉴权主要是设置后端和access token,分别通过api_typeaccess_token参数来指定。

此处,我们使用aistudio后端。在AI Studio个人中心的访问令牌页面,大家可以获取aistudio后端的access token,然后填入下面代码中(替换{YOUR-ACCESS-TOKEN})。

请注意:

  • 不同后端的access token获取方式不同,特定后端获取的access token无法用于其他后端的认证鉴权。
  • access token是私密信息,切记不要对外公开。
  • aistudio后端的access token对应大家的个人账户,目前每个账户有100万token的免费额度,可以用于EB SDK调用文心一言大模型。

ERNIE Bot SDK是文心&飞桨官方提供的Python软件开发工具包,简称EB SDK。

  • EB SDK提供便捷易用的Python接口,可调用文心一言大模型能力,完成包含文本创作、通用对话、语义向量、AI作图在内的多项任务。
  • EB SDK代码在GitHub上开源,欢迎大家进入repo查看源码和使用文档,如果遇到问题也可以提出issue。

https://aistudio.baidu.com/projectdetail/6779542

文心千帆API

环境要求与配置

使用AIStudio实现,通过文心一言API接口调用文心一言大语言模型,并使用适当的Prompt来辅进行开发。

本项目由于要调用文心一言API接口,所以要申请文心一言的API key与secret key。

下面这些代码通过百度AI平台的接口,使用文心一言(ERNIE Bot)语言模型进行文本处理。在导入所需库后它首先获取访问令牌(access_token),然后定义待处理的文本内容和主函数main(),随后使用requests库发送POST请求,最后提取相应结果并进行打印输出。整个过程使用了requests库和json库来处理HTTP请求和JSON数据。我们首先定义如下函数,在之后的prompt案例中,我们只需要更换内容,再调用以下函数即可。

PP-OCR技术在很多领域都有广泛的应用,如自动化录入、数据统计、档案管理等。它可以将纸质文档快速准确地转化为数字化信息,大大提高了工作效率和便利性。然而,需要注意的是,PP-OCR技术还存在着一些挑战,例如对于手写字体、复杂排版或图像质量的识别准确性可能有所限制。

  • 在本项目中,我们需要用PP-OCR这个模型与文心大模型相结合,用两种文心大模型调用方式完成我们的最终任务。

环境搭建

!pip install paddleocr -i https://mirror.baidu.com/pypi/simple

PP-OCR提取

由于直接使用OCR输出结果进行文本分析和抽取效果不佳,并且存在大量无关内容,影响大模型的处理速度,因此我们将识别出的内容进行整理,以便后续使用。我们注意到,OCR输出的结果被存储在变量ocr_result1中,这是我们进行内容整理的基础。

2.2截至报告期末的普通股股东总数,前十名普通股股东、前十名无限售条件的普通 股股东的持股情况 单位:股 股东总数(户) 75,103 前十名股东持股情况 持有有限售条 质押或冻结情况 股东名称 期末持股数量 比例 件股份数量 股东性质 股份状态 数量 成都交子金融控股集团 有限公司 652,418.000|18.0613% 652,418,000 国有法人 Hong Leong Bank Berhad 650,000,000|17.9943% 650,000,000 境外法人 渤海产业投资基金管理 240,000,000 6.6441% 240,000,000 境内非国有法人 有限公司 成都工投资产经营有限 公司 180,600,242 4.9997% 0 国有法人 北京能源集团有限责任 公司 160,000,000 4.4294% 160,000,000 国有法人 成都欣天颐投资有限责 任公司 124,194,000 3.4381% 0 国有法人 上海东昌投资发展有限 公司 120,000,000 3.3220% 0 冻结 50.000.000境内非国有法人 新华文轩出版传媒股份 有限公司 80,000,000 2.2147% 国有法人 四川新华发行集团有限 公司 71,243,800 1.9723% 0 国有法人 成都市协成资产管理有 限责任公司 71,154,900 1.9698% 0 国有法人

使用AI Studio提供的文心一言SDK实现

使用文心一言初步对提取数据进行了处理。

请你帮我分析前十名普通股东持股情况中,持股比例最多的是哪个?

使用文心千帆调用文心一言API实现

案例二:英文说明书

现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用符号包围,包含所识别出来的文字,顺序在原始图片中从左至右、从上至下。我指定的关键信息使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、对应错位等问题,你需要结合上下文语义进行综合判断,以抽取准确的关键信息。输出为json中文格式。

PP-OCR提取

由于直接使用OCR输出结果进行文本分析和抽取效果不佳,并且存在大量无关内容,影响大模型的处理速度,因此我们将识别出的内容进行整理,以便后续使用。我们注意到,OCR输出的结果被存储在变量ocr_result2中,这是我们进行内容整理的基础。

READ AND SAVE THE INSTrUCTION IMPORTANT SAFETY NOTES Thisproductshouldonlybeusedinaccordancewiththespecificationsoutlinedinthismanual. Usageother thanwhathasbeenspecifiedheremayresultinseriousinjury.Whileusingelectronic appliances,basicprecautionsshouldalwaysbefollowedtoreducetheriskoffire,electricshock and bodyinjuryincluding thefollowing: BeforeUse Thls appllancehasapolarlzedplug(oneblade Iswlderthan theother).To Please do not use the devlce when you use bug spray. reduce the rlsk electrlc shock, thls plug Is Intended to fit In a polarlzed To avold any electrlc shock,flre dlsaster or any other damages, outlet only one way,ifthe plug does not ft fully In outlet,reverse the plug. If It stll does not fit, contact a qualfed electrlclan. temperature, wet places, such as bathroom, etc. ●WARNING: To Reduce The Risk Of Fire or Electrlc Shock, Do Not Use Thls Fan With Any Solld-State Speed Control Devlce ●To avold fre or shock hazard, plug the appllance dlrectly lnto a 120V AC NoticeofCleani

使用AI Studio提供的文心一言SDK实现

代码语言:javascript
复制
根据提供的OCR文字识别结果,以下是我提取的关键信息:

```json
{
  "重要安全说明": [
    "仅按本手册中的说明使用该产品,否则可能导致严重伤害。",
    "使用电子设备时,应始终遵循基本预防措施以减少火灾、电击和人身伤害的风险,包括以下内容:",
    "使用前:请勿在浴室等潮湿位置使用该设备。",
    "警告:为减少火灾或电击的风险,请勿将本风扇与任何固态速度控制装置一起使用。",
    "清洁说明:请勿使用腐蚀性化学品清洁电源插头或电源线,以免造成损坏、电击或火灾。",
    "存储说明:请将设备存放在干燥的地方,并远离易燃和可燃物品。",
    "使用提示:请勿将设备放在热源(如炉子或任何有可燃气体泄漏的地方)附近。",
    "使用限制:如果电源线或任何机器部件损坏,必须由制造商、其服务代理或合格人员更换,以避免危险。",
    "限制使用:本产品所提供的线缆含有化学品,如果设备在运行时产生特殊气味,请勿在有自由基、铅或镉化合物的地方使用。",
    "加州法规提案65:在使用后,请立即洗手。"
  ]
}```


使用文心千帆调用文心一言API实现
{"id":"as-kadxxnsg46","object":"chat.completion","created":1697467921,"result":"根据您提供的OCR文字识别结果,以下是抽取的关键信息:\n\n```json\n{\n\"问题\": \"产品是否可以放到潮湿的地方?\",\n\"回答\": \"不可以。产品应仅按照本手册中说明的规格使用。除指定使用外,使用可能导致严重伤害。在潮湿的地方使用可能会导致火灾、电击和身体伤害的风险。\"\n}\n```","is_truncated":false,"need_clear_history":false,"usage":{"prompt_tokens":912,"completion_tokens":103,"total_tokens":1015}}=======================================
可以看到,使用文心千帆调用文心一言API,也对我们的问题作出了回答,完成了我们的基本任务。
对于数据转换的问题,我们采用了PP-OCR技术,它是一种光学字符识别(OCR)技术,可以从图片中提取文本信息。通过使用PP-OCR,我们可以快速、准确地从图像中获取数据,避免了手动输入的麻烦和错误。然后,我们将获取的数据进行排序,找出最大值和最小值,并以JSON格式输出。这种方法大大提高了数据处理和输出的效率。针对产品说明书的问题,我们利用文心一言技术,这是一款人工智能语言模型,能够理解和解释人类语言。通过文心一言,我们可以将英文说明书自动翻译成中文,并针对用户的问题提供具体的解答和操作建议。这样,用户无需阅读整篇说明书,只需询问他们关心的特定问题,文心一言就能为他们提供详细的解答。这个项目的意义在于提高工作效率和改善生活质量。通过PP-OCR和文心一言的应用,我们可以快速处理大量数据,准确找出关键信息。同时,也能解决由于语言障碍导致的产品使用问题,提高用户的产品体验。此外,这个项目也展示了人工智能技术在解决日常生活和工作中的问题的潜力,引领了科技在未来的发展方向。机器学习算法AI大数据技术 搜索公众号添加: datanlp长按图片,识别二维码

阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
《深度学习:基于Keras的Python实践》PDF和代码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源深度学习、机器学习、数据分析、python 搜索公众号添加: datayx  
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文心一言SDK
  • 环境要求与配置
  • 文心千帆API
    • 环境要求与配置
      • PP-OCR提取
        • 使用AI Studio提供的文心一言SDK实现
          • 使用文心千帆调用文心一言API实现
          • 案例二:英文说明书
            • PP-OCR提取
              • 使用AI Studio提供的文心一言SDK实现
              相关产品与服务
              文字识别
              文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档