深度学习在腾讯云上有哪些应用?

  • 回答 (8)
  • 关注 (0)
  • 查看 (620)

腾讯云有哪些相关产品呢?我想使用深度学习做一些事情,但是对我这种小白来说可能有点难,有没有相关的应用场景参考下,有教程的话最好!

asiocasioc提问于
社会人就是请不要忘记微笑!回答于

我讲点简单的吧,腾讯云OCR产品的应用,在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了;收集了一些名片,却要一个一个地录入信息,很麻烦;快递公司的业务越来越好,但每天需要花费很多时间登记录入运单,效率非常的低。那么,有没有什么技术能帮助我们解决这些难题呢?有的,那就是OCR文字识别技术。今天我们分享一下腾讯云近年来在这一领域的探索情况。

什么是OCR?

OCR 是实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别,以及中英文、字母、数字的识别。简单来说,就是将图片上的文字内容,智能识别成为可编辑的文本,例如:

OCR的技术原理是什么?

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术:文本检测和文字识别。先将图像中的特征进行提取并检测目标区域,之后对目标区域的字符进行分割和分类。

以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。

首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。

OCR技术的难点是什么?

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式、检测框字符残缺,等等。

如何克服这些难点?

从几个方面入手。一是使用场景,另一方面是从技术上进行改进。腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

腾讯云OCR目前支持什么功能?

基于腾讯优图实验室世界领先的深度学习技术,目前我们已支持:身份证识别,银行卡识别,名片识别,营业执照识别,行驶证驾驶证识别,车牌号识别,通用印刷体识别,手写体识别。

通用印刷体的技术难点,使用场景

我们知道身份证识别可广泛应用在金融行业中,在身份认证中,可以减少用户的信息输入,提升效率,提高用户体验,营业执照的识别完全省去了手工录入的繁琐,还可以为企业省去大量的人力资源成本,这些场景大家都已经比较熟悉。

对于通用印刷体,腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎,可攻破模糊,散焦,透视,文字部分遮挡的问题,识别准确率高达90%以上,处于业界领先水平。使用场景广泛,例如对任意版面上图像的文字识别,可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子?

例如这个广告,内容多字体多,中英文与数字混合,背景也比较随意。咱们的OCR通过透视矫正、去模糊等,能大幅还原图像真实度,极大提升算法的精确性。

再例如识别文字密集、行间距小,透视畸变等的海报。人工识别需要不仅耗费时间,肉眼也比较难识别。但腾讯云OCR设计了小而精的特征提取网络,配合先进的预处理技术,识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况,如何可以提高识别准确率?

首先会确认下当前的场景,造成准确度不高的原因。评估可提高的空间设计,之后做出相应的修改,列入预处理等等。

关于腾讯云手写体识别这块有没有什么案例?

腾讯是国内首家将手写体识别应用在复杂场景下的服务商,数字识别准确率高达90%以上,单字识别速度在15ms以内,复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到运单识别场景,解决了物流行业每日快递单人工输入工作量极大且极易出错,非常低效等问题。

运单识别与传统人工识别有什么区别呢?

如果传统人工识别按照3min/单,1000单需要6.25个人/天,保证运单时效则需要耗费大量人力,考虑人力成本则影响运单及时性,成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单,并支持24小时识别服务 ,业务增长时只需要投入计算用服务器资源即可,弹性较大。

与传统识别相比,不仅成本可以降低,提高准确性,还可以保护用户的隐私泄露风险。

目前OCR应用现实中有很广泛的应用场景,腾讯云OCR有什么优势?

咱们的OCR文字识别技术,目前支持中文简繁体、英文、数字、标点共10000+标签,覆盖上百种字体,生僻字版本更支持2W+标签 。

那咱们在行业中也有不少落地客户了吧?

新版手Q就用到了咱们的技术,在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字,从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识别也用到了咱们OCR技术。用户只需拍照或选择名片图片,就能准确快速地识别出名片中的文字,并自动提取为对应的字段,极大简化了名片录入流程,也避免了手动录入过程可能出现的错误。

不管是复杂文字识别场景还是小程序应用,腾讯云OCR都可以解决!目前腾讯云AI服务全面免费接入,为企业,开发者提供成熟可靠、性价比高的产品:

回答过的其他问题

2018有哪些值得关注的技术趋势?

社会人就是请不要忘记微笑!
我是做通信的,我可以明确告诉你,在通信行业,2018最关键的技术就是5G技术。5G是新一代移动通信技术的简称,相比4G,它最突出的特点就是“快”,网络平均速率可达到10Gbps左右,是4G网络的100倍以上,一秒钟就能下载一部高清电影。 在我国,5G技术发展飞快,5G研发试验第三...... 展开详请

数据可视化在生活的哪里可以应用?

社会人就是请不要忘记微笑!
许多行业都可以利用大数据可视化,把复杂数据采取多种静态和动态方式直观呈现出来。下面介绍几种大数据可视化在各行业中应用: 政府—实现科学决策和高效治理 数据可视化的应用使得政府能够借助数据,制定及时、高效、准确的治理手段和决策管理,进行多方位布局和监管。不仅如此,数据可视化还可...... 展开详请

从技术上看待长截屏,如何实现这一功能?

社会人就是请不要忘记微笑!
1、通过遍历Activity主窗口的View树,来找到可以滚动的ViewGroup,并存储它的四个布局参数。 2、再次遍历Activity的所有窗口的View树,然后对比布局参数找到位于滚动ViewGroup之上的View,并设置它们为INVISIBLE。 3、检查该应用的Ser...... 展开详请

腾讯云AI有哪些应用?

社会人就是请不要忘记微笑!
腾讯云AI的应用主要有: 腾讯人工智能业务应用 第一是微信。语音输入是腾讯在微信AI的大胆尝试。通过在输入框输入语音,语音就可以转化为文字。看似是一个非常简单的AI应用,背后却隐藏着复杂的语音识别算法。其次是在QQ音乐里的尝试。当我们听到一首歌但却不知道歌的作曲和演唱者的时候,就...... 展开详请

输入pm2 logs 之后如何继续输入终端命令?

社会人就是请不要忘记微笑!

我需要在自建MySQL上制作一个MySQL作为CDB的一个从机,可以么?怎么做?

社会人就是请不要忘记微笑!
首先告诉你,方案可行,难度也不算大,大致如下: 1、请确保从机的MySQL版本和主CDB一致。 2、按照从机MySQL,在主实例上授权,确保网络通畅。 3、在控制台下载备份文件并导入到自建MySQL中。(请注意物理备份和逻辑备份的导入方法) 4、提交工单询问相对应备份文件对应的主...... 展开详请

关于作者

所属标签

扫码关注云+社区

领取腾讯云代金券