如何识别图上的字_有没有把图上的字识别_可以把图上的字识别成文字的软件 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

设备仪器仪表盘读数识别系统

设备仪器仪表盘读数识别系统基于YoLov5网络模型分析技术，设备仪器仪表盘读数识别系统自动识别指针型仪表读数。设备仪器仪表盘读数识别系统Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测，核心思想就是利用整张图作为网络的输入，直接在输出层回归 bounding box（边界框）的位置及其所属的类别。YOLO系列算法是一类典型的one-stage目标检测算法，其利用anchor box将分类与目标定位的回归问题结合起来，从而做到了高效、灵活和泛化性能好。在介绍Yolo算法之前，我们回忆下RCNN模型，RCNN模型提出了候选区(Region Proposals)的方法，先从图片中搜索出一些可能存在对象的候选区（Selective Search），大概2000个左右，然后对每个候选区进行对象识别，但处理速度较慢。

00

我们教电脑识别视频字幕

本文介绍了一种基于深度学习的视频字幕识别和生成方法，包括字符级和单词级两个模块，以及针对视频字幕中字符和单词的识别和生成任务。首先，通过深度学习模型对视频中的字幕进行定位和提取，然后使用字符级和单词级两个模块分别进行字符和单词的识别和生成。实验结果表明，该方法能够有效地识别和生成视频字幕，对于艺术字体、手写字体等难以切分的情况，以及对于视频中的噪声干扰，都具有较高的鲁棒性。

04

您找到你想要的搜索结果了吗？

是的

没有找到

Facebook的新AI「Rosetta」会识别表情包，还会删帖丨论文

不过，表情包上的那些网络金句都是.jpg或者.gif的图片格式，无法被搜索、无法被计算机监测，字太小不清晰的时候还会让视力不好的同学看不清楚。

02

一个真实的社会工程学攻击

不同于以往通过心理诱骗暗示或欺诈手段社会工程学举例，本次为大家介绍一种特殊的结合刑侦推理及利用技术手段实现的社会工程学实例，可以把它归类为特殊层面的信息收集手段——通过照片确定发拍照人所在的位置，这种社工手段严格来说也算定位技术。

02

CS224W 10.1-Deep Generative Models for Graphs

【油管英字】CS224w 斯坦福图网络机器学习2019_哔哩哔哩 (゜-゜)つロ干杯~-bilibili

03

只要两步，用Python将地址标记在地图上！

首先我们需要将地理位置转成经纬度这种统一格式，方便代码去识别。完成这一个需求可以使用爬虫通过在线的经纬度转换网站来实现，也可以使用一些专业的API比如百度、高德等，这里我们使用百度地图开放平台。

02

破解梵蒂冈秘密档案，这个AI认识中世纪手写拉丁文

这听起来就有点难度了。有一个叫 In Codice Ratio 的项目正在尝试把梵蒂冈秘密档案转录为可供查询的电子版。

03

化繁为简，这波全局拓扑图相当可！

拓扑图用来描述平台各服务之间的依赖关系，也可以理解为平台服务的整体结构。拓扑图上的每个节点表示服务组件或服务的依赖项，且节点上标注有服务的运行状态和请求信息，点击后可获取详细的观测图表。

04

调用百度ai接口实现图片文字识别详解「建议收藏」

首先先介绍一下这篇博文是干嘛的，为了不浪费大家时间。公司最近和短视频公司合作，需要监控app的截图上的文字是否符合规范，也就是确保其没有违规的文字。到网上找了一些资料发现百度ai提供这个功能，这篇文章主要就是介绍怎么获取到图片上的文字。接下来进入正题，look down,man：

02

Adobe秀出十大PS新神技，个个惊艳炸裂！

剪辑师经常遇到一个问题：把视频剪成不同的长宽比，比如把横向的视频剪成纵向，通常很灾难。

02

软件方法（下）第8章分析之分析类图—知识篇Part11-类之间的关系

首先要说明：虽然本书先讲解“识别类和属性”，再讲解“识别类之间的关系”，但在实际工作中，先“识别类和属性”再“识别类之间的关系”这个思考顺序只是一个微小的思考周期内的顺序。建模一张类图，需要很多个思考周期。也就是说，识别类和属性→识别类之间的关系→识别类和属性→识别类之间的关系→……是交错进行的。

01

Python实践：seaborn的散点图矩阵（Pairs Plots）可视化数据

如何快速创建强大的可视化探索性数据分析，这对于现在的商业社会来说，变得至关重要。今天我们就来，谈一谈如何使用python来进行数据的可视化！

02

“冬奥智慧气象APP”的成果展示之一

连续分享了两期“冬奥智慧气象APP”这款用于重大体育赛事期间决策气象服务产品的设计与实现，今天继续分享一点研发成果给大家，希望能给有需求的同行们一点参考。

02

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

02

学界 | 港中文AAAI录用论文详解：ST-GCN时空图卷积网络模型

AI 科技评论按：第 32 届 AAAI 大会（AAAI 2018）日前在美国新奥尔良进行，于当地时间 2 月 2 日至 7 日为人工智能研究者们带来一场精彩的学术盛宴。AAAI 2018 今年共收到论文投稿 3808 篇，接收论文 938 篇，接收率约为 24.6 %。

07

第二期回顾｜视图场景的存储优化之路

【初识明瞳视图上云】直播第二期【视图场景的存储优化之路】已经圆满结束啦。本次分享属于【初识明瞳视图上云】直播第2期，【视图场景的存储优化之路】邀请到了腾讯云存储高级产品经理王致铭，为大家介绍明瞳智控这款产品。明瞳智控ISS是腾讯云推出的一款面向视图数据提供的云存储及 AI 多模态分析一体化产品。依托腾讯云遍布全球的边缘节点，同时基于腾讯云领先的 AI 分析能力，可实现视图数据快速上云，视图数据云存储、视图数据安全、AI 智能分析等多种服务。整个内容分五个部分：一、产品背景二、功能框架三、覆盖场

02

如何优雅的制作那些好看的地图

「字不如表，表不如图」想必大家都有过这样的经历，制作 PPT 、Excel 或者写文章时，遇到关于地理位置方面的内容需要描述，想配一张像文章开头那样的酷炫地图，可是吧，要么找不到合适的地图、找到了地图，可能地图本身不够高大上，终于地图问题解决了，又不知如何把自己的数据内容，添加上去，用专业的 GIS 软件吧，自己一时半会好像又玩不转；曲线救国，用 PhotoShop 吧，操作繁杂费劲~~~

04

清晰大图，“冬奥智慧气象APP”成果展示之一

连续分享了两期“冬奥智慧气象APP”这款用于重大体育赛事期间决策气象服务产品的设计与实现，今天继续分享一点研发成果给大家，希望能给有需求的同行们一点参考。

02

人工智能的8个有用的日常例子

8-Helpful-Everyday-Examples-of-Artificial-Intelligence-1068x656-1.jpg

00

基于Python的自动批改作业系统

既然思路能走得通，那么咱们先搞图像识别。准备数据->训练数据并保存模型->使用训练模型预测结果。

01

训练文本识别器，你可能需要这些数据集

我们知道，监督式深度学习非常依赖于带标签的数据集，通常数据集越大，训练出的模型效果越好，对于文本检测和识别也是如此，为了训练出好的模型，我们需要大型数据集。然而，为了收集真实世界的带标签的图片数据集非常难，为图片做标注非常耗时，代价昂贵，个人和小型企业无法承担。得益于互联网的开放性，我们可以得到许多大的公司和研究机构标注好的数据集，下面就简单汇总一下在文本检测和识别领域有哪些开放数据集。

03

深度学习2017成果展

来源：Statsbot 编译：Bing 编者按：圣诞节前夕，数据公司Statsbot对过去一年（也许更久）深度学习领域的成果做了总结，全文共分为6部分，分别是文本、语音、计算机视觉、GAN、强化学习、新闻、投资。以下是论智对原文的编译，让我们看看深度学习2017年的成绩如何。 📷 文本 1.1 谷歌神经机器翻译去年9月，谷歌发布了新一代机器翻译模型，并详细介绍了该网络的架构——循环神经网络（RNN）。最终，该模型在翻译的准确度上与人类缩小了55%~85%的差距（由人类打分，满分为6）。如果没有谷歌庞大的

05

地图比例尺精度：再复习解惑下初中地理精度

地图比例尺是地图上的线段长度与实地相应线段经水平投影的长度之比。它表示地图图形的缩小程度，又称缩尺。

01

干货！全网最全一套目标检测、卷积神经网络和OpenCV学习资料（教程/PPT/代码）

计算机视觉的内涵丰富，需要完成的任务众多，关键任务包括：图像增强、图像分类、图像检测与定位、图像分布、目标识别。

02

第三期回顾｜云存储的未来趋势

本周三举行的【初识明瞳视图上云】直播第3期分享，【视图上云技术方案大放送】已经圆满结束了。本次分享属于【初识明瞳视图上云】直播第3期，【视图上云技术方案大放送】邀请到了腾讯云存储高级产品经理“张泽南”，分别从产品介绍、上云技术方案、配置指导和覆盖场景四个方面，来阐述智能视图存储及AI多模态分析一体化解决方案，以及明瞳智控的其它相关知识分享。整个内容分四个部分： 1、产品介绍 2、上云技术方案 3、配置指导 4、覆盖场景产品介绍面向安防视图数据（视频/图片）所提供的边缘接入、数据

03

LLM很酷，KG也很酷

正如gpt等大规模语言模型（Large Language Model，LLM）在表征抽象、深层语义上的优势一样，知识图谱（Knowledge Graph，KG）也能够以一种符号化的方式组织结构化存在的具象概念。同时，知识图谱也可以通过图表示学习、图算法获得图上实体、关系的向量化表示，进而基于向量实现推理计算。

02

叶聪：朋友圈背后的计算机视觉技术与应用

AI要走进千家万户，融入整个社会，而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化，使它成为与产业相关的部分。

04

【极客说直播第三期回顾】AI技术专家教你从零到一学习计算机视觉技术

本文整理自腾讯云AI和大数据中心AI技术专家-叶聪于11月27日在极客说上的精彩分享。

07

机器学习-体会分享，一看就会，术之尽头（一）

解决一个场景没吃过猪肉总见过猪跑，现在的语言识别，图片识别，自动驾驶已经不是天方夜谭，就是实实在在身边的事情了这些东西虽然可见，对于我们去了解其中的本质还是有些许距离的怎么才能贴近我们最简单的场

04

插图版：领域驱动的微服务架构设计工作坊实施步骤目的步骤

本文参考了我的同事肖然、王威和刘尚奇于2017年7月22日在ThoughtWorks北京办公室所讲授的“领域驱动的微服务架构设计——实战工作坊”的课程内容，同时参考了我的同事亢江妹在业务分析工作中所使用的“拆分API故事”的实践方法，在此表示感谢。

02

基于AI和机器学习的智能位置数据正使智慧城市和物联网导航成为现实

人工智能和机器学习正逐步使智慧城市和基于数据的物联网导航成为现实。通过Microsoft Azure Maps的产品经理，去了解先进的定位技术将如何彻底改变从自动驾驶汽车到城市的一切。

04

最新推荐系统论文速递

检索到了两篇关于推荐系统的论文，一篇是关于在知识图上改进负采样策略的，另一篇是在图上进行对抗学习的综述。

02

bioRxiv | 生物学见解知识图谱(BIKG）助力药物开发

大家好！本文给大家介绍来自阿斯利康的AI工程总监Eliseo Papa带领的研究团队发表在bioRxiv的一篇文章“Biological Insights Knowledge Graph: an integrated knowledge graph to support drug development”。文中提出了一个新的知识图谱——Biological Insights Knowledge Graph (BIKG)，它充分结合了来自公开数据源和阿斯利康企业内部数据源的相关数据，能够为一系列任务（从新靶点的识别，到现有药物的再利用）提供洞察力。本文描述了实现BIKG图的主要设计选择，并讨论了其从图的构建到开发的生命周期的各个方面。

05

点击状态栏回到顶部

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/51330401

01

语言处理AI被谷歌地图训练：年删帖过亿条，训练样本海量

---- 新智元报道编辑：袁榭拉燕【新智元导读】从自动识别街牌、到自动删除诈骗信息，谷歌地图这个项目现在越发依赖于机器学习的工具。遏制不良网络动态的未来，掌握在机器学习的手中。在搜索业巨擘谷歌的手中，机器学习工具在2021年通过监管谷歌地图上的违规行为，得到了真正的锻炼。谷歌地图团队表示：「我们的团队致力于让真人用户在地图上发布的内容尽量可靠，并基于现实世界的亲身体验。这项工作有助于保护企业免受欺凌和诈骗，并确保评论对用户有帮助。这个内容政策旨在防止我们的平台上出现误导性、虚假性和辱

02

yolov5小目标检测-提高检测小目标的检测精度

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示：

01

【指南】非技术人员的机器学习指南：如何轻松地进入机器学习

世界末日首先，我们听说机器人正在做蓝领工作。然后，我们发现白领工作也不安全。在我们恐慌我们将要失业，我们发现这些机器人正在背后议论我们。可能是关于我们这些懒惰的失业人员的流言蜚语。机器学习在

06

NLP中关键字提取方法总结和概述

关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。在本文中，我总结了最常用的自动提取关键字的方法。

02

水平投影法检测&分割多行文本图像

做OCR时遇到的一个重要的问题在于检测文本时容易把一段多行文本给检测成单行，这会导致在后期识别部分的准确率降低，毕竟把多行文字当成一行文字去识别，肯定无法得到准确地结果。因此在送入识别之前，需要对检测出的文本框内容进行多行文本检测与分割。也就是：

01

【小程序】728- 小程序如何生成海报分享朋友圈

https://segmentfault.com/a/1190000019083548

02

神经网络轴承故障诊断_一维卷积神经网络详解

采用美国凯斯西储大学(CWRU) 的开放轴承数据库的样本进行实验分析，轴承故障产生的实验台如下图所示。使用电火花加工技术分别在轴承的内圈、外圈和滚动体上引入单点缺陷，故障尺寸分别为 7、14和21 in，以48kHz采样频率采集不同负载下的故障轴承振动数据用于实验分析。

01

opencv小项目练习之数独求解

对于给定的数独照片（尽可能干净整齐），进行一系列处理，提取位置和数字信息，这中间可能要用到一系列图像处理的基本算法，数字识别时初步打算用knn来做，knn对手写体的精度一般，这里要求输入应该是打印体，这样才能保证正确率，最后通过数独求解的算法算出答案。

01

博士导师总结目标检测、卷积神经网络和OpenCV学习资料（教程/PPT/代码）

计算机视觉（Computer Vision, CV）作为人工智能（AI）的核心技术之一，在过去的二十年里发展迅猛，应用范围遍及工业、农业、军事、国防等多个领域。

03

【中国计算机大会2017】丘成桐，沈向洋，李飞飞精彩演讲内容荟萃

丘成桐演讲全文：工程上取得很大发展，但理论基础仍非常薄弱，人工智能需要一个可被证明的理论作为基础今天很荣幸地收到你们的邀请来做一个演讲。我本人在数学上的贡献不在计算机数学，最近这十多年来，由于我的学生顾险峰以及其他朋友的缘故，他们叫我帮忙做些跟计算机有关的学问。我发觉，纯数学，尤其是几何学在计算机方面有很大的应用。所以我今天就滥竽充数，讲讲几何跟计算机数学的关系。一、现代几何的历史首先，前面几分钟讲讲几何学历史。几何学一开始，就类似今天的人工智能，有很多工程上的应用以及产生的很多定理。不过随后欧

07

自然场景文本检测识别技术综述

0629封面.jpg 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么？白蛇: 白纸黑字的扫描文档识别技术已经很成熟，而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模

02

TED演讲 | 计算机是怎样快速看懂图片的：比R-CNN快1000倍的YOLO算法

大数据文摘作品，转载要求见文末主讲人 | Joseph Redmon 翻轴 | 海抒，Lisa，弋心校对 | 陈啸明后期 | DJ You only live once? 不，You only

02

如何看懂常用原理图符号、如何阅读原理图

原理图是我们设计，构建和排除电路故障的地图。了解如何阅读和遵循原理图是任何电子工程师的重要技能。

03

自然场景文本检测识别技术综述

白蛇: 白纸黑字的扫描文档识别技术已经很成熟，而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。

02

基于模板的文字识别结果结构化处理技术 | 公开课速记

随着行业的发展和技术的成熟，文字识别（OCR）目前已经应用到了多个行业中，比如物流行业快递包裹的分拣，金融行业的支票单据识别输入，交通领域中的车牌识别，以及日常生活中的卡证、票据识别等等。OCR（文字识别）技术是目前常用的一种AI能力。但一般OCR的识别结果是一种按行输出的半结构化输出。

06

Quick-Media 中文二维码支持

Quick-Media 项目提供了一些列多媒体操作的开箱即用工具类，比如图片编辑合成，markdown/html/svg渲染，音频处理；当然还有本文重点说明的二维码生成解析

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭