通用文字识别信息技术白皮书-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

通用文字识别信息技术白皮书

OCR技术的发展与应用管理

专栏成员

73

文章

43460

阅读量

19

订阅数

【论文解读】模型即服务-介绍MaaS中所涉及的关键技术

大数据论文人工智能

由于预训练模型中参数和数据的数量超过一定水平，基础模型（如大型语言模型）可以显著提高下游任务性能，并出现一些新颖的特殊能力（如深度学习、复杂推理和人类对齐）。基础模型是生成式人工智能（GenAI）的一种形式，而模型即服务（MaaS）已经成为一个开创性的范式，彻底改变了GenAI模型的部署和利用。MaaS代表了我们如何使用人工智能技术的范式转变，并为开发人员和用户提供了一个可扩展和可访问的解决方案，以利用预先训练过的人工智能模型，而不需要广泛的基础设施或模型训练方面的专业知识。本文对MaaS在各个行业的意义及其意义进行了全面的概述。论文简要回顾了基于云计算的“x即服务”的开发历史，并介绍了MaaS中所涉及的关键技术。GenAI模型的发展将变得更加民主化和繁荣。论文还回顾了MaaS的应用研究。最后，作者强调了这一前景领域的几个挑战和未来问题。MaaS是针对不同的基于人工智能的模型的一种新的部署和服务范式。论文希望本综述能对MaaS领域的研究提供启示。

合合技术团队

2023-12-28

5760

【论文解读】System 2 Attention提高大语言模型客观性和事实性

人工智能科技自然语言处理 LLM

本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型（LLM）中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中，这将对下一token的生成产生不利影响。为了帮助纠正这些问题，论文引入了System 2 Attention（S2A），它利用LLM的能力，用自然语言进行推理，并遵循指示，以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分，然后再处理重新生成的上下文以引出最终响应。在实验中，S2A在包含意见或不相关信息的三个任务：QA、数学单词问题和长形生成上优于标准的基于注意力的LLM，其中S2A增加了事实性和客观性，减少了虚假性。

合合技术团队

2023-12-13

2150

文档理解的新时代：LayOutLM模型的全方位解读

人工智能 nlp LLM

在现代文档处理和信息提取领域，机器学习模型的作用日益凸显。特别是在自然语言处理（NLP）技术快速发展的背景下，如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息，还包括布局、图像等非文本元素，这些元素在传递信息时起着至关重要的作用。传统的NLP模型通常忽略了这些视觉元素，但LayOutLM模型的出现改变了这一局面。

合合技术团队

2023-11-29

3980

【论文解读】在上下文中学习创建任务向量

人工智能 LLM

大型语言模型（LLMs）中的上下文学习（ICL）已经成为一种强大的新的学习范式。然而，其潜在的机制仍未被很好地了解。特别是，将其映射到“标准”机器学习框架是具有挑战性的，在该框架中，人们使用训练集S在某些假设类中找到最佳拟合函数f (x)。在这里，论文通过展示ICL学习到的函数通常有一个非常简单的结构：它们对应于transformerLLM，它的唯一输入是查询x和从训练集计算出的单个“任务向量”。因此，ICL可以看作是将S压缩为一个单个的任务向量θ(S)，然后使用这个任务向量来调制transformer以产生输出。论文通过对一系列模型和任务的全面实验来支持上述主张。

合合技术团队

2023-11-23

1840

【论文解读】针对生成任务的多模态图学习

深度学习人工智能

多模态学习结合了多种数据模式，拓宽了模型可以利用的数据的类型和复杂性：例如，从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对，如图像-标题对，或音频文本对。然而，在大多数现实世界中，不同模式的实体以更复杂和多方面的方式相互作用，超越了一对一的映射。论文建议将这些复杂的关系表示为图，允许论文捕获任意数量模式的数据，并使用模式之间的复杂关系，这些关系可以在不同样本之间灵活变化。为了实现这一目标，论文提出了多模态图学习（MMGL），这是一个通用而又系统的、系统的框架，用于从多个具有关系结构的多模态邻域中捕获信息。特别是，论文关注用于生成任务的MMGL，建立在预先训练的语言模型（LMs）的基础上，旨在通过多模态邻域上下文来增强它们的文本生成。

合合技术团队

2023-11-10

2480

发布一站式反电诈工具，合合信息商业大数据技术助力银行守护群众“钱袋子”

人工智能大数据

近期，电影《孤注一掷》在社交媒体上引起了广泛的讨论，社会各界对于电信网络诈骗案件的关注度日益提升。真实世界中的电诈涉及金额之大、团伙成员之多，往往比电影更甚。为此，国家不断加大对电信诈骗的打击力度，出台《反电信网络诈骗法》等法案，并开展了系列专项活动。据媒体报道，成都市公安局成华分局于近期破获一起特大跨国“DCEP”数字人民币电信网络诈骗案，抓获跨国诈骗犯罪嫌疑人60余人；最高人民检察院、公安部也在近期联合挂牌督办第三批5起特大跨境电信网络诈骗犯罪案件，从重打击境内外电信网络诈骗违法犯罪活动。

合合技术团队

2023-10-31

1550

【论文解读】RLAIF基于人工智能反馈的强化学习

人工智能论文

人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐，但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF) -一种由现成的LLM代替人类标记偏好的技术，论文发现它们能带来相似的改善。在总结任务中，人类评估者在70%的情况下更喜欢来自RLAIF和RLHF的生成，而不是基线监督微调模型。此外，当被要求对RLAIF和RLHF总结进行评分时，人们倾向于两者评分相等。这些结果表明，RLAIF可以产生人类水平的性能，为RLHF的可扩展性限制提供了一个潜在的解决方案。

合合技术团队

2023-10-27

5250

个头小却很能“打”！合合信息扫描全能王推出A4便携式打印机

文字识别人工智能图像识别

过去，为了打印一份清晰工整的材料，人们往往需要到专门的打印店或办公室。处理文件。对于销售、物流人员、工程师、医生、媒体记者等出差频率较高的职业而言，打印是一项“不太友好”的需求。为解决移动打印难题，近期，合合信息旗下扫描全能王（CamScanner）推出A4便携式热敏打印机（简称“CS打印机”）。在蓝牙功能的支持下可无线使用。

合合技术团队

2023-10-26

1540

手机端侧文字识别：挑战与解决方案

人工智能科技文字识别

其中，快速灰度化是首步，它使用像素加权法（如YUV转换）将彩色图像转化为黑白，目的是减少数据维度，加速后续处理。

合合技术团队

2023-10-20

2030

PRCV 2023：语言模型与视觉生态如何协同？合合信息瞄准“多模态”技术

近期，2023年中国模式识别与计算机视觉大会（PRCV）在厦门成功举行。大会由中国计算机学会（CCF）、中国自动化学会（CAA）、中国图象图形学学会（CSIG）和中国人工智能学会（CAAI）联合主办，多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办，是国内模式识别和计算机视觉领域的学术盛会。

合合技术团队

2023-10-17

3000

【论文解读】人工智能时代的科学发现

数据挖掘人工智能数据科学

人工智能（AI）正越来越多地融入到科学发现中，以增强和加速研究，帮助科学家产生假设、设计实验、收集和解释大型数据集，并获得仅使用传统的科学方法可能无法获得的见解。在这里，论文研究了过去十年的突破，包括自我监督学习，它允许模型在大量的未标注的数据上进行训练，以及几何深度学习，它利用关于科学数据结构的知识来提高模型的准确性和有效性。生成型人工智能方法可以通过分析不同的数据模式，包括图像和序列在内的各种数据模式来创建设计，如小分子药物和蛋白质。论文将讨论这些方法如何帮助科学家完成整个科学过程，以及尽管取得了这些进展，但仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进，而数据质量和管理不善所带来的挑战仍然存在。这些问题跨越了科学学科，需要开发基本的算法方法，有助于科学理解或自主获取它，使其成为人工智能创新的关键重点领域。

合合技术团队

2023-10-12

3150

合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ，为古文字打造“身份证”

文字识别人工智能

“乌蒙山连着山外山，月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗？奢香夫人是一位彝族“巾帼英雄”，这首同名歌曲早在2009年便已发布，如今突然“翻红”，不仅体现了大众对于少数民族文化高涨的兴趣，也见证着优秀的传统文化不息的生命力。

合合技术团队

2023-09-26

1370

文档信息抽取技术：从非结构化文本到结构化信息的旅程

文档信息抽取技术是一种将非结构化文本转化为结构化信息的技术。这种技术可以从各类文档中自动提取出如实体、关系和其他重要信息，并将它们转化为方便计算机进一步处理和分析的格式。

合合技术团队

2023-09-22

7180

CIIS 2023丨聚焦文档图像处理前沿领域，合合信息AI助力图像处理与内容安全保障

人工智能图像处理

近日，2023第十二届中国智能产业高峰论坛（CIIS 2023）在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办，南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域，汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享，吸引了线上线下超千万人次观会。

合合技术团队

2023-09-21

1910

合合信息财务自动化解决方案亮相腾讯全球数字生态大会，助力企业财务合规建设

人工智能自动化票据单据识别

近期，2023年腾讯全球数字生态大会在深圳举行，本次大会聚焦数字经济、产业互联网、AIGC、生态共赢等方面的热点话题，探讨了数字时代下企业如何构建可持续发展的生态系统。大会上，腾讯面向海内外合作伙伴分享了国际与出海相关业务的数字化解决方案，以及在电商、金融、泛娱乐等垂直行业的最佳实践分享。HAGO、店小秘、马帮、BeLive、Bank Neo Commerce、Zepeto、合合信息等多家科技企业代表参与活动分享。

合合技术团队

2023-09-19

1990

【论文解读】Faster sorting algorithm

人工智能排序排序算法

基本的算法，如排序或哈希，在任何一天都被使用数万亿次。随着对计算需求的增长，这些算法的性能变得至关重要。尽管在过去的2年中已经取得了显著的进展，但进一步改进这些现有的算法路线的有效性对人类科学家和计算方法都是一个挑战。在这里，论文展示了人工智能是如何通过发现迄今为止未知的算法路线来超越目前的最先进的方法。为了实现这一点，论文将一个更好的排序程序制定为单人游戏的任务。然后，论文训练了一个新的深度强化学习代理AlphaDev来玩这个游戏。AlphaDev从零开始发现了一些小型排序算法，它优于以前已知的人类基准测试。这些算法已经集成到LLVM标准C++排序库中。对排序库的这一部分的更改表示用使用强化学习自动发现的算法替换组件。论文还在额外的领域中提出了结果，展示了该方法的通用性。

合合技术团队

2023-09-14

1940

苹果再发“黑科技”，合合信息扫描全能王新功能支持“360度立体式建模”

苹果人工智能科技

9月13日凌晨，搭载iOS 17正式版系统的iPhone 15系列新品正式发布。基于iPhone激光雷达、iOS 17系统，合合信息旗下扫描全能王新推出“物体扫描”功能，用户只需使用手机环绕目标物体扫描，便可实时进行3D建模，完成一次“360度立体扫描”。该功能将于9月20日iOS 17系统更新后正式开放体验。

合合技术团队

2023-09-13

3070

新华社《中国扫描十年发展图鉴》：扫描全能王为3亿用户带去“掌心里的便利”

近日，新华社发布了《中国扫描十年发展图鉴》（简称《图鉴》），对扫描设备、技术、应用领域的发展历史进行了深入盘点。《图鉴》显示，扫描一度是价格接近万元的“奢侈品”。2013到2023年的十年间，扫描技术在中国普及率极大增强，实现了从“移动化”到“智能化”的飞跃性进阶，诞生于2010年的扫描全能王是智能扫描的代表性APP。

合合技术团队

2023-09-07

2470

【论文解读】基于图的自监督学习联合嵌入预测架构

人工智能论文

本文演示了一种学习高度语义的图像表示的方法，而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性方法。I-JEPA背后的idea很简单：从单个上下文块中，预测同一图像中不同目标块的表示。指导I-JEPA产生语义表示的核心设计选择是掩膜策略；具体来说，(a)预测图像中的几个目标块，(b)采样足够大规模的样本目标块（占图像的15%-20%），(c)使用足够丰富的（空间分布）上下文块，是至关重要的。根据经验，当与视觉transformer结合时，论文发现I-JEPA具有高度的可缩放性。例如，论文在ImageNet上使用32个A100 GPU在38小时内训练一个ViT-Huge/16，以在需要不同抽象级别的广泛任务中实现强大的下游性能，从线性分类到对象计数和深度预测。

合合技术团队

2023-08-25

2210

合合信息扫描全能王发布“黑科技”，让AI替人“思考”图像处理问题

科技人工智能图像处理

现阶段，手机扫描正越来越多地进入到人们的生活中。随着扫描应用场景的不断拓宽，诸多细节的问题逐渐显露，比如使用者在拍照扫描文档时，手指不小心“入镜”了，只能重拍；拍电脑屏幕时，画面上有一些彩色条纹，既不美观也影响内容识别；拍完照片后发现文档很杂乱，扫描时需要手动叠加好几种图片处理方案，才能获得理想的效果……这些“糟心事”，如今被一个滤镜轻松解决了。

合合技术团队

2023-08-16

3030

点击加载更多

社区活动

AI代码助手快速上手训练营

鹅厂大牛带你玩转AI智能结对编程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态