前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >让他们听见世界:用多模态预训练模型,铺设数字化“盲道”

让他们听见世界:用多模态预训练模型,铺设数字化“盲道”

作者头像
AI科技评论
发布2023-04-12 19:16:24
4090
发布2023-04-12 19:16:24
举报
文章被收录于专栏:AI科技评论AI科技评论

在普通人直观想象中,以视觉信息和触控交互为核心的智能手机与视障人群之间,必然有着巨大的鸿沟。

但现实并非如此,假如你真的接触过视障群体、去尝试过盲人按摩,你会发现他们同样依赖智能手机:从接听电话到发送消息,从拍照到导航,在手机厂商和软件公司的努力下,这些文字性的内容基本都能够顺利地被读出来,传递给视障用户。

真正的难点是文字之外的图像,手机本身的界面、各种APP中的图像内容很多都没有文字备注、更不具备视障功能。如果在微信跟别人聊天的时候不小心收到一张图,视障群体只能回到求助他人的老解决路线之上。

如果能让这些图像信息跟文字一样能够被直接“读”出来,那该多好。

1

未解决的“盲点”

据中国残疾人联合会最新数据统计,我国视觉障碍人群已超1800万,其中65岁及以上人群中约有1.5亿人存在不同程度的视觉障碍。这意味着,我国超1/10人口的日常生活深受视力问题困扰,尤其在数字互联时代的当下,更是面临“寸步难行”的困境。

随着全球人口老龄化形势的加剧,老年人口规模逐渐扩大,相关数据显示,“十四五”期间我国人口将进入中度老龄化阶段,2035年前后进入重度老龄化阶段。也就是说,越来越多的人将会面临视觉出现障碍的情况。

在视觉障碍人群越来越庞大的同时,科技创新也顺应发挥着强大的作用。不但出现了助视器、老人机等硬件设备,而且随着大数据处理、人工智能、深度学习等技术的日益成熟,智能手机上也出现了安卓系统TalkBack和iOS系统旁白功能等交互功能,这些功能着眼于视障人士的需求,将文字信息通过自然语言处理等技术转换成语音信息传递给视障人士,可以满足他们获取资讯、社交等大部分日常生活需求。

然而,目前手机上的这些交互技术方案并不完美,文字信息可以很轻易地实现语音播报,但对于图片信息却没有精准抓取处理的转换模型,再智能的手机交互工具面对图片等内容时也只能处于“失声”状态,这个技术“盲点”直接导致视障用户的世界没有图像。

2

科技不负期待

解决这一“盲点”的还是科技创新。

12月14日,一场以“致善•前行”为主题的OPPO未来科技大会在深圳举行,现场公布了多个前沿创新技术,而小布助手发布的“无障碍图像功能”格外引人瞩目,因为这个功能不仅是首个在智能手机落地的无障碍图像信息获取AI工具,还顺利攻克读屏“盲点”,让视障人群从此能够“看见”图像。

这套技术方案的实现并不“复杂”。据悉,这项功能的研发主要来源于小布团队对障碍人群的长期关注,在对视障群体进行深入调查后,小布团队综合运用目前的深度学习、大数据+大模型等AI技术,对图像信息进行识别与分析,形成从“视觉”到“听觉”的多模态交互方式,最终为视障人群在手机上搭建起一个无障碍图像信息获取AI工具,以语音的形式实现了精准传达图像信息的模型处理方案。

也就是说,在安卓手机打开TalkBack的前提下,若是遇到系统提示为图像信息时,视障用户只需通过语音唤醒小布助手,然后发出类似“这是什么图片?”的询问,小布助手就会调出无障碍图像工具,对当前图像进行解析,然后再以语音方式播报给用户。

这一过程的难点主要在于如何精准描述图片信息并防止核心信息的丢失,所以语音播报的内容会依据图像所包含的具体事物、状态等信息来综合描述,描述的方式不但要求简洁,还要做到精准。如自行车的图片,通过“无障碍图像功能”可以获得类似这样的语音反馈:马路上停了一排自行车,这句简单的语音信息不但向视障用户反馈了自行车这一物体,还描述了自行车的数量和所处的位置这些更细节的特性。如此一来,视障用户可以很快掌握图像的关键信息,并通过联系前后信息或者上下文内容,形成一个较为完整的信息表达,技术的努力终不负他们的期待。

(功能演示:智能识别、语音播报环境中物体)

在精准且“细节”的信息反馈背后,是小布助手的无障碍图像功能攻克的不少业界技术难点。特别是在大规模多模态预训练模型方面,针对“炼大模型”仍不足以解决通用人工智能(AGI)的常识问题,背后团队通过一系列实验和探索,得出“在开放获取(例如互联网上的公开数据)的图文数据集上,简单的双塔结构要优于单塔结构”的结论,从而采用了“基于视觉-语言弱相关的假设”的双塔结构作为多模态预训练模型基本架构。

与此同时,多模态技术还进一步与对比学习算法相结合,不但弥补了神经网络在表达能力上的损失,还通过与向量检索引擎的结合来极大提高图文检索效率。最终以灵活的网络结构、方便实际部署的特点,形成了当前业界最大的中文多模态通用预训练模型。

3

致善式创新的微光

打字、发消息、扫二维码付款、将喜欢的东西放进购物车,这是我们大多数人习以为常的移动互联网生活,有时甚至我们还会因为过于繁冗的信息而不堪其扰。然而就是这么简单到枯燥的日常动作,对于视障者、听障者、老人等特殊人群来说,他们需要从生理到心理花费无数的精力和成本才能完成一次操作。与我们生活在同一个数字化时代的他们,是一群无法被科技之光照到的人。

但是,就像东京的地铁站会为盲人出站设置鸟叫声,让他们能判断地铁的出口方向一样,为人所用的科技也在不断通过“无障碍化”来关注到这些少数群体。在政策方面,国家《残疾人保障法》已经将信息无障碍纳入法律条款,同时在今年10月颁布的《无障碍环境建设“十四五”实施方案》中,信息无障碍建设工作也被列为未来重点方向。

而在去年的OPPO未来科技大会上,OPPO首次提出“科技为人,以善天下”的理念。OPPO创始人兼首席执行官陈明永表示,科技创新如果没有自我约束机制,没有更高的理念做支撑,很可能成为一种负担。基于此,OPPO定调“致善式创新”的核心是以科技为手段,实现每一个人对美、想象力、人性的追求。

这也成了小布助手的科技创新信条,这种信条让小布助手得以长期关注到障碍人群的真实需求,并形成了一系列“有AI无障碍”的能力建设,最终为障碍人群带来了一个多模态、多终端的对话式智能助手。这个助手不但能让视障用户“看见”一个有图像的世界,还能通过语音转文字等功能,帮助听障用户“听”到语音,通过语音操控等、电视、空调等IoT设备,让肢体障碍用户轻松操控各类家电。尤为值得一提的是,在今年针对老年群推出的小布助手关怀版上,则支持“打开小布关怀版”语音指令,帮助老年人快速得到功能卡片、大字体大图标等适老化的手机操作体验,用AI点亮老年人的数字生活。

长久以来,人类社会都习惯于被动接受科技带来的改变,但科技的发展本应遵循人本智能(Human-Centered AI)的观念。正如去年欧盟在《以人为中心的人工智能系统》项目中所阐释的:AI系统通过理解我们、我们的社会和我们周围的世界来增强和赋予人类力量(Toward AI Systems that Augment and Empower Humans by Understanding Us, our Society and the World Around Us)。

更进一步来说,科技创新除了对技术的硬核突破,还需要考虑不同年龄、不同族群、不同阶层人群的真实需求,以“致善”的温暖方式让科技到达更多人的日常生活。在这个过程中,像视障人群这样的少数群体不应该被忽略,更不应该被放弃。

正因为如此,小布助手才大胆去攻克视障人群使用手机时的技术“盲点”,以突破性的无障碍图像功能让更多的视障人士“看见”图像,达成一个他们所期待的科技世界。未来,小布助手将持续以致善式创新的微光,照亮更多障碍群体,实现每一个人对美、想象力和人性的追求。

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档