前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >着眼用户需求,vivo 致力于用 AI 实现“1001 个便利”

着眼用户需求,vivo 致力于用 AI 实现“1001 个便利”

作者头像
AI科技大本营
发布2022-12-10 10:27:34
6700
发布2022-12-10 10:27:34
举报

当前信息技术已经进入人机物融合、万物智能互联的阶段,人工智能作为引领新一轮科技革命和产业变革的重要战略性技术,成为各行业数字化重构的神兵利器。与我们生活息息相关的诸如智能家居、智能汽车、智慧手机等等终端设备的“智”化发展都离不开 AI 技术的支撑。

在移动终端设备中,人们日益攀升的通信、娱乐、办公、出行等体验优化需求,驱动着智能手机的不断迭代。如今“一部手机走天下”的愿景已经逐渐照进现实,而 AI 凭借着巨大的发展潜力,以及对行业多边应用的推动力,将成为用户体验提升的关键技术,一个新的创新感知时代已经来临。

聚焦 AI 创想的无限可能,国内手机大厂 vivo 基于用户体验需求以及对智能终端行业敏锐的感知,向大众展示了软硬兼具的实力与美好蓝图。

深耕 AI,蓄力前行

自 2017 年起,vivo 便开始组建 AI 全球研究院,凭借着“希望帮助所有消费者享受科技带来的美好生活”的初心,不断攻克技术壁垒、扩充团队规模,下沉技术深度的同时,也在探索并布局应用的多维度发展。

vivo 高级副总裁施玉坚在 2022 vivo 开发者大会上表示,“我们坚持用户导向,从用户的视角出发,穿着用户的鞋子在企业里奔跑,坚持设计驱动,通过设计驱动完成用户导向的落地,并通过不设上限的持续研发投入,拓展消费电子行业人文与科技的边界。”

当 AI 重新定义世界,vivo 也在开拓边界。经过 5 年多的努力,今天的 vivo AI 全球研究院已经有超过 1000 名 AI 工程师,在算法、数据、算力方面建立了全面的技术能力,全方位赋能了 vivo 的核心业务,覆盖手机、互联网、营销等领域。

AI 打造 1001 个便利

基于“AI 打造优质体验”的技术驱动,vivo 希望依托 OriginOS 能力,以用户使用手机的多元化场景为载体,致力于为用户打造“1001 个便利”,让科技照亮美好未来。

截至目前,OriginOS AI 已经实现了 500 多个功能,涉及诸如娱乐时听歌识曲、AI 字幕翻译、屏幕朗读,生活中提醒充电、取快递,拍照时 AI 感知引擎让颜色识别更准确、清晰出片,工作时拍摄电脑屏幕消除摩尔纹,出行时自动弹出乘车码通知等等使用场景,为用户提供无处不在的惊喜。

vivo 不仅为普通用户提供便利,为特殊人群也打造了诸多便捷功能。例如,针对听障人士的日常沟通需求,vivo 整合了核心 AI 技术,联合中国听力医学发展基金会发布了“声声有息”公益计划,推出“无障碍通话”“vivo 听说”及“声音识别”等功能,为听障人士搭建沟通的桥梁,营造更友好的信息无障碍社会环境。

vivo 坚持以用户为导向,持续发力技术创新,用有温度的科技,让每个人都能享受科技进步带来的快乐,用科技去照亮美好未来。

  • AI 感知引擎:通过 AI 计算摄影技术让手机能够像专业摄影师一样理解世界,通过智能的白加黑减和白平衡算法,使得纯色场景能够做到精准还原。
  • 琥珀扫描:运用文档图像处理和 OCR 文字识别技术,让手机化身为便携扫描仪,办公学习更加高效。
  • 朗读屏幕:基于 vivo 自研的个性化语音合成系统,研发出的丰富多元的合成声音,解放双手双眼,为用户打造流畅舒适的阅读新体验。
  • 翻译机:支持二十多个主流语种的互译,跨语言沟通不再有障碍,让用户生活学习随心自由。
  • Jovi 输入法 Pro:自研拼音、语音、手写三大输入法 AI 内核,和 OS 深度结合,为用户提供安全、高效的输入体验
  • Jovi 语音助手:智能生活助理,用户通过可以通过与手机的语音指令交互,解放双手,一句话搞定各种复杂操作。
  • vivo 手语识别虚拟人:既能流利地通过手语进行表达,还能快速识别手语,帮助听障人士与他人顺畅沟通。
  • ……

强大技术原力,创造用户惊喜

便捷的服务、高效的体验往往需要强大的技术原力作为支撑。

图像是日常生活中 AI 最常用的场景之一,我们拍照首先要拍得清,vivo AI 通过自主研发的文档图像处理引擎与 OCR 文字识别技术的核心算法,实现了囊括文档扫描、实况文本、表格识别、试卷去手写&算式批改等在内的多重功能。

  1. 文档图像处理引擎:可以对文档进行自动裁剪矫正以及超清修复,帮助用户更便捷、更清晰的记录好文档。一方面通过优化检测、分割以及边缘线精修三个模块来共同提升检测框的精度,同时,通过叠加光流跟踪模块,进一步提升了检测框的稳定性。优化后的检测框做到了既准又稳,用户在拍摄时可以享受一拍即得。此外,通过叠加全局超清模块,不仅有效提升了文档的色彩表现力,还能让文字更加清晰和锐利,用户一键即可自动完成之前需要多次操作才能完成的任务。通过超清修复,近距离拍屏幕可以去除摩尔纹,开会拍 PPT 能去除人头遮挡。
  2. OCR 文字识别引擎:能够帮助用户智能识别图片中的文字,即便是褶皱弯曲的手写字也能做到准确快速的识别。在视觉模型的基础上叠加了语言模型进行融合识别,进一步提升了模糊、手写等低质量图像场景下的识别准确率。同时,由于算法都是运行在手机本地不需要传输网络,不仅使得体验不受网络稳定性影响,还更好的保障了用户的数据隐私安全。当想要将书稿文字快速录入笔记时,只需调起相机扫描就可以将文字实时上屏,不管是书稿还是手写稿都可以做到又快又准,高效提取。

把图像拍清之后,下一步就是要把图像拍好,因此 vivo 团队自 2018 年起便持续在 AI 计算摄影方面专注投入。今年,vivo 携手蔡司基于 AI 计算摄影能力,从“智能白加黑减技术”和“智能白平衡技术”入手,还原极致色彩,让拍摄充满惊喜。

  1. 智能白加黑减技术:vivo 在行业内首次解决了“白加黑减”场景下曝光不准确的问题。抛弃传统十八度中性灰曝光方法中的测光假设,通过对画面内所有区域进行观察取值,基于深度神经网络模型估计最优曝光参数。曝光准确率超过行业竞品 20%。
  2. 智能白平衡技术:抛弃了传统白平衡算法中的“灰世界”假设,考虑到亚洲人色彩恒常性的视觉特点,以及拍摄场景,从地域、光源、场景等多个维度构建丰富的色彩数据集。再基于人工智能模型去实际学习人眼看到的色彩,从而获得更准确的白平衡参数。相对于行业竞品,色彩精准度提升 13%。

除了图像处理之外,语音处理也是 AI 的另一个重要使用场景。vivo 的 AI 语音技术包括语音合成技术以及语音识别技术, 基于自研的语音合成系统,vivo 持续地研发出了丰富多元的合成声音,实现了多音色、多风格以及多情感的合成技术。通过端到端建模、AI 降噪以及场景化语言模型等方式,克服了口音、噪音和专业领域等导致的识别错误,极大提升了语音识别的准确性。

面对日益丰富的国际交流和文化碰撞,vivo 通过机器翻译技术助力用户突破语言障碍。针对翻译的重点人群、高频场景、便捷入口均设计了产品方案,助力高效解决翻译需求。

此外,Jovi 语音助手自推出以来,一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向不断提升。目前 Jovi 语音助手已经支持超过 100 个场景垂类,超过 600 种用户请求意图,很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。目前手机端日活已经超过 1000 万,每个月小 v 都会和用户产生 18 亿次对话,回答 2 亿个问题。

当然,AI 带来的便利远不止这些,vivo 多年来深耕于手机使用典型场景的普适性和通用性,在智能终端行业内牵头实现应用升级与迭代,反哺着行业创新发展,共同打造极致的用户体验。

坚持用户导向,科技照亮美好未来 http://mpvideo.qpic.cn/0bc3aeaaaaaaneaew2llmvrvaaodaaaqaaaa.f10002.mp4?dis_k=78b7dae7e09a9b322b8bcb2cf19979c8&dis_t=1670639146&vid=wxv_2657238708139638785&format_id=10002&support_redirect=0&mmversion=false

在人文关怀方面,经过不懈的研发创新,vivo 实现了手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别 1200 个手语词汇,准确率在 80% 以上,已经达到汉语四级的理解水平,同时在手语表达方面,目前覆盖了国家手语通用词典超过 8000 个词汇。AI 手语虚拟人既能流利的通过手语进行表达,还能快速识别手语看懂手语,帮助听障人士更便捷地获取信息,更高效地与人沟通。

理念牵引,实干专注。发展多年,vivo 始终深耕于科技行业,并向大众展示了一系列布局与探索:vivo 影像战略发布,打赢了手机摄影之战;开启自研芯片之路,向世界展示了 vivo 敢于向技术深水区迈进的决心;坚持长期主义,重视核心科技研发,更是 vivo 长久、健康发展的“形象标签”。

畅想未来,vivo 将 AI 技术作为又一个研发重点:一方面 vivo 将在计算摄影、文档扫描、语音技术、语义技术、机器翻译、计算加速平台、vivo 开发者平台 AI 专区七大方向持续发力;另一方面 vivo 计划逐步开放这些领先的 AI 能力,携手行业伙伴合作共创,比肩为消费者打造极致的体验,更是展现了手机行业巨头的格局担当。在这条鲜有前人的道路上与开发者们同行,为 5 亿多全球 vivo 用户以及更多消费者提供方方面面、无处不在的惊喜与激动人心的体验,打造“1001 个便利”。

走出方寸天地,拥抱行业变幻。如何满足用户体验,技术可以下沉到何种程度,手机产品如何在激烈的市场竞争中抢得关键先机?我们看到,vivo 一一给出了最优解。正如施玉坚所说,“我们坚持从用户的真实需求出发,不断创新和优化产品、以人文理念思考解决方案,努力成为更强大、更值得信赖的平台。”

科技带来美好生活,未来的 vivo 将成就怎样的自身以及行业,让我们拭目以待。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档