依图进军语音赛道,与微软、华为达成合作,多模态成势

12月11 日,起步于计算机视觉的依图正式进军语音识别领域,宣布其在全球最大的中文开源数据库AISHELL-2中取得了短语音听写字错率3.71%的好成绩。

依图还宣布与微软合作推出依图开放平台,提供语音识别算法API及大量的数据集;依图同时宣布与华为合作,结合依图的软件优势和华为昇腾(Ascend)系列芯片Atlas 300 AI加速卡的硬件优势,发布软硬件一体化的智能语音联合解决方案。

值得注意的是,依图针对不同场景,采用了同一种语音识别算法,单个算法模型表现出了多场景的适用性。

信息源:

https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html

点评

目前,多家从语音或视觉出发的公司,在经过各场景的商业探索后,已形成相似判断:AI时代最重要的交互入口不会只包含单一的语音或图像功能,而是图像、语音等多模态技术的融合。

在依图之前,同样属于“计算机视觉四小龙”的云从已在今年10月发布全新Pyramidal-FSMN语音识别模型,将错词率降低至2.97%,超过受过严格训练的专业人类速记员。

今年7月,智能语音公司云知声联合创始人、芯片技术负责人李宵寒也曾在接受采访时说:“人工智能设备是让机器更像人,这样的话就必须提供多种感知能力,图像是必不可少的环节。”云知声目前也确实在做图像方面的布局。

未来,市场上会出现更多像云知声、云从、依图这样的“跨赛道”行为;打造多模态技术能力将成为人工智能行业的重要趋势。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181219A0Q0BG00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券