依图进军语音赛道，与微软、华为达成合作，多模态成势

文章来源：企鹅号 - 甲子光年

12月11 日，起步于计算机视觉的依图正式进军语音识别领域，宣布其在全球最大的中文开源数据库AISHELL-2中取得了短语音听写字错率3.71%的好成绩。

依图还宣布与微软合作推出依图开放平台，提供语音识别算法API及大量的数据集；依图同时宣布与华为合作，结合依图的软件优势和华为昇腾（Ascend）系列芯片Atlas 300 AI加速卡的硬件优势，发布软硬件一体化的智能语音联合解决方案。

值得注意的是，依图针对不同场景，采用了同一种语音识别算法，单个算法模型表现出了多场景的适用性。

信息源：

https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html

点评

目前，多家从语音或视觉出发的公司，在经过各场景的商业探索后，已形成相似判断：AI时代最重要的交互入口不会只包含单一的语音或图像功能，而是图像、语音等多模态技术的融合。

在依图之前，同样属于“计算机视觉四小龙”的云从已在今年10月发布全新Pyramidal-FSMN语音识别模型，将错词率降低至2.97%，超过受过严格训练的专业人类速记员。

今年7月，智能语音公司云知声联合创始人、芯片技术负责人李宵寒也曾在接受采访时说：“人工智能设备是让机器更像人，这样的话就必须提供多种感知能力，图像是必不可少的环节。”云知声目前也确实在做图像方面的布局。

未来，市场上会出现更多像云知声、云从、依图这样的“跨赛道”行为；打造多模态技术能力将成为人工智能行业的重要趋势。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货