【新智元导读】 以语音起家的科大讯飞 2017年在计算机视觉上发力,接连获得自动驾驶领域权威评测集 Cityscapes 第一名和医学影像权威评测LUNA冠军两项突破,在视觉上展示出强大实力。
近日,科大讯飞在国际自动驾驶领域权威评测集 Cityscapes 获得平均81.4%的精度,取得了该项评测的第一名,并刷新了世界记录。这也是今年科大讯飞继医学影像权威评测LUNA之后在计算机视觉领域获得的又一殊荣。
科大讯飞名列Cityscapes榜首
Cityscapes评测数据集在2015年由奔驰公司推动发布,是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一,其关注真实场景下的城区道路环境理解,任务难度更高且更贴近于自动驾驶等热门需求。截至目前,Cityscapes评测吸引了超过40支队伍参赛,包括Google、中国香港中文大学等众多国内外优秀创新企业和顶尖学术机构。
Cityscapes评测集如何判定结果?
Cityscapes评测集包含50个城市不同情况下的街景,以及30类物体标注。此次科大讯飞参加的像素级场景图像语义分割评测,类别对象多、场景复杂,挑战难度大。Cityscapes使用标准的PASCAL VOC IoU(intersection-over-union)得分来评估预测结果与真实场景之间的匹配准确度,每个像素点的预测结果都会直接影响到最终得分。
左:真实场景 中:场景标注 右:讯飞算法预测结果
科大讯飞刷新世界纪录的法宝是?
此次评测,科大讯飞借鉴了已在教育图文阅卷中成功应用的复杂版面分析技术,并结合道路场景解析的特殊问题进行算法迁移,构建了一套具有丰富上下文信息的多层次图像语义分割方案。
根据道路场景下不同对象间的空间关联性,科大讯飞设计出多层次模型预测框架,将多类别“难例预测”简化并分治,同时借鉴多尺度混合感受野的模型设计,加入基于预测对象尺寸自适应调整权重的过程,对上下文信息和物体结构性信息进行更有效地利用。
像素级场景图像语义分割有什么重要意义?
提供参考
像素级场景图像语义分割被喻为自动驾驶中目标识别模块最精确和难度最大的算法,分割的结果可以为行车电脑提供更加丰富和全面的路况参考信息,为后续高级别自动驾驶中的路径规划以及相关的决策提供指导依据。
简化流程
相比于行人检测、物体识别等算法需要系统再次推导空间路径,图像语义分割算法的输出使得整体决策流程更加简化,缩短判决时间的同时又不失安全性。
减少失误
高精度图像语义分割技术为驾驶控制提供更准确的决策参考,其算法效果上每一次细微的改进,都可能意味着真实环境中判决失误次数的极大减少,由此导致的事故率也随之降低,这正是自动驾驶真正诉求的价值所在。
科大讯飞在计算机视觉领域发展如何?此前,在接受新智元专访以及多个公开场合,科大讯飞执行总裁胡郁都表示,我们现在已经不能再把讯飞仅仅看成是一家语音技术的公司,它更多的是一家平台型的公司。
今年8月,科大讯飞在国际医学影像领域的权威评测LUNA中以显著优势获得第一、刷新世界纪录,证明在计算机视觉与医学影像结合的重要领域已走到世界前列;此次Cityscapes 再下一城,充分彰显科大讯飞在计算机视觉领域的技术水平,以及在智能驾驶等新方向的研究拓展能力。
2016年,在新智元AI World 2016 世界人工智能大会和科大讯飞2016年度发布会上,科大讯飞宣布了讯飞以语音为切入口的、从感知智能到认知智能的发展策略。在会上,胡郁也提出了著名的“混合正交商业生态”,这也正是科大讯飞“平台型公司”设想的详细解释。
科大讯飞的2017和2018的重点在哪
科大讯飞 2017年度发布会已经确定将于11月9日在北京国家会议中心举行。按照往年的惯例,科大讯飞董事长刘庆峰和科大讯飞执行总裁胡郁将带来讯飞最新动态介绍,这是了解科大讯飞未来一年走向的绝佳机会,现在大会报名已经启动: