前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多模态人机交互国内研究进展

多模态人机交互国内研究进展

作者头像
一点人工一点智能
修改2022-12-30 11:15:21
1.1K0
修改2022-12-30 11:15:21
举报

陶建华, 巫英才, 喻纯, 翁冬冬, 李冠君, 韩腾, 王运涛, 刘斌. 2022. 多模态人机交互综述. 中国图象图形学报, 27(6): 1956-1987

01 大数据可视化交互

1.1 大数据可视化设计

在大数据可视化领域,国内的发展也已经逐渐走向成熟,每年都有许多可视分析系统不断涌现。近年,沉浸式大数据可视化得到了发展,浙江大学的探索了如图 1所示的无缝结合羽毛球比赛数据绘制的2D和3D可视化视图的问题,Chu等人(2022)探索了结合高度来凸显羽毛球数据中多个战术之间存在的差异性问题,如图 2所示。由此可以看出,沉浸式大数据可视化对数据分析和展示问题提出了有效的解决方法。

2D和3D可视化结合的设计
2D和3D可视化结合的设计
图 2 3维羽毛球战术可视化
图 2 3维羽毛球战术可视化

但是相比国外学者在沉浸式大数据可视化上的研究,国内仍处于起步阶段,所以接下来的发展还需要各高校继续深入研究。

1.2 非视觉感知的交互辅助

大数据可视化交互中,非视觉的感知交互方式以触觉最为常见。通过反馈力的大小与方向,用户可以使用触觉直观地感知到连续的高维数据信息。赵俭辉等人(2021)使用电磁力反馈设计了一种交互方法,并解决了虚拟手术中沉浸感不足的问题。如图 3 所示,用户在虚拟手术中操作的导丝可以获得真实手术环境下的多种反馈力,同时用户也获得了更逼真的手术体验,提高了术前虚拟训练的效果。在一部分沉浸式系统中,用户的3维感知也在分析中发挥了重要的作用。如图4 所示,杭州师范大学的潘志庚等人(2021)通过一种数字对象和真实物体的孪生配准技术将虚拟世界中的物体渲染到真实世界中,从而将多种分析对象放置于分析者身旁。该技术充分利用分析者对于分析对象的3维感知。在教学实验中,该技术可以辅助参与者有效地进行磁感线的交互式学习。近几年,国内围绕嗅觉、听觉等通道的成果还较为匮乏并落后于国外。这些感知通道还需要研究者进一步探索其交互方式以及配套硬件设施。

图 3 介入手术中导丝导管力反馈
图 3 介入手术中导丝导管力反馈
图 4 数字对象(左)以及渲染出的真实对象(右)
图 4 数字对象(左)以及渲染出的真实对象(右)

1) 基于接触的交互

触控式大屏的出现对多人协同分析大数据可视化起到了促进的功能。仁光科技先后设计了13种自然交互对触控式的可视化大屏进行数据操作,例如手指触控、笔触触控,通过触控式交互可完成对数据的选择、可视化的拖拽缩放等。

2) 基于手势的交互

西南科技大学的Wang等人(2020a)提出了一套基于手势的“所见即所得”的交互方式,可完成对体数据进行抓取移动等动作,与在真实场景里的交互动作一样。浙江大学的Ye等人(2021)设计了具象化的羽毛球挥拍隐喻用于飞行轨迹的筛选,羽毛球分析专家挥动VR手柄,根据空气动力学,系统会基于手柄的移动方向和移动速度模拟一条虚拟的羽毛球轨迹,并从已有数据中查询到与之相似的轨迹并进行分析。

3) 基于注视的交互

视线追踪技术捕捉人们的视线焦点,可以代替手部对数据进行选择的操作行为,减少手部交互带来的疲劳。Hu等人(2021)提出的FixationNet可以根据人们的历史凝视位置、探索任务的对象以及用户的头部移动速度,预测其在VR中近期的注视情况,FixationNet提高了任务为导向的可视分析系统中用户的探索能力。

4) 基于移动导航的交互

移动是沉浸式大数据可视化中最常用的交互之一,山东大学的Li等人(2020)提出了一种重定向行走方法,支持用户在物理空间中行走较小的距离,同时在虚拟环境里完成远距离的行走,解决了物理空间有限的问题。他们提出了一种基于Voronoi的方法来生成行走路径,并且采用重定位和曲率调整的静态图映射方法将虚拟空间的行走路径与物理空间进行映射,由此实现在物理空间中的连续移动,拓展了人们在沉浸式环境中的探索空间。

02 基于声场感知的交互

2.1 基于声场感知的动作识别

国内对于声场识别手势的研究相对较少。其中,国内学者提出的PrivateTalk利用双耳耳机上的麦克风识别出了用户捂嘴时的语音,实现了语音交互唤醒的优化。魏文钊和何清波(2018)设计出了一套基于超声波识别手势交互的系统。

2.2 基于声源定位的交互技术

ReflecTrack利用工作生活中的反射面,使用智能手机上的双麦克风实现了22.1 mm精度的3维声学定位。该工作使用频率超出人耳听觉范围的FMCW声音信号,同时识别直接路径的声音信号和反射得到的声音信号,实现了只需要两个麦克风的声学定位技术。由于反射面在生活中很常见,基于该技术可以实现运动追踪和精细的手势识别等多种交互技术。

FaceOri利用任意智能设备的扬声器发出频率超出人耳听觉范围的FMCW声音信号,通过使用用户双耳佩戴的主动降噪耳机上的麦克风,利用超声波测距方法,创新头部相对智能设备的头部空间位置与角度的精准连续追踪技术,支持包括交互对象感知与健身动作识别等更加智能高效的人机交互技术。

2.3 基于副语音信息的语音交互增强

Qin等人(2021)提出了基于单麦克风近距离风噪特征的凑近免唤醒语音交互技术ProxiMic,可用于手机手表耳机的手持或穿戴设备的凑近即说,该工作利用人距离麦克风近距离状态下说话的自然吐气特征,设计了基于风噪一致性的两步算法,用户轻声或气声亦可激活系统,具有私密性强、鲁棒性高和准确率高等特点。

2.4 普适设备上的音频感知与识别

国内在智能手机上的音频感知与识别研究较多,典型的如李凡等人(2021a, b)提出的两种在驾驶环境下进行音频感知与识别的工作:

1)利用智能手机扬声器收集并基于自适应子带谱熵方法和神经网络进行驾驶环境下的呼吸道症状检测技术;

2)利用智能手机扬声器与麦克风组成的声呐系统,基于物理原理实现车辆行驶速度的检测方法。

此外,陈超(2021)提出一种利用智能手机内置扬声器与麦克风实现对疲劳驾驶行为感知的检测技术。

03 混合现实实物交互

国内在被动力混合现实交互方面跟进较为迅速,与国际上的前沿水平相差不大。目前,虚拟现实用户主要通过视觉、听觉感知环境,而具有双向信息传递能力的触觉通道往往得不到支持。触觉呈现的功能缺失或位置精准度低下会造成用户对虚拟物体的感知失真,降低用户使用沉浸感。同时,触觉引导的欠缺也会导致用户交互效率大幅降低。北京理工大学、北京航空航天大学、中国科学院软件研究所和中国科学院大学等项目组,针对长时虚拟沉浸中的显触失配问题,提出了一系列基于被动触觉的虚实融合技术。

3.1 静态的被动力触觉

在静态的被动力触觉方面,Zhao等人(2021)提出基于纹理感知特征的触觉信号采集方法,基于静电振动触觉显示技术及最小可觉差估计法的触觉感知信号量化、采集多通道纹理信息,并在此基础之上进一步提出基于静电力反馈的触觉渲染方法,提高虚拟纹理真实感。Guo等人(2020)提出基于实例分割的被动触觉对象选择性渲染及特征化表达方法,平衡虚实融合系统中环境沉浸感与系统交互效能冲突,扩展虚实融合场景渲染自由度,实现虚实空间智能化融合。

3.2 相遇型被动力触觉及3种触觉设备

在相遇型被动力触觉方面,如图 5 所示,Jiang等人(2019b)提出了HiFinger方法。HiFinger是一种单手可穿戴的文本输入技术,可通过拇指对手指的触摸实现输入时的触觉反馈以及快速、准确、舒适地输入文本,适用于用户需要在虚拟环境中移动(如行走)的移动场景,有效地提供了一种混合现实环境中的输入解决方案。Zhang等人(2019)也开发了一种轻量的多指力反馈手套,通过一种在每个手指关节上使用分层干扰片的解决方案,在增强虚拟现实和远程操作系统的保真度方面具有巨大应用潜力。Li等人(2020)针对难以在虚拟环境中添加真实物体的问题,提出了一种基于连杆机构的原型框架HapLinkage。该框架提供了典型的运动模板和触觉渲染器,便于虚拟手动工具的代理设计。机械结构可以很容易地修改,能够轻松快速地为各种混合现实场景创建手动工具的原型,并赋予它们动力学和触觉特性。

Xue等人(2019)提出了MMRPet,一种可通过磁力组装的虚拟宠物交互装置,模拟逼真的被动力触觉。通过将虚拟宠物叠加在被跟踪的宠物实物上,兼具丰富的视觉信息和实物交互,同时宠物实物采用模块化的结构设计,各模块能够以不同方式相连接,构成不同形态结构的宠物实物,避免不同的虚拟宠物均需要一个单独的宠物实物作为被动力触觉反馈的提供者,使被动力触觉反馈方案更加灵活,同时赋予用户更多的交互自由。

图 5 力反馈输入装置
图 5 力反馈输入装置

3.3 产业界进展

在产业界,国内目前的发展较为迟缓,目前还没有非常完善的混合现实触觉解决方案。国内主要提供混合现实设备的公司,目前在触觉外设方面仍处于探索阶段。除HTC Vive的控制手柄之外,研究人员曾经提出过一种沉浸式地板。地板上安置有大量电动微型模块,它们会根据用户在混合现实中的内容改变地板的表面形状,提供一定的被动力反馈。

此外,PPGun VR曾推出过一款枪型控制器,便于优化用户在虚拟环境中的射击体验。通过与主机相连的仿真步枪,用户可以真实地完成射击、填装子弹等一系列操作。但由于触觉代理对象种类繁多而且形状复杂,目前混合现实中的触觉并没有一套产业化的解决方案。

04 可穿戴交互

国内对可穿戴设备交互的研究主要集中在新型的传感技术来支撑手势、语音等交互行为,以及对交互意图理解和交互界面的优化等方向。中国科学院计算技术研究所陈益强团队从事普适计算的研究,包括用手表内置传感器进行用户手臂动作的捕捉,并依次进行用户动作建模及拓展其在空间环境里的交互场景。

北京大学张大庆团队利用可穿戴设备和WiFi信号解析,对用户在空间中的动作和其自身的生理指标进行监测。如提出一种基于转换的分割方法,利用一对接收器天线上的相位差方差作为显着特征,自动分割连续捕获的WiFi无线信号流中的所有跌倒和类似跌倒的活动。

南京大学谢磊团队等对以可穿戴RFID标签为基础的无线信号传感进行建模和解析,支持用户动作和行为的检测。系统中只在标签阵列后面部署一根RFID天线,持续测量标签阵列发出的信号,根据相应的信号变化识别手势,并将多根手指作为一个整体进行识别,然后提取多根手指的反射特征作为图像。

同时,国内的研究重视对人因元素的考虑和对用户行为的建模。清华大学史元春团队研究手表等小型触摸屏上的文字输入问题,通过新型的表盘界面设计与用户意图推理等技术的结合,创造出高效的文字输入技术。要输入文本,用户可以转动表圈,用光标敲击圆形键盘上的键,为了最小化旋转距离,每个光标的位置在每次按键选择后根据需要下一个按键的概率进行动态优化。

中国科学院软件研究所田丰团队在设备周围的手势交互技术实现和高效的适用于小屏幕的手表命令界面的设计等方面进行了创新。如一种新的手势是通过将屏幕上的一个角拖动到不同的方向和距离来执行的,每个角都映射到某个命令,并且可以卷曲/剥离以浏览命令下可用的值。Robin Bing-Yu Chen团队研究了用手掌和指间作为触摸界面在手势输入和文字输入等方面的应用。该工作解决了两个人体工程学因素:手部解剖结构和触摸精度。手部解剖结构限制了拇指的可能运动,这进一步影响了交互过程中的身体舒适度。触摸精度是一个人为因素,它决定了用户可以如何精确地操作设置在手指上的触摸小部件,以及小部件的有效布局。

清华大学史元春团队同时在触控、手势和语音等多模态输入通道下交互行为优化和自然等方面做出创新。如用户可以将嵌入麦克风的设备放在嘴边,并直接对着设备说话,而无需使用唤醒词或按下按钮,为了检测靠近麦克风的语音,系统使用了用户说话并向麦克风吹气时观察到的爆音的特征。

05 人机对话交互

5.1 语音识别

国内与国外针对语音识别的研究整体趋势是趋同的,但是在聚焦的技术方面还是存在一定的差异。国内的实验研究也紧跟低延迟语音识别和低资源语音识别两个方向。

针对低延迟语音识别方面,国内以中科院、清华大学和西北工业大学为代表,围绕非自回归语音识别模型做了不少探索性的工作;在流式语音识别方面,国内划分成3种思路:

1)字节跳动公司、腾讯公司和中国科学院自动化研究所对Transducer模型进行了实用化的改进,提升识别速度和准确率;

2)百度公司聚焦于使用CTC模型对连续编码状态进行切分,然后使用注意力模型进行解码,先后提出了SMLTA和SMLTA2

(http://research.baidu.com/Blog/index-view?id=109)

3)中国科学院自动化研究所、出门问问公司和阿里巴巴公司尝试实现将流式模型和非流式模型统一到一个框架中。

受限于计算资源和数据规模,国内高校科研单位对于自监督与无监督语音识别的研究偏少,这部分研究主要集中于企业,有京东公司、字节跳动公司、猿辅导和滴滴,其工作偏向跟随和扩展性质,其代表工作包括SCALA和BERT的变体。

5.2 语音情感识别

国内语音情感识别的研究早期阶段也集中在区分性语音情感特征的提取以及分类器的设计。如, 东南大学的赵力团队在2004年提出了一种利用全局和时序结构的组合特征以及MMD(modified Mahalanobis distance discriminant)进行语音情感特征识别的方法。而后受益于深度学习的发展,一些新型的深度神经网络逐渐用于语音情感识别并取得了不错的效果,包括深度信念网络、基于高效通道注意力的CRNN和Sinc-Transformer等。在数据库建设方面,中国科学院自动化研究所录制了CASIA汉语情感语料库,该数据库涵盖了4位录音人在纯净录音环境下以5类不同情感演绎的9 600句语音。

5.3 语音合成

在语音合成领域,国内研究与国际基本保持一致。为了提高模型的鲁棒性,百度公司提出了Deep Voice和支持多说话人的Deep Voice 2,它通过相应的神经网络代替传统参数语音合成流程中的每一个组件。为了提高模型在小数据上的泛化性,中国科学院自动化研究所等科研机构通过将目标说话人的韵律与音色进行解耦,提高模型的泛化性,在小数据集的目标说话人上表现良好。国内各大互联网厂商也陆续推出基于个性化语音合成的算法服务,有助于语音合成推广到更加广泛的领域。

5.4 对话系统

针对融合知识的端到端对话系统,哈尔滨工业大学的研究人员改进了Mem2Seq模型中存在的实物生成不一致的问题,并且提出动态融合网络以提高对话系统的集外迁移能力。中国科学院自动化研究所的研究人员提出采用一种心理学模型将外部知识与端到端对话模型进行有机融合。

针对多模态对话系统,山东大学的研究人员提出UMD模型,利用多模态编码器和解码器分别编码多模态话语和生成多模态响应。中国科学院计算技术研究所的研究人员建立一种开放域多模态对话数据集,推动了多模态对话系统的发展。

精彩推荐

1. 基于LEBERT的多模态领域知识图谱构建

2. 172篇 | COLING 2022论文集

3. CCKS2022 -《知识图谱发展报告(2022)》

4. 融合图注意力机制与预训练语言模型的常识库补全

5. 知识图谱问答领域综述

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 大数据可视化交互
    • 1.1 大数据可视化设计
      • 1) 基于接触的交互
      • 2) 基于手势的交互
      • 3) 基于注视的交互
      • 4) 基于移动导航的交互
  • 1.2 非视觉感知的交互辅助
  • 02 基于声场感知的交互
    • 2.1 基于声场感知的动作识别
      • 2.2 基于声源定位的交互技术
        • 2.3 基于副语音信息的语音交互增强
          • 2.4 普适设备上的音频感知与识别
          • 03 混合现实实物交互
            • 3.1 静态的被动力触觉
              • 3.2 相遇型被动力触觉及3种触觉设备
                • 3.3 产业界进展
                • 04 可穿戴交互
                • 05 人机对话交互
                  • 5.1 语音识别
                    • 5.2 语音情感识别
                      • 5.3 语音合成
                        • 5.4 对话系统
                        • 精彩推荐
                        相关产品与服务
                        语音合成
                        语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档