zl程序教程

您现在的位置是:首页 >  Java

当前栏目

多模态人机交互国际研究现状

2023-02-18 16:43:22 时间

陶建华, 巫英才, 喻纯, 翁冬冬, 李冠君, 韩腾, 王运涛, 刘斌. 2022. 多模态人机交互综述. 中国图象图形学报, 27(6): 1956-1987

多模态信息呈现过程涉及大数据可视化交互技术、混合现实交互技术以及人机对话交互技术。下面分别从大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互5个维度介绍多模态人机交互的研究进展。内容框架如图 1所示。

▲ 图 1 本文内容框架

01 大数据可视化交互

可视化是一种数据分析和探索的重要科学技术,将抽象数据转换成图形化表征,通过交互界面促进分析推理,在城市规划、医疗诊断和运动训练等领域起着关键作用。在数据爆炸的今天,可视化将纷繁复杂的大数据转换为通俗易懂的内容,提升了人们理解数据和探索数据的能力。

传统的可视化交互设备,无论加载何种可视化系统,皆以2维显示屏、键盘和鼠标三者构成为主,通过键盘鼠标进行点击、拖拽、框选和移动等交互对可视化内容进行探索。然而,此交互界面只能支持平面式的可视化设计,包括数据映射通道、数据交互方式,无法满足大数据时代背景下的分析需求。

数据可视化在大数据时代下会产生呈现空间有限、数据表达抽象和数据遮挡等问题,沉浸式可视化的出现为高维度的大数据可视化提供了广阔的呈现空间,综合了多感知通道的多模态交互使用户可以利用多通道自然而并行地与数据交互。

1.1 大数据可视化设计

如何可视化复杂结构的海量数据依旧是一个挑战,尤其是具有3维空间信息的数据。传统的平面式呈现将视觉通道和视觉反馈局限于2维空间中,同时也限制了设计空间。沉浸式设备的发展释放了用户的立体视觉,研究者们开始发掘3维交互空间在可视化中的潜力。

人们对3维的视觉感知来自于双目视差、遮挡和相对大小等深度提示。一方面,用户能够轻易识别3维物体的形态; 另一方面,3维中的视角倾斜会使2维平面图形产生形变,使用户难以识别。因此,如何在3维环境中进行有效的可视化设计是大数据可视化交互领域的研究热点之一。

点是可视化中的重要标记。在2维平面中,通常可以采用点的位置、大小和颜色等视觉通道编码数据的不同属性。在3维环境中,Kraus等人(2020)通过用户实验发现相比于2维平面上的散点图,用户可以在虚拟现实环境下更加有效地识别3维散点图中的聚类。Alper等人(2011)提出了一种在3维环境中对图数据结构进行可视化的方法。该技术利用立体深度,通过将用户感兴趣的区域投影到更靠近用户视线的平面上进行突出显示。然而,上述可视化方法占据了3维位置的视觉通道,因此不能编码点在3维环境中的位置。为了解决上述问题,Krekhov和Krüger(2019)以及Krekhov等人(2020)提出了Deadeye技术,通过分裂呈现的方法对点进行突出显示。如图 2所示,分裂呈现技术根据对每只眼睛呈现不同的刺激,将需要高亮的点在一只眼中显示。通过这种技术,需要高亮的点可以立即被视觉系统检测到。

▲ 图 2 分裂呈现技术效果图

线等视觉元素广泛应用于时空数据可视化中。然而传统的2维流图将同一区域不同时间的流动投影至一片区域中, 造成不同时间流动情况相互覆盖。时空立方体是一种在3维环境下对时空数据进行直观可视化的方法。时空立方体采用水平方向上的两个维度编码位置信息,采用垂直方向上的维度编码时间信息。

Ssin等人(2019)提出了一种基于时空立方体对轨迹数据进行可视化的技术GeoGate。GeoGate是一种增强现实环境下的可视化系统。该系统扩展了时空立方体,并采用一个环形用户界面来探索多个位置数据集中实物之间的相关性。Filho等人(2019)提出了一种虚拟现实环境下的时空数据可视化系统。该工作使用时空立方体构建虚拟现实环境下的原型系统,将多维数据集与用户桌面的虚拟表示相结合。在展示地理流动数据的场景中,Yang等人(2019)通过增加高度,将2D地图中的流分开,通过实验得出将流按照不同高度展示可以提高用户辨别地图中流的准确率。

图可视化是信息可视化中的一个重要领域。传统的2维图布局会在数据量增大时出现严重的遮挡问题,为了解决此问题,Kwon等人(2016)提出了沉浸式环境下的图可视化的布局、渲染和交互技术的设计,提高了人们对大数量级图可视化的探索分析能力,如图 3所示。

▲ 图 3 沉浸式图可视化

1.2 非视觉感知的交互辅助

非视觉感知包括听觉、触觉、嗅觉与味觉。这些感知在日常生活中为人们提供了大量的信息,例如方位、声音和温度等,并与视觉一起帮助人们感知与理解周围的事物。近年来,多模态硬件技术愈发成熟,用以产生或模拟非视觉感知的设备逐步地小型化与商业化,这促使大数据可视化交互领域开始研究非视觉的交互方式。这种数据交互方法将用户沉浸在数据中,并在视觉感知外提供听觉、触觉等感知通道,提升用户的参与感与沉浸感,让用户感知在单一视觉通道上难以被发现的细节和模式。

在非视觉感知中,听觉是最容易实现的感知通道。通过物体发出的立体声,用户能够轻易辨识其所在的方位、远近等信息; 而语音则可高效地传递描述数据的语义信息声音的音调、音色、音量以及听者所在的位置都可作为数据映射的通道并用以编码类别以及连续的数据类型,例如Franklin和Roberts(2003)将饼图中的类别信息、占比转化为各类型的声音;Xi和Kelley(2015)则提出了利用声音分析时序数据的工具。

触觉感知能够为用户提供物体纹理、温度和振动幅度等类别或连续的信息。利用振幅的大小,Prouzeau等人(2019)将3维散点图中点云的密度映射为不同振幅的等级,提升了用户发现点云中心高或低密度的区域的感知能力。此外,数据物理化则是将抽象数据转化为可触摸实物的方法,通过让用户与实物触摸而不仅仅是观看来提升探索数据的效率,例如柱状图、节点链接图等。

嗅觉与味觉具有易于记忆和识别的优势。利用各种气味所提供的类别信息以及气流流速、温度等连续信息,嗅觉与味觉同样能够编码离散与连续的数据。例如viScent提出了不同气味与数据类型的映射空间以将数据编码为不同的气味。

非视觉感知作为视觉感知的补充,能够提升用户分析理解数据的效率,例如在分析大量或高密度分布的数据可视化时,让用户感知视野之外或被遮挡的数据信息。另外,对于部分无法获取大数据可视化中视觉信息的人群而言,非视觉感知的交互能将可视化中的信息转化成非视觉信息传达给他们。然而,这些感知的使用往往带来额外的疲劳感,例如长时间触摸所导致的手臂疲劳,进而降低分析的时长。同时如何将高维、多变量等复杂数据进行非视觉感知的编码与设计仍尚待研究。

1.3 多模态交互设计

在大数据可视化交互领域,除了可视化设计,现有的研究重点还集中在探索更加自然直观的交互方式,以提升人们在3维空间对大数据可视化的操作效率。多模态交互结合单一模态的优点,充分发挥了人们对各个感知通道传达信息的高度接收与处理能力,增强用户对交互行为的理解,提高对大数据可视化的探索与分析效率。

1) 基于接触的交互

以智能手机、平板为主的移动设备为可视化交互提供了高清晰度的画面和高精度的交互。基于接触的交互支持用户直接通过手部或者手持传感器触碰可视化标记,传递对数据的交互表达,这类自然的交互方式的操作精度较高,并且能够增强用户在探索大数据可视化时对信息的理解。如图 4所示,Langner等人(2021)通过平板触控的方式准确地选择可视化图表以更新HoloLens中所见的增强内容。

▲ 图 4 通过平板触控的交互

除了增强现实环境中基于触屏的交互方式外,接触式交互在虚拟现实中也很常见。例如,如图 5所示,Usher等人(2018)的VR(virtual reality)系统可以通过跟踪用户手部动作来捕获用户勾勒出来的脑神经路径。与数据交互后产生的触觉反馈可以提升用户交互的直观性和沉浸感。

研究者探索了虚实物体结合的交互方式,将真实物体作为虚拟标记在真实世界中的参照物给用户触碰来提升交互的精确性。例如,研究者将沉浸空间中的地图或数据点投影等2维可视化平面视为如图 5所示的虚拟桌面并将其映射至真实桌面,用户可以直接点击桌面来操作对应数据。此外,Cordeil等人(2020)使用3个滑块轴将数据坐标轴实物化,用户可以通过操作滑块的位置来精准地选择轴空间内的数据。

▲ 图 5 通过手部跟踪捕获勾勒的路径

2) 基于手势的交互

动作识别和传感器技术的发展让基于手势的交互逐渐成为常用的交互方式之一。基于手势的交互使用可跟踪设备或捕捉用户手指的移动来捕捉手部动作,帮助用户完成对数据的操控。一种常见的手势交互技术是光线投射的目标指向,用户可以使用手柄等装置射出的光线来选择与光线相交的最近对象。为了增加这类交互方式的精确度,RayCursor增加了如图 6所示的沿投射光线方向的红色的控制光标来避免被遮挡散点的选择。此外,FiberClay支持用户操控手柄射出的射线来完成对轨迹的筛选,如图 7所示。

▲ 图 6 虚拟桌面示意图

▲ 图 7 基于光线投射的交互设计

除了光线投射技术的指向隐喻,其他诸如抓取、拖动等的隐喻也都有相关研究。如图 8(a)所示,Wagner等人(2021)采用了虚拟手的隐喻,设计抓取和拉伸等动作完成对时空轨迹可视化的移动、缩放和选择等操作;Yang等人(2021a)利用双手合拢与展开的手势实现了散点图的缩放操作,如图 8(b)所示;TiltMap通过改变手柄的倾斜角度来实现如图 8(c)所示的对地图可视化的不同视图之间的切换。这些交互方式通过直观的手势隐喻,帮助用户减轻了许多交互负担。

▲ 图 8 3种基于手势隐喻的交互设计

3) 基于注视的交互

利用用户的视线信息进行注视交互也是探索大数据可视化时一种常见的交互模态。基于注视的交互通过眼动追踪技术捕捉用户的视线焦点,从而理解用户视线中传递的信息,例如当前关注的内容,或者用户的心理状态等。

更进一步,系统可以基于这些信息完成交互,例如高亮用户关注的内容。Sidenmark等人(2020)使用该技术辅助用户如图 9所示在虚拟3维场景中选择一些被遮挡的物体:用户注视物体轮廓上的圆点,并使用视线控制圆点在物体未被遮挡的轮廓线上移动,从而精准地选中被部分遮挡的物体。Alghofaili等人(2019)则使用长短时记忆网络(long short-term memory, LSTM)模型对用户眼动数据进行异常检测,从而判断用户是否适应当前的虚拟环境,并在用户迷失时给予辅助反馈。

▲ 图 9 通过眼动追踪技术完成目标选择的交互设计

4) 基于移动导航的交互

移动导航也是探索呈现在虚拟的广阔3维场景里的大数据可视化中一个重要的交互模态。然而虚拟空间会出现与物理空间不匹配的情况,影响用户在虚拟空间中达到最佳观察点,降低探索能力。为此,交互式的移动导航可以辅助用户移动到最佳的观察点,甚至同时规避空间感知不一致性带来的生理不适。

Abtahi等人(2019a)通过建立3个层级的真实速度到虚拟速度的映射,便于用户在狭小的真实空间内遍历数据可视化呈现空间。此外,虚拟移动技术更进一步地拓宽了遍历虚拟空间的可能性。此类技术包括指定位置进行直接传送、使用3维缩略图进行传送以及使用手柄控制飞行动作等。

02 基于声场感知的交互

基于声场感知的交互技术按照工作原理可分为以下3种:

1)测量并识别特定空间、通路的声音频响特性或动作导致的声音频响特性变化;

2)使用麦克风组/阵列的声波测距(角) 实现声源的定位,可通过发声体发出特定载波音频提升定位精度与鲁棒性;

3)机器学习算法识别特定场景、环境或者人体发出的声音。

技术方案包括单一基于声场感知的方法与传感器融合的方案。

本节从基于声场感知的动作识别、基于声源定位的交互技术、基于副语音信息的语音交互增强以及普适设备上的音频感知与识别4个方面综述国际上基于声场感知的交互技术。

2.1 基于声场感知的动作识别

基于声场感知实现不同手势与动作的识别是人机交互的热点研究内容,基于手势或者姿态带来声场变化的基础,实现手势或动作的识别。

比如使用耳机上的麦克风识别摘戴耳机是最直观的手势识别,Röddiger等人(2021)利用内耳麦克风识别出了中耳内鼓膜张肌的收缩等用于交互。对于双手手势的识别,很多研究者会增加扬声器来构建设备周围的声场,通过分析麦克风接受到的信号变化来识别相应的手势。对于笔记本电脑、屏幕等固定设备,研究者使用声场识别出了手在空中的挥动、停留等手势。而手表和腕带等可穿戴设备上的应用则更加广泛,Han等人(2017)通过手表上的特殊排布的麦克风阵列识别了手腕的转动、拍手臂、不同位置打响指等手势,BemBand利用腕带上超声波信号完成了对于手掌姿态、竖拇指等手势的识别。

除此之外,很多研究将声音信号与陀螺仪的运动信号结合以实现更加精细的动作识别,早期Ward等人(2005)利用两个腕带上的麦克风和陀螺仪进行过简单手势识别的探索。而近几年传感器精度和质量的逐步提升,更多相关研究提高了手势识别的准确度与精度,FingerSound与FingerPing均识别拇指在其他手指上的点击与捏合动作,且FingerPing利用了不同手势下的共振信息,减少了对于陀螺仪的依赖,TapSkin识别出了手表附近皮肤上的点击等更精细的手势交互动作。

除了手势动作本身,部分研究探索了用户在与其他物品交互时的行为和手势,Acustico利用腕带上贴近桌面的麦克风识别出了用户在桌面上点击的2维位置用于交互输入,Pentelligence和WritingHacker利用笔上麦克风较准确地还原出用户书写的字迹,而Ono等人(2013)利用玩具上的麦克风识别出了用户的触摸位置。

2.2 基于声源定位的交互技术

声源定位通常依赖于精确的距离测量。通过不同的声学测距方法,可以得到声源与麦克风的距离;再通过三角定位法,即可得到声源的位置。声学测距的常用方法包括基于多普勒效应、基于相关和基于相位的测距方法,此外在雷达系统中广泛应用的调频连续波(FMCW)也在近些年应用于声学测距。基于以上声学测距技术,可以实现手势识别、设备追踪等交互技术。

基于多普勒效应, 通过频率变化来进行精确的距离计算,AAMouse实现了中位数误差1.4 cm的精确追踪,通过追踪手中移动设备的位置,实现了鼠标的功能。基于相关来计算到达时间差,BeepBeep使用线性调频信号和两路感知技术实现了设备间厘米级精度的距离测量。Tracko基于BeepBeep中提出的算法, 融合BLE和IMU,实现了设备间的3维空间感知。

基于手指、手掌运动导致回波相位的改变,LLAP实现了4.6 mm的2维追踪精度,实现了不需要佩戴额外设备的手势追踪。SoundTrack应用类似的技术但将感知范围扩展到了3维空间,利用内置扬声器的指环和有麦克风阵列的智能手表实现了对手指的连续追踪。基于FMCW技术,CAT通过结合多普勒效应和IMU实现了8~9 mm的追踪精度。MilliSonic利用FMCW中的相位信息计算距离,实现了基于智能手机与四麦克风阵列的原型,达到了2.6 mm的3D精确度,进一步提高了对智能设备的追踪能力。

除了被追踪设备作为声源主动发声,还可以利用被追踪物体的回波来进行定位。FingerIO应用正交频分复用(orthogonal frequency division multiplexing, OFDM)技术来追踪手指的回波,不需要在手指上佩戴其他的传感器,实现了平均精度为8 mm的2维手指追踪。Mao等人(2019)利用身体和手部的反射信号,实现了一个基于RNN(recurrent neural network)的房间尺度的手部追踪系统。该系统通过把基于2D MUSIC(multiple signal classification)方法得到的数据输入到RNN中来获取传播距离和到达角信息,在4.5 m范围内达到了1.2~3.7 cm的追踪精度。

2.3 基于副语音信息的语音交互增强

近年来有许多研究者研究了利用“言语中的非言语信息”来加强语音互动。Goto等人(2002)提出利用语音过程中的用户在元音处的短暂停顿自动显示候选短语辅助用户记忆,并提出了利用用户有意控制的音高移位切换语音输入模式,以及利用语音中的停顿和音高区分连续对话中的人人对话和人机对话。Kitayama等人(2003)提出了利用自然语音交互中的口语现象和停顿进行噪音鲁棒的端点检测和免唤醒。Kobayashi和Fujie(2013)研究了人—机器人对话中的副语言协议。Maekawa(2004)与Fujie等人(2003)讨论了副语言产生和感知的原理。Fujie等人(2004)研究了利用副语言信息改进对话系统。Harada等人(2006, 2009)研究了利用元音质量、音量和音高等属性的光标控制。House等人(2009)将这一思想延续到利用连续声音特征控制3维机械臂。Igarashi和Hughes(2001)研究了利用非言语信息的连续语音控制和速率的参数。

2.4 普适设备上的音频感知与识别

近年来,普适音频设备不断普及,产业界对于普适音频设备不断投入,众多研究者致力于研究普适设备上的音频感知与识别。普适音频设备对于音频数据的实时性采集使得其在声音实时分类事件上具有优势,如Rossi等人(2013)提出了利用智能手机麦克风实时进行环境声音识别的系统AmbientSense。普适音频设备的声音感知还常常用在健康与生理感知领域,用以捕捉、推断用户的生理信息。如Thomaz等人(2015)提出利用腕部音频设备捕捉环境声音,进行识别后推断用户饮食活动的方法,帮助用户进行饮食自我监测。Amoh和Odame(2015)提出利用可穿戴声学传感器结合卷积神经网络检测咳嗽的技术。与环境的声音检测类似,对于更广义上的用户行为,Lu等人(2009)利用手机麦克风对人当前活动(开车、乘坐公交车等)的识别进行了探索。商业产品或应用也快速发展与成熟,其中最具有代表性的是苹果手机手表上的环境音感知(咳嗽、报警等)。

03 混合现实实物交互

通过真实物体实现与虚拟对象进行交互的方法称为“实物交互界面”。在实物交互系统中,用户通过使用在真实环境中存在的实物对象与虚拟环境进行交互,由于用户对实物本身的各种特性(如形状、重量)非常熟悉,可以使得交互的过程更为精准和高效。近年来,将实物交互界面技术融入虚拟现实和增强现实已成为本领域的一个主流方向,并逐渐形成了“实物混合现实”的概念,这也正是被动力触觉的概念基础。2017年,Zhao等人(2017)将实物交互的触觉分为3种方式:

1)静态的被动力触觉; 2)具有反馈的被动力触觉(即相遇型触觉); 3)主动的力触觉。

由于主动力触觉装置比较昂贵,目前的研究很少,主要研究方向仍是静态的被动力触觉和相遇型触觉。关于被动力触觉的混合现实交互方式,目前国际上各个国家和机构的研究水平差别不大,但略有侧重。

1.3.1 静态的被动力触觉

在静态的被动力触觉方面,加拿大多伦多大学和美国芝加哥大学等团队曾提出过Thors Hammer以及PHANTOM两种比较具有代表性的研究。如图 10所示,通过1 ∶1制作的物理实物道具提供逼真的动觉和触觉反馈,提高用户的触摸感受以及操作能力,并且可以通过对实物的触摸来对虚拟对象进行操作。静态的被动力触觉是在混合现实环境中实现触觉交互的一种早期探索,但这些刚性道具在形状上往往和虚拟道具不匹配,或者是道具数量有限,不能满足交互的需求。因此,可变换的被动力触觉便应运而生。加拿大多伦多大学的Araujo等人(2016)提出了Snake Charmer,可以动态地改变交互对象的纹理特征和材质信息,在虚拟环境中渲染不同的对象时仍能够保持触觉和视觉的一致性。

▲ 图 10 虚拟现实中的触觉反馈

1.3.2 相遇型被动力触觉及3种触觉设备

早在1993年,McNeely(1993)就提出机器人图形(robotic graphics)的概念,他认为触觉输出具有极大的价值,并建议使用机械臂或者机器人作为形状载体,动态地提供物理反馈。如今,这种方式已用于混合现实环境中,并有了深远的进步。对于有反馈的被动力触觉系统,从交互道具角度,有反馈的被动力触觉系统的交互载体主要有穿戴式、手持式和机器人式3大类。与目前市场上主流的交互方式——如HTC Vive和Oculus Quest的交互手柄相比,基于被动力触觉的混合现实交互方式可以让用户在混合现实场景中更真实地操作物体,并提供力反馈。

1)可穿戴式触觉反馈设备

可穿戴式触觉反馈设备通过触觉手套、触觉服饰等方式,直接将机械系统产生的力反馈或者电反馈施加在用户的手部或身上,直观地进行被动力反馈触觉。美国斯坦福大学的Choi等人(2016)提出的Wolverine是一个典型的例子。Wolverine通过低成本和轻量级的设备,可以直接在拇指和3根手指之间产生力,以模拟垫式握持式物体,比如抓握茶杯和球。在低功耗的情况下能反馈超过100 N的反馈力。但是,这些可穿戴设备的缺点是,用户在混合现实环境中必须要时刻穿戴着反馈装置,有一定不适感,并且难以实现裸手交互。

2)手持式触觉设备

手持式触觉设备是通过用户单手或双手抓握指定的物体,从而对用户实现力反馈,具有代表性的研究如日本东京大学的Transcalibur以及JetController。Transcalibur是一个可以手持的2维移动VR控制器,可以在2维平面空间改变其质量特性的硬件原型,并应用数据驱动方法获取质量特性与感知形状之间的映射关系。通过手持控制器可以有效实现用户抓握和操作物体,并且可以一定程度上降低用户的眩晕感。但手持式的触觉设备往往需要额外的定位装置,否则用户一旦在虚拟环境中放下手持式装置,便难以再次抓起。

3)机器人式触觉反馈设备

机器人式触觉反馈设备是以可移动或者可变形的机器人作为触觉代理装置,实现可移动和可变换的触觉方式。最早可以追溯到2015年,使用TurkDeck的方法,借助工作人员将一系列通用模块搬运和组装为用户即将触碰到的被动实物,使用户不仅能够看到、听到,还能触摸到整个虚拟环境。Suzuki等人(2020)在此基础之上提出了Roomshift方法,通过实时控制混合现实交互空间的小车来移动环境中的实物物体,提供多种交互方式。Abtahi等人(2019b)提出了Beyond the Force(P.Abtahi),通过可飞行的无人机作为触觉代理,提供动态的被动力触觉。图 11所示的4轴飞行器目前可以支持3种功能:被动触觉的动态定位、纹理映射和作为可交互的被动道具。而且,无人机在交互环境中任意移动,显著地拓展了交互的空间范围。

▲ 图 11 相遇型被动力触觉装置

1.3.3 产业界进展

在产业界,Facebook和Microsoft是研究混合现实被动力触觉交互的中坚力量。2019年Facebook更新了交互装置Tasbi,一款具有震动和挤压两种反馈方式的触觉回馈腕带。2020年,Microsoft提出了PIVOT,通过可变形的交互装置实现动态的相遇型触觉反馈。PIVOT是一个戴在手腕上的触觉设备,可以根据需要将虚拟对象呈现在用户的手上。Dexmo在2020年发布了新的触觉手套,Dexmo外骨骼手套制作精良,该产品面向企业市场。Dexmo触觉手套支持跟踪多达11个自由度的手势,可以灵巧地捕获用户完整的手部动作,从而使用户在虚拟环境中拥有逼真的手指感。不只是手部的力反馈,英国的TeslaSui生产了对全身提供被动力触觉的设备,其产品可将触觉反馈传输到身体的任何区域,从轻柔的触摸到体力的消耗感以及温度改变,并能输出运动捕捉和生物识别信息。采用带有性能监控和感觉刺激的TeslaSuit可以应用于公共安全、企业培训、体育和医疗康复等领域。

04 可穿戴交互

国际上可穿戴交互主要分为以手表手环形式为主的手势交互和触控交互的研究、皮肤电子技术与交互设计。

4.1 手势交互与触控交互

手势输入被认为是构成“自然人机界面”的核心内容之一, 同样适用于探索可穿戴设备的输入方式。实现手势输入的关键在于传感技术,目前人机交互领域深入研究了包括基于红外光、运动传感器、电磁、电容、超声波、相机和生物信号等用于手势识别的传感技术。

美国华盛顿大学和微软研究院的联合项目推进了肌肉电信号(EMG)在手势界面中的应用。EMG通过测量电极对之间的电势来感知肌肉活动,这可以通过侵入式(在肌肉中使用针头)或从皮肤表面进行。美国卡内基梅隆大学的Chris Harrison团队近些年探讨了通过在皮肤表面形成电磁场进行连续手势的识别。通过一个戒指向佩戴的手指发出不易察觉且无害的80 MHz、1.2 Vpp交流信号,当用户的手指接触皮肤时,电信号会传播到手臂组织并向外辐射。信号需要时间来传播,通过测量手臂上多个电极对上的这些相位差,可以计算信号源的位置。

2015年,谷歌发布的Soli智能芯片运用微型雷达监测空中手势动作,可以追踪亚毫米精准度的手指高速运动。系统使用高频(1~10 kHz)、150°宽的雷达脉冲,系统接收到多个动态散射中心的反射叠加,可提取移动的手的各种瞬时和动态特征,并使用机器学习技术先验捕获的训练数据集进行比较来识别手势。这种特殊设计的雷达传感器已获批被用于控制可穿戴和微型设备。

使用可伸展和贴皮式电子器件为实现皮肤界面提供了新的思路,可用于创造轻薄的电子皮肤,允许用户在其上实现触控并具有生理信号监测、视觉显示和触觉显示的功能。实现触觉反馈将在皮肤界面的交互里变得尤为重要,这取决于皮肤自身的触觉感知能力。

德国的Patric Baudisch团队尝试了通过腕带手表在皮肤上实现拖动的触感,可设计简单且容易被用户感知和记忆的字符和图标。韩国科学技术院的人机交互团队探索了使用针阵列的触觉方式在手指上提供经过编译的信息,以及通过气流在皮肤表皮实现非接触式的压力触感。加拿大多伦多大学利用记忆金属在手腕上实现挤压的触觉反馈,通过控制驱动的线宽、力和速度产生不同感受的反馈。美国斯坦福大学的Sean Follmer团队通过设计手持式触觉设备来模拟虚拟操作物体的重力反馈。系统中两个音圈致动器通过不对称的皮肤变形产生与每个指垫相切的虚拟力,这些力可以视为虚拟物体的重力和惯性力。

4.2 电子皮肤交互

皮肤作为人们与外界接触的天然界面,已初步用于探索在信息交互中的作用并在若干方面的应用中体现了其优势。德国萨尔州大学的Jürgen Steimle团队近些年通过导电墨水、电极制作纹身纸,作为电子皮肤实现在皮肤上的显示、触摸和手势识别。

相比于触摸屏,人们在自己的皮肤上移动手指显得更加灵活,而通过纹身纸的方式使得在皮肤表面附属的设备轻而薄,更容易被用户接受。来自于该团队的一项用户研究证明,用户在皮肤上进行的触摸手势和传统触摸屏手势较为一致,但同时也因为皮肤独有的特点,用户设计出了更为丰富的触控手势,证明了皮肤作为触控界面的可行性和优势。同样是对皮肤界面的探索,美国卡内基梅隆大学的Chris Harrison团队采取了在皮肤上投影的方式,通过肩戴投影或手表微投影,将手臂、手背变成显示屏,并通过深度相机或红外线等方式支持手指在皮肤表面的触控。这种方式可以更好地支持探索人们使用皮肤界面的体验,但缺点也显而易见,即需要较为复杂的投影等附属设备。同时,该团队系统地研究了把身体的各个部位当做触摸界面时的可行性和用户的喜好程度,对后续的研究具有参考价值。这些项目的相似之处是在皮肤上发展和拓展触控交互的模式。

另一方面,研究者也在探索皮肤界面的独特用途,比如尝试把皮肤用做设计和创作的交互平台。加拿大Autodesk研究院探讨了如何利用人体手臂的皮肤构建一个3D建模和制造的平台,并展示了以皮肤为中心的建模技术。韩国科学技术院的研究者们试图让用户在自己身上进行绘制来设计服装。挪威代尔夫特技术大学的Charlie C L Wang团队则允许用户在自己皮肤和手臂上进行服装设计的同时通过热感应来分析舒适度。美国麻省理工学院(MIT)的Media Lab开展了多项以人体和皮肤为基础的概念探索项目,向人们展示了可生材料、具有生物活性材料与人体皮肤结合时产生的设计、制造以及艺术价值。

05 人机对话交互

人机对话交互过程涉及语音识别、情感识别、对话系统和语音合成等多个模块,其主要框架如图 12所示。首先,用户输入的语音通过语音识别和情感识别模块转化为相应的文本和情感标签。而后,对话系统将其用来理解用户所表达的内容,并生成对话回复。最后,语音合成模块将对话回复转换为语音,与用户进行交互。人机对话交互的性能不仅仅取决于对话系统的质量,高效鲁棒的语音(情感)识别与语音合成技术对于提高用户黏性发挥着至关重要的作用。

▲ 图 12 人机对话交互框架图

5.1 语音识别

目前国际与国内对于语音识别系统的研究已经不再局限于提升识别的准确度,而是研究在更加复杂场景下的语音识别模型的表现。总体概括来看,低延迟语音识别和低资源语音识别成为研究热点。

目前国际上针对低延迟语音识别主要从两方面进行研究,一方面是研究流式语音识别,实现边听边识别,以此来降低识别出每个标记的延迟;另一方面是研究非自回归语言识别,通过摆脱解码时的时序依赖从而加速整个系统的识别速度。

针对流式语音识别的研究主要有两种思路,一种是针对RNN-Transducer模型进行改进,提出了表现更好的Transformer-Transduce、Conformer-Transducer 。双通解码方法的提出,进一步提升了基于Transducer的流式识别模型的准确率。另一种是对基于注意力机制的编码解码模型(AED)的改进, 其实现思路主要是改进单调逐块注意力机制(monotonic chunk-wise attention, MoChA),其解决的主要问题是MoChA模型在Transformer上的适配以及对于通过辅助手段对模型切分编码状态的位置以及数量进行约束。

针对非自回归语音识别方面的研究,国际研究上也日趋火热。非自回归语音识别因为摆脱了序列模型解码阶段的时序依赖,获得了广泛的速度提升,在自然语言处理(NLP)领域和语音领域均获得了很多关注。针对非自回归语音识别模型的提升整体上也是从两个角度来进行研究的,一方面是先通过编码器预测初始标签,解码器进行纠错或补全;另一方是通过解码器从空白序列出发,基于编码器的声学状态,预测得到完整的输出序列。

近年来,国际上也掀起了针对低资源语音识别任务的研究高潮,普遍采用自监督技术或预训练技术。其中最具代表性的就是Facebook(已改名为Meta)提出的wav2vec系列工作,其将输入音频波形直接编码为声学向量表示,并通过矢量量化技术对声学向量表示进行聚类,整个预训练阶段使用对比算法进行自监督学习,然后在少量标注数据上进行微调。

5.2 语音情感识别

语音情感识别研究的早期阶段遵循传统的模式识别流程,即先进行特征提取,然后进行分类器设计。特征提取阶段大多依赖于手工设计的与情感相关的声学特征。大体上,这些声学特征可以分为3类,分别是韵律学特征、谱相关特征以及音质特征。

开源工具openSMILE通常用于提取一些经典的情感声学特征集。受益于深度学习革命的到来,利用深度神经网络直接从原始数据中提取特征并进行分类的端到端学习范式逐渐占据主导地位。这些研究有的从时域的原始语音信号入手,有的则从频域的语谱图入手,此外也有一些研究同时结合两者进行端到端的语音情感识别。由于语音情感识别的数据库通常都比较小,人工设计的深度神经网络往往容易过拟合,因此学习到的声学情感表征可能会面临着泛化能力不足的问题。

为此,一些研究采用在大规模音频数据库上预训练的深度神经网络(如基于卷积神经网络的VGGish、Wavegram-Logmel-CNN和PLSA,以及基于Transformer的AST(audio spectrogram Transformer)等)进行特征提取,当然也可以继续在语音情感识别数据库上进行微调。受益于最近大规模无监督预训练的兴起,目前已有不少研究采用自监督学习的方式从大量未标注的语音数据中提取有用的音频表征并用于下游的情感识别任务,如MockingJay,Tera,wav2vec 2.0等。此外,为了挖掘语音信号中的语义信息,也有一些研究同时结合声学信息和文本信息进行多模态语音情感识别的研究。

5.3 语音合成

目前语音合成研究主要集中在韵律建模、声学模型以及声码器等模型的建模之中,以提高合成语音的音质和稳定性,并提高在小样本数据集上的泛化性。

具体地,谷歌Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。该模型可以直接对原始语音数据进行建模,避免了声码器对语音进行参数化时导致的音质损失,在语音合成和语音生成任务中效果非常好。2017年1月,Sotelo等人(2017)提出了一种端到端的用于语音合成的模型Char2 Wav,其有两个组成部分:一个读取器和一个神经声码器。读取器用于构建文本(音素)到声码器声学特征之间的映射;神经声码器则根据声码器声学特征生成原始的声波样本。

本质上讲,Char2 Wav是真正意义上的端到端语音合成系统。谷歌科学家提出了一种新的端到端语音合成系统Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给Griffin-Lim重建算法直接生成语音。此外,由于Tacotron是在帧层面上生成语音,所以它比样本级自回归方式快得多。研究人员进一步将Tacotron和WaveNet进行结合,在某些数据集上能够达到媲美人类说话的水平。为了提高合成效率,一些声码器加速工作也有显著进展。

5.4 对话系统

对话系统从应用角度划分, 可以分为任务型对话系统和闲聊型对话系统;从方法上划分, 可以分为基于管道的方法和基于端到端的方法。基于管道的方法需要分别实现自然语言理解、对话管理和自然语言生成3个模块,最终形成一个完整的系统。这种模块级联的方式会导致误差传递问题,因此基于端到端的方法目前成为主流的对话系统方案。

为克服端到端对话系统中存在知识难以融入学习框架的问题,Eric等人(2017)引入键值检索网络整合知识库信息。Madotto等人(2018)提出了Mem2Seq模型,采用指针网络实现将知识库嵌入到对话系统中。Wu等人(2019)改进了Mem2Seq模型,提出GLMP模型,将外部知识融入对话系统之前进行过滤,并且加入了骨架循环神经网络机制生成对话模板。

除了基于文本的对话系统,学者们在多模态对话系统方面做了许多工作。Barbieri等人(2018)根据对话上下文预测emoji表情。Haber等人(2019)设计了一种对话系统,让用户使用自然语言与机器谈论给定的视觉内容。

06 多模态融合

如何将不同模态的信息在人机交互系统中有效融合,提升人机交互的质量,同样值得关注。多模态融合的方法可分为3种:特征层融合方法、决策层融合方法以及混合融合方法。3种融合方法如图 13所示。

特征层融合方法将从多个模态中抽取的特征通过某种变换映射为一个特征向量,而后送入分类模型中,获得最终决策;决策层融合方法将不同模态信息获得的决策合并来获得最终决策;混合融合方法同时采用特征层融合方法和决策层融合方法,例如可以将两种模态特征通过特征层融合获得的决策与第3种模态特征获得的决策进行决策层融合来得到最终决策。

▲ 图 13 3种不同的多模态融合方法