书城计算机体感交互技术
4996300000017

第17章 运动感知与行为计算(4)

手势识别的技术主要有:模板匹配、人工神经网络和统计分析技术。模板匹配技术主要是将传感器输入的数据与预定义的手势模板进行匹配,通过测量两者之间的相似度来识别出手势。人工神经网络技术是具有自组织和自学习的能力,能够有效抗噪音和处理不完整的模式,是一种比较优良的模式识别的技术。统计分析技术是通过基于概率的方法来统计样本特征向量来确定分类的一种识别方法。

手势识别技术的研究不仅能使人机交互更为自然,同时还能有助于改善和提高聋哑人的生活学习和工作条件,也可以用于需要表现情感和观念的艺术学习和创作。

目前,在识别、分类体感产生模式,特别是手势动作、面部表情、语音语调和生理信号等方面建模工具的使用,所有情况下的模型,都是用于将模式和信号映射到体感类别,都是一种从低层次到中层次的变换。本节的重点放在离散情感状态表示的中层次模型上。假设这些内部状态是“隐藏”的,而体感调整的观测,如一个人在这些体感状态是未加隐藏的。模型要有能力识别,通过多种形式组合去表达内在的情感,比如困惑时有时候皱眉,但你也可能通过身体运动姿势或声音来表达出困惑。当一个人处于一种特定的体感状态时,模型应能够给出相应的观察值的概率20。

(1)隐马尔可夫模型

本书实验部分是用隐马尔可夫模型(HiddenMarkovmodel,HMM)做手势的识别,隐马尔可夫模型是采用概率统计的方法来描述时变信号的模型。与模式匹配的算法不同,HMM不是以训练动作序列与标准动作序列之间的距离和度量来进行手势识别,而是通过计算动作序列是每个动作模型产生的概率大小来进行动作识别的。在HMM方法中,动作序列被看做是一种叫做马尔可夫随机过程的输出。描述了这个马尔可夫随机过程的参数,也就描述了这个随机过程所对应的人体动作序列。

一个HMM由若干个身体运动状态组成,状态之间由状态转移概率连接着,每个HMM都具有两个概率:一个是状态转移概率,它决定了一个状态转移到另一个状态的概率;另一个是输出概率,它决定当处于一个状态时输出一个数值或符号的概率。

一个HMM包括以下三个部分:状态的集合,状态转移概率矩阵,输出概率矩阵表示当处于状态时,输出符号K的概率。

图5.19列举一个可能满足这些需求的模型,隐马尔可夫模型(HMM)114。图中为了说明的方便,只用了三种状态,但它可以包含更多状态。例如,可以加上第四个圈,代表“无身体运动感觉状态”,作为体感基线或中性状态。这样做的前提是在任何时候都只处于一种状态,而且能以某种概率在状态之间进行转换。比如,在钢琴导师的教学实验中,我们可以预测学生从感兴趣状态转移到高兴状态的概率,要比从苦恼状态转移到高兴状态的概率更高些。

HMM是通过对观察值的训练来得到概率,观察值可以是任何潜在状态调整的测量值,如身体运动节奏或者幅度的变化。任何时候的输入都是这些观测值,输出可以是一个人最可能的状态,或者是对整个HMM结构的识别,是可以识别情感行为的较大模式。后者需要HMM结构,每个对应一种情感行为,或者对应给定行为的各个人特征。例如,在舞蹈教学的例子中,系统能够识别出不同学生不同的身体运动的特征模式,从而更有效地调整和修改系统的交互反馈。

如图5.20所示,隐马尔可夫模型表示的状态,这里表征了感兴趣(I:interest)、悲痛(D:distress)、和高兴(J:joy)54,这三种“隐藏”状态之间的转换概率,还表征了给定状态的某种观测的似然性,一个人的情感状态依赖于对这些状态所产生的东西进行观测。给定一段时间的观察值序列,计算机可以确定哪一个状态序列能最好地解释这一观测值序列。

HMM模型可用于多种环境,不同的HMM模型可经过训练,作为环境、文化、社会条件等函数。假定不同情况和环境中,某种体感语义表达发生的概率也就不同,环境条件还包括暂时的事件。模型的概率、状态、结构根据不同的因素而不同,最终是由模型的用途决定的。

无论哪种情况,HMM模型的状态能对应于纯的身体运动感觉,或者对应于更为基本的基础模块。并可能被计算机识别出来。HMM模型状态不一定有可识别的特定体感状态,但对应于一个人体感调节测量值聚类的多维空间的一个区域。例如,一个HMM状态,可能用来表明发生在特定情境下生理学变量的聚类,并将每个聚类归属于它的状态。此外,Popat和Picard115提出的聚类的复杂模式可由基于聚类的概率模型表示。无论哪种情况,模型都是针对一个个体定制的,能学会表示在某种情境下一定发生的无名的感觉。而且,把整个HMM与一种体感相关联,模型能捕获体感的动态特性。无论是识别什么运动行为语义,模型能自由适应新型的体感行为模型。

HMM模型也适合表示体感的综合状态,一种状态可以由混合体感来建立,由几种同时存在的成分构成。HMM可以在两种体感语义,或更多种的语义状态之间循环,或者还能够在中性状态上停顿。

HMM不仅用于识别某些体感语义模式,而且可根据一个人现在的身体行动和体感状态,预测他下一个最有可能的行动和体感状态。预测过程是部分识别的一种:

首先,根据现在和先前观察值调整模型;

其次,运用这些结果合成下一时刻最有可能发生的状态。

这样,合成的状态可认为是预测状态。就像一个人类观察者一样,这种基于模型的预测给出同等程度的结果,但是决不能保证100%的正确。这些模型在进行合成或预测时,没有考虑高级的推理或逻辑,仅仅是根据概率的方法。这模型适合描述体感状态转换的模式,在给定这些模式后,可推断出隐藏的状态。

(2)其他的识别模型

此外,许多其他模型也可以用于体感计算的建模,人工神经网络是一种通用性的工具,它也能用在体感计算中。用来训练人工神经网络的流行方法:反向传播算法(BP算法),就是源于体感能量能附在关联体上的想法所发展起来的。PaulWerbos在试图对弗洛伊德观点做数学变换的时候,产生了反向传播算法的想法,弗洛伊德提出人类的行为受内在情感的支配,人们对弗洛伊德称为“客体”的事物附加上了精神集注。

Werbos116根据弗洛伊德理论,认为人们首先是认识了因果关系,例如,他们在随后知道客体A与客体B相联系。他的理论是,存在一个体感能量的反向流动。如果A导致B,而且B具备体感能量,那么就会有一些能量反向流到A。如果A导致B到某种程度W,那么从B到A的反向流动的体感能量将和正向的能量成比例。

现在大多数机器学习方法中的重要部分是反向流动的某种形式的应用。计算机可以在不被赋予体感系统的情况下实现它,其机制显然类似于人类学习中体感的作用。

还有很多可能的模型可以用到情感表达的识别和合成。Camras(1992)117提出的动态系统理论可以解释由基本情感引起的各种生理反应,但没有提出任何模型。情感系统动态特征可以通过如M-网格这样的非线性模型来表征,该模型概括了Sherstinsky和Picard在1994年提出的某种类型的神经网络118。Grossberg和Gutowski119提出情感处理可以通过称之为双极门(gateddipole)对立处理的神经网络完成,Freeman120提出了以动力学系统对嗅觉建模。当然,除了以上所述的这些模型,还有很多合适的模型,而究竟哪种最适合用在体感计算中,还要针对具体问题具体分析。

此外,多通道交互(Multi-ModalInteraction,MMI)的体感计算也需要应用合适的模型,MMI是以“用人为中心”的自然交互准则的,是指使用多种通道与计算机通信的人机交互方式。通道(modality)包括了用户表达意图、执行动作或感知反馈信息的各种系统通信交互,例如手动、手势、头动、肢体姿势、语音和表情等123。总之,这样多通道的交互方式可以采用综合的模型的来处理,这还有待进一步探讨。

然而,不管是采用离散模型、连续模型、隐式模型、突变模型、线性模型、非线性模型还是其它的模型,没有一种模型可以完美地识别一种潜在的体感状态。

例如,可以从视频图像中识别出手的运动姿势,但手的运动姿势可能有很多不同的含义,具有模糊、多意和不确定性。当计算机学会能针对个人将以下的两方面结合在一起的时候,体感手势的识别将是最成功的。一个方面是低层次的感知信号,如视觉、语音或其他生理信号的模式识别,另一个方面是高层次的认知信号,如推断所看到的事件是否能满足用户长期的目标并可能让他非常感兴趣。另外,这些信号在结合上下文语境来考虑时是最有效的。推断的重要影响,特别是对某种情境的认知评价以及对所谓的“体感认知”的综合可能是今后研究的一个问题122。

5.5本章小结

本章探讨的体感交互的识别技术主要指对表达内在情感的人体运动行为进行跟踪和分析、识别的相关技术。体感交互的识别技术一般是分为运动跟踪和身体运动的分析、识别两部分。通过运动跟踪技术可以获取人体的运动信息,这些运动信息经过分析和识别后就能得到相应的体感语义或其他的认知符号信息。人机交互对于运动感知技术有特定的要求,除了需要针对交互内容选择合适的运动跟踪方法外,运动感知技术还应该能够用于完成人类体感语义的识别和表达等任务,这些都建立在对运动跟踪方法和基于运动交互特点的基础上。