基于深度学习的手势识别研究

时间：2022-03-22 09:25:50 浏览次数：

��zoޛ�)j首�� 学习的手势识别具有一定优势。通过深度学习提取多层网络简化的高价值易用特征，通过向量等表示，简化算法以实现良好的识别效果。通过摄像头采集室内复杂背景下的手势图像，在计算能力、存储能力强大的PC平台通过深度学习处理图像，提取特征，然后进行分类识别，能提高识别准确率。通过改进硬件或算法还可提高识别效率及安全性。

关键词：深度图像;预处理;特征提取;深度学习;手势识别

0 引言

手势是人机交互的一种重要手段，是简单且自然的交流方式[1]。手势识别是计算机科学和语言技术研究的主题。手势识别可通俗解释为通过计算机理解人体语言，无需直接接触机械设备即可使人类和机器进行自然交互[2]。手势识别在人机交互智能领域起着重要作用，但由于其在相对复杂的环境中处理困难，因此需要探究出更加适宜的方法。

早期大多通过有线技术连接计算机系统和用户，从而将用户手势信息准确地传送给识别系统，完成手势识别[3]。如数据手套通过传感器将诸如用户手的位置和方向数据信息发送给计算机，再通过机器学习算法进行识别。虽检测效果良好，但穿戴过程给操作者带来极大不便且价格昂贵[4]。此后，数据手套被光学标记方法所取代。光学标志放置在人手上，就可将手的位置和变化通过红外线传给系统屏幕。该方法效果良好，但仍需复杂设备。虽然外部设备干预可以提高手势识别的准确性和稳定性，但无法实现手势的自然表达。为此，自然手势识别被针对视觉的手势识别取而代之[5]。

许多专家学者倾向于使用深度学习研究手势识别。视觉手势识别（即识别自然手势）可以使用手势来控制或与设备交互，无需接触设备。由视频设备捕获的手势图像序列通过计算机技术处理，该过程可以是相关的深度学习算法经过复杂网络结构层的筛选提炼，获取高价值的特征[6]。视觉手势识别分割易受硬件之类的外部环境影响，导致通常使用的机器学习算法识别精度偏低。因此，基于深度学习的手势识别成为热门研究领域[7]。

1 视觉手势识别与流程

手势识别基本流程如图1所示。

首先，通过摄像头捕获图像信息流，之后进行预处理，如过滤噪声数据（手势检索和分割）;然后输入识别系统，针对手势特征运用深度学习进行特征提取;最后通过训练完成分类算法以及系统定义的人工语法进行识别输出[8]。

静态手势和动态手势的特征提取和分析过程不一样，静态手势只需通过各种方法对图像进行判断，动态手势是一个变化过程，是一段时间内的动作集合，因此系统需要定义动态手势的开始和结束时间戳。动态手势通过一些手段能够成为静态手势 [9]。

针对视觉的手势识别重点在于图像处理，手势的特征提取直接影响最终的识别结果（本文提及的手势识别即针对视觉的手势识别）[10]。传统的针对视觉的手势识别包含多种算法，如何提高手势识别的一致性和鲁棒性一直是研究重点[11]。

2 相关技术及发展

通过神经网络对手势进行识别研究较多，但由于手势轨迹的维数较大导致神经网络节点较多，从而使整个网络复杂计算量增大[12]。研究发现通过深度学习算法限制玻尔兹曼机对手势轨迹进行特征提取，进而使用神经网络进行训练识别，比单纯使用神经网络算法识别率要高。

深度学习作为一种新型的机器学习算法被广泛研究，有很多深度学习模型，如自动编码器、去噪声自动编码器、卷积神经网络、深度信念网和限制玻尔兹曼机等[13]。在ASL数据集中，不管是训练集还是测试集，普通手势识别算法准确性都不及深度学习算法。因为深度模型能够有效利用多层网络，通过层层抽象的方式深度提取输入数据的深层特征[14]。

本文首先通过深度学习算法对手势轨迹进行特征提取，然后对处理后的轨迹应用分类算法（如分类器softmax）进行识别[15]。

详细流程如下：①通过Kinect采集深度图像，如MNIST、ASL数据集，可压缩，可加密、输入;②对图像进行预处理，例如噪音过滤等（手势检索与分割）;③通过深度学习算法对传入的手势数据进行高价值特征提取，数据特征可用向量等表示;④通过对样本训练获得分类器，然后通过分类器对提取后的高价值特征数据进行分类识别[16];⑤输出（按要求描述相应手势，通过相应的描述驱动对应程序）。

2.1 特征提取——深度学习

特征在手势识别建模过程中起着十分重要的作用[17]。人手特征分为基于图像外观的特征和基于人手模型的特征[18]。基于图像外观特征简单易操作，基于人手模型特征可以识别更复杂的人手动作，但要求是深度图像，最终算法的准确性由特征良好性决定[19]。手工选择需要专业知识和大量时间进行调整，十分困难，完全凭借运气和经验[20]。深度学习是机器学习的新领域，深度学习构建的模型具有多层结构，原样本空间经过对海量数据的训练逐层转换为一个新的特征空间，从而能学习出更有用的特征。这类似于人类从原始信号的低级抽象，逐渐往高级抽象迭代，并且在高级抽象层执行终极分类或预测，获取高的准确性 [21]。

2.1.1 深度学习基本思想

2.1.2 深度学习训练过程

（1）采用自下而上的无监督学习。①逐层构建单层神经元;②使用wake-sleep算法对每一层进行调整，一次仅调整一层，逐层调整。这个过程可看作是一个特征学习过程，这是与传统神经网络相比最大的不同[22]。

（2）自顶向下的监督学习。将学习获取的每层参数作为第一步，在顶部编码层添加如Logistic回歸、SVM等分类器，然后通过对已标记数据的监督学习，使用梯度下降法微调网络参数[23]。

2.1.3 深度学习模型与方法

推荐访问: 手势深度识别研究学习