基于计算机视觉的手势识别技术

这篇具有很好参考价值的文章主要介绍了基于计算机视觉的手势识别技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一个不知名大学生,江湖人称菜狗
original author: Jacky Li
Email : 3435673055@qq.com

Time of completion:2023.5.2
Last edited: 2023.5.2

基于计算机视觉的手势识别技术

手语是一种主要由听力困难或耳聋的人使用的交流方式。这种基于手势的语言可以让人们轻松地表达想法和想法,克服听力问题带来的障碍。

这种便捷的交流方式的一个主要问题是,全球绝大多数人缺乏语言知识。就像其他语言一样,学习手语需要花费大量时间和精力,这让人很沮丧,无法被更多的人学习。

然而,在机器学习和图像检测领域,这一问题的一个明显解决方案已经存在。实现预测模型技术来自动分类手语符号可以用于为Zoom会议等虚拟会议创建实时字幕。

这将大大增加听力障碍者获得此类服务的机会,因为它将与基于语音的字幕同步,为听力障碍者创建一个双向在线通信系统。


许多手语的大型训练数据集都可以在Kaggle上找到,Kaggle是一个流行的数据科学资源。该模型中使用的一个被称为“手语MNIST”,是一个公共领域,可免费使用的数据集,其中包含24个ASL字母中每一个的大约1000张图像的像素信息,不包括J和Z,因为它们是基于手势的符号。

Sign Language MNIST | KaggleDrop-In Replacement for MNIST for Hand Gesture Recognition Taskshttps://www.kaggle.com/datasets/datamunge/sign-language-mnist

基于计算机视觉的手势识别技术

准备用于训练的数据的第一步是将数据集中的所有像素数据转换并整形为图像,以便算法可以读取这些数据。

import matplotlib.pyplot as plt
import seaborn as sns
from keras.models import Sequential
from keras.layers import Dense, Conv2D , MaxPool2D , Flatten , Dropout , BatchNormalization
from keras.preprocessing.image import ImageDataGenerator
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report,confusion_matrix
import pandas as pd

train_df = pd.read_csv("sign_mnist_train.csv")
test_df = pd.read_csv("sign_mnist_test.csv")

y_train = train_df['label']
y_test = test_df['label']
del train_df['label']
del test_df['label']

from sklearn.preprocessing import LabelBinarizer
label_binarizer = LabelBinarizer()
y_train = label_binarizer.fit_transform(y_train)
y_test = label_binarizer.fit_transform(y_test)

x_train = train_df.values
x_test = test_df.values

x_train = x_train / 255
x_test = x_test / 255

x_train = x_train.reshape(-1,28,28,1)
x_test = x_test.reshape(-1,28,28,1)

上面的代码从重塑所有MNIST训练图像文件开始,以便模型理解输入文件。除此之外,LabelBinarizer变量获取数据集中的类并将它们转换为二进制,这一过程大大加快了模型的训练。

下一步是创建数据生成器,以随机实现对数据的更改,增加训练示例的数量,并通过向不同实例添加噪声和变换使图像更真实。

datagen = ImageDataGenerator(
        featurewise_center=False,
        samplewise_center=False, 
        featurewise_std_normalization=False,
        samplewise_std_normalization=False,
        zca_whitening=False,
        rotation_range=10,
        zoom_range = 0.1, 
        width_shift_range=0.1,
        height_shift_range=0.1,
        horizontal_flip=False,
        vertical_flip=False)

datagen.fit(x_train)

在处理图像之后,必须编译CNN模型以识别数据中使用的所有类别的信息,即24个不同的图像组。还必须将数据的标准化添加到数据中,以较少的图像平衡类。

model = Sequential()
model.add(Conv2D(75 , (3,3) , strides = 1 , padding = 'same' , activation = 'relu' , input_shape = (28,28,1)))
model.add(BatchNormalization())
model.add(MaxPool2D((2,2) , strides = 2 , padding = 'same'))
model.add(Conv2D(50 , (3,3) , strides = 1 , padding = 'same' , activation = 'relu'))
model.add(Dropout(0.2))
model.add(BatchNormalization())
model.add(MaxPool2D((2,2) , strides = 2 , padding = 'same'))
model.add(Conv2D(25 , (3,3) , strides = 1 , padding = 'same' , activation = 'relu'))
model.add(BatchNormalization())
model.add(MaxPool2D((2,2) , strides = 2 , padding = 'same'))
model.add(Flatten())
model.add(Dense(units = 512 , activation = 'relu'))
model.add(Dropout(0.3))
model.add(Dense(units = 24 , activation = 'softmax'))

请注意,通过添加变量(如Conv2D模型)初始化算法,并将其浓缩为24个特征。我们还使用批处理技术让CNN更有效地处理数据。

最后,定义损失函数和度量,并将模型与数据相匹配

model.compile(optimizer = 'adam' , loss = 'categorical_crossentropy' , metrics = ['accuracy'])
model.summary()

history = model.fit(datagen.flow(x_train,y_train, batch_size = 128) ,epochs = 20 , validation_data = (x_test, y_test))

model.save('smnist.h5')

这段代码有很多需要解包的地方。让我们分几节来看。

第1行:

model.compile函数接受许多参数,其中三个参数显示在代码中。优化器和损失参数与下一行中的epoch语句一起工作,通过逐步改变数据的计算方法,有效地减少模型中的错误量。

除此之外,要优化的度量标准是精度函数,它确保模型在设定的epoch数之后具有可达到的最大精度。

第4行:

这里运行的函数将设计的模型与第一位代码中开发的图像数据中的数据相匹配。它还定义了模型为提高图像检测的准确性所必须的时期或迭代次数。这里还调用了验证集,以向模型引入测试方面。该模型使用该数据计算精度。

第5行:

在代码位中的所有语句中,model.save函数可能是这段代码中最重要的部分,因为它可以在实现模型时节省数小时的时间。

基于计算机视觉的手势识别技术

开发的模型准确地检测和分类手语符号,训练准确率约为95%。


现在,使用两个流行的实时视频处理库,即Mediapipe和OpenCV,我们可以获取网络摄像头输入,并在实时视频流上运行我们之前开发的模型。

基于计算机视觉的手势识别技术

首先,我们需要导入程序所需的包。

import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 
import tensorflow as tf
import cv2
import mediapipe as mp
from keras.models import load_model
import numpy as np
import time

 

开始时运行的OS命令只会阻止Mediapipe使用的Tensorflow库发出不必要的警告。这使程序提供的未来输出更加清晰易懂。

在我们启动代码的主while循环之前,我们需要首先定义一些变量,例如保存的模型和OpenCV相机上的信息。

model = load_model('smnist.h5')

mphands = mp.solutions.hands
hands = mphands.Hands()
mp_drawing = mp.solutions.drawing_utils

cap = cv2.VideoCapture(0)
_, frame = cap.read()
h, w, c = frame.shape

analysisframe = ''
letterpred = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y']

这里设置的每个变量都分为四个类别之一。一开始的类别与我们在本文第一部分中训练的模型直接相关。

代码的第二和第三部分定义了运行和启动Mediapipe和OpenCV所需的变量。最终类别主要用于在检测到帧时分析帧,并创建用于图像模型提供的数据的交叉引用的字典。

该程序的下一部分是主while True循环,其中大部分程序都在该循环中运行。

while True:
    _, frame = cap.read()

    k = cv2.waitKey(1)
    if k%256 == 27:
        # ESC pressed
        print("Escape hit, closing...")
        break

    framergb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    result = hands.process(framergb)
    hand_landmarks = result.multi_hand_landmarks
    if hand_landmarks:
        for handLMs in hand_landmarks:
            x_max = 0
            y_max = 0
            x_min = w
            y_min = h
            for lm in handLMs.landmark:
                x, y = int(lm.x * w), int(lm.y * h)
                if x > x_max:
                    x_max = x
                if x < x_min:
                    x_min = x
                if y > y_max:
                    y_max = y
                if y < y_min:
                    y_min = y
            y_min -= 20
            y_max += 20
            x_min -= 20
            x_max += 20
            cv2.rectangle(frame, (x_min, y_min), (x_max, y_max), (0, 255, 0), 2)
            mp_drawing.draw_landmarks(frame, handLMs, mphands.HAND_CONNECTIONS)
    cv2.imshow("Frame", frame)

cap.release()
cv2.destroyAllWindows()

该程序的这一部分从你的相机获取输入,并使用我们导入的图像处理库将设备的输入显示到计算机。这部分代码专注于从相机获取一般信息,并在新窗口中简单地显示出来。然而,使用Mediapipe库,我们可以检测手的主要标志,如手指和手掌,并在手周围创建一个边界框。

基于计算机视觉的手势识别技术

边界框的概念是所有形式的图像分类和分析的关键组成部分。该框允许模型直接聚焦于功能所需的图像部分。如果没有这一点,算法会在错误的位置找到模式,并可能导致错误的结果。

例如,在训练过程中,缺少边界框可能会导致模型将诸如时钟或椅子等图像的特征与标签相关联。这可能会导致程序注意到图像中的时钟,并仅根据时钟存在的事实来决定显示什么手语字符。

基于计算机视觉的手势识别技术

快完成了!该程序的倒数第二部分是根据提示捕获单个帧,并将其裁剪到边界框的尺寸。

while True:
    _, frame = cap.read()
    
    k = cv2.waitKey(1)
    if k%256 == 27:
        # ESC pressed
        print("Escape hit, closing...")
        break
    elif k%256 == 32:
        # SPACE pressed
        # SPACE pressed
        analysisframe = frame
        showframe = analysisframe
        cv2.imshow("Frame", showframe)
        framergbanalysis = cv2.cvtColor(analysisframe, cv2.COLOR_BGR2RGB)
        resultanalysis = hands.process(framergbanalysis)
        hand_landmarksanalysis = resultanalysis.multi_hand_landmarks
        if hand_landmarksanalysis:
            for handLMsanalysis in hand_landmarksanalysis:
                x_max = 0
                y_max = 0
                x_min = w
                y_min = h
                for lmanalysis in handLMsanalysis.landmark:
                    x, y = int(lmanalysis.x * w), int(lmanalysis.y * h)
                    if x > x_max:
                        x_max = x
                    if x < x_min:
                        x_min = x
                    if y > y_max:
                        y_max = y
                    if y < y_min:
                        y_min = y
                y_min -= 20
                y_max += 20
                x_min -= 20
                x_max += 20 

        analysisframe = cv2.cvtColor(analysisframe, cv2.COLOR_BGR2GRAY)
        analysisframe = analysisframe[y_min:y_max, x_min:x_max]
        analysisframe = cv2.resize(analysisframe,(28,28))


        nlist = []
        rows,cols = analysisframe.shape
        for i in range(rows):
            for j in range(cols):
                k = analysisframe[i,j]
                nlist.append(k)
        
        datan = pd.DataFrame(nlist).T
        colname = []
        for val in range(784):
            colname.append(val)
        datan.columns = colname

        pixeldata = datan.values
        pixeldata = pixeldata / 255
        pixeldata = pixeldata.reshape(-1,28,28,1)

此代码看起来与程序的最后一部分非常相似。这主要是因为两个部分中涉及生成边界框的过程是相同的。

然而,在代码的这个分析部分,我们使用OpenCV中的图像重塑功能将图像调整到边界框的尺寸,而不是在其周围创建一个视觉对象。

此外,我们还使用NumPy和OpenCV修改图像,使其具有与模型所训练的图像相同的特征。

我们还使用panda使用保存的图像中的像素数据创建一个数据帧,因此我们可以用与创建模型相同的方式规范数据。

基于计算机视觉的手势识别技术

最后,我们需要在处理后的图像上运行训练后的模型,并处理信息输出。

prediction = model.predict(pixeldata)
predarray = np.array(prediction[0])
letter_prediction_dict = {letterpred[i]: predarray[i] for i in range(len(letterpred))}
predarrayordered = sorted(predarray, reverse=True)
high1 = predarrayordered[0]
high2 = predarrayordered[1]
high3 = predarrayordered[2]
for key,value in letter_prediction_dict.items():
    if value==high1:
        print("Predicted Character 1: ", key)
        print('Confidence 1: ', 100*value)
    elif value==high2:
        print("Predicted Character 2: ", key)
        print('Confidence 2: ', 100*value)
    elif value==high3:
        print("Predicted Character 3: ", key)
        print('Confidence 3: ', 100*value)
time.sleep(5)

 

在代码的这一部分中有很多信息。我们将逐一剖析这部分代码。

前两条线描绘了手部图像是Keras的任何不同类别的预测概率。数据以2个张量的形式呈现,其中第一个张量包含概率信息。张量本质上是特征向量的集合,非常类似于数组。该模型产生的张量是一维的,允许它与线性代数库NumPy一起使用,以将信息解析成更为Python的形式。

从这里开始,我们使用变量letterpred下先前创建的类列表来创建一个字典,将张量的值与关键字进行匹配。这允许我们将每个字符的概率与其对应的类进行匹配。

在这一步之后,我们使用列表生成式对值从最高到最低进行排序。这样,我们就可以获取列表中的前几项,并将它们指定为与所示手语图像最接近的3个字符。

最后,我们使用for循环循环遍历字典中的所有键:值对,以将最高值与其对应的键相匹配,并输出每个字符的概率。

基于计算机视觉的手势识别技术

基于计算机视觉的手势识别技术

如图所示,该模型准确地预测了从相机中显示的角色。除了预测特征,该程序还显示了CNN Keras模型分类的可信度。


所开发的模型可以以各种方式实现,主要用途是用于视频通话(如Facetime)的字幕设备。要创建这样的应用程序,模型必须逐帧运行,预测显示的符号。

该程序允许通过使用Keras图像分析模型,从手语到英语进行简单易行的交流。

作者有言

如果需要代码,请私聊博主,博主看见回。
如果感觉博主讲的对您有用,请点个关注支持一下吧,将会对此类问题持续更新……
文章来源地址https://www.toymoban.com/news/detail-440261.html

到了这里,关于基于计算机视觉的手势识别技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机毕设 深度学习手势识别 - yolo python opencv cnn 机器视觉

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月14日
    浏览(68)
  • 计算机竞赛 题目:基于深度学习的手势识别实现

    🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的手势识别实现 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/postgraduate 手势识别在深度学习项目是算是比较简单的。这里为了给大家会更好的训练。其中

    2024年02月07日
    浏览(65)
  • 图像分类与识别:计算机视觉的核心技术

    图像分类与识别是计算机视觉的核心技术之一,它涉及到将图像中的对象进行分类和识别,以便于人工智能系统对图像进行理解和处理。图像分类与识别的应用非常广泛,包括但不限于人脸识别、自动驾驶、垃圾扔入分类等。 图像分类与识别的历史发展可以分为以下几个阶段

    2024年03月23日
    浏览(43)
  • 计算机视觉设计如何应用于人脸识别技术?

           计算机视觉设计在人脸识别技术中起着重要的作用。它通过使用图像处理和模式识别技术,对人脸图像进行分析和比对,从而实现人脸的检测、定位和识别。下面是计算机视觉设计在人脸识别技术中的应用方法: 人脸检测:计算机视觉设计可以通过使用人脸检测算法

    2024年01月19日
    浏览(50)
  • 图像识别技术:计算机视觉的进化与应用展望

    导言: 图像识别技术是计算机视觉领域的重要研究方向,它使计算机能够理解和解释图像内容,从而实现自动化和智能化的图像处理。随着深度学习等技术的快速发展,图像识别在诸多领域取得了重大突破,如自动驾驶、医疗影像分析、智能安防等。本文将深入探讨图像识别

    2024年02月15日
    浏览(49)
  • 基于计算机视觉的学生上课姿态识别

    数据集 1.1  A VA 数据集介绍 AVA数据集为目前行为数据集中背景最复杂、人体目标最多的数据集,是由Google在2018年所发表的一个用于训练动作检测的数据集,该数据集注释430个15分钟电影切片中的80个原子视觉动作,在空间和时间上定位了动作,从而产生了1.62万个动作标签。这

    2024年02月02日
    浏览(57)
  • 基于计算机视觉的坑洼道路检测和识别

    本研究论文提出了一种使用深度学习和图像处理技术进行坑洼检测的新方法。所提出的系统利用VGG16模型进行特征提取,并利用具有三重损失的自定义Siamese网络,称为RoadScan。该系统旨在解决道路上的坑洼这一关键问题,这对道路使用者构成重大风险。由于道路上的坑洼造成

    2024年02月05日
    浏览(57)
  • 图像识别和计算机视觉:如何应用人工智能技术实现自动化检测和识别

      在数字化时代,图像数据成为了我们日常生活中不可或缺的一部分。然而,随着图像数据的急剧增加,传统的手动处理和分析方法已经无法满足我们的需求。这就引出了图像识别和计算机视觉技术的重要性。本文将介绍人工智能技术在图像识别和计算机视觉领域的应用,以

    2024年02月05日
    浏览(86)
  • 【计算机视觉】基于OpenCV计算机视觉的摄像头测距技术设计与实现

    在当今技术日益进步的时代,计算机视觉已成为我们生活中不可或缺的一部分。从智能监控到虚拟现实,计算机视觉技术的应用范围日益广泛。在这篇博客中,我们将探索一个特别实用的计算机视觉案例:使用OpenCV实现摄像头测距。这一技术不仅对专业人士有用,也为编程爱

    2024年02月04日
    浏览(54)
  • 计算机竞赛 基于机器视觉的停车位识别检测

    简介 你是不是经常在停车场周围转来转去寻找停车位。如果你的车辆能准确地告诉你最近的停车位在哪里,那是不是很爽?事实证明,基于深度学习和OpenCV解决这个问题相对容易,只需获取停车场的实时视频即可。 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

    2024年02月11日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包