mediapipe单人动捕驱动unity“火柴人”

这篇具有很好参考价值的文章主要介绍了mediapipe单人动捕驱动unity“火柴人”。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考自基于mediapipe的动作捕捉和Unity的球棍模型同步_unity 动作捕捉_maxindemaxinde的博客-CSDN博客

在这篇博客中,作者标明了

资源下载:
链接:https://pan.baidu.com/s/1XBBWV1wCxyW0FyRTOtorkw?pwd=sbyq
提取码:sbyq
参考:https://www.youtube.com/watch?v=BtMs0ysTdkM

目录

一.技术介绍(mediapipe介绍)

2.应用mediapipe进行动捕

2.1 运行环境

2.2 python代码

3.Unity端

3.结果展示


一.技术介绍(mediapipe介绍)

MediaPipe 是一款由 Google Research 开发并开源的多媒体机器学习模型应用框架。在谷歌,一系列重要产品,如 YouTube、Google Lens、ARCore、Google Home 以及 Nest,都已深度整合了 MediaPipe。

作为一款跨平台框架,MediaPipe 不仅可以被部署在服务器端,更可以在多个移动端 (安卓和苹果 iOS)和嵌入式平台(Google Coral 和树莓派)中作为设备端机器学习推理 (On-device Machine Learning Inference)框架。

一款多媒体机器学习应用的成败除了依赖于模型本身的好坏,还取决于设备资源的有效调配、多个输入流之间的高效同步、跨平台部署上的便捷程度、以及应用搭建的快速与否。

基于这些需求,谷歌开发并开源了 MediaPipe 项目。除了上述的特性,MediaPipe 还支持 TensorFlow 和 TF Lite 的推理引擎(Inference Engine),任何 TensorFlow 和 TF Lite 的模型都可以在 MediaPipe 上使用。同时,在移动端和嵌入式平台,MediaPipe 也支持设备本身的 GPU 加速。

MediaPipe 的核心框架由 C++ 实现,并提供 Java 以及 Objective C 等语言的支持。MediaPipe 的主要概念包括数据包(Packet)、数据流(Stream)、计算单元(Calculator)、图(Graph)以及子图(Subgraph)。数据包是最基础的数据单位,一个数据包代表了在某一特定时间节点的数据,例如一帧图像或一小段音频信号;数据流是由按时间顺序升序排列的多个数据包组成,一个数据流的某一特定时间戳(Timestamp)只允许至多一个数据包的存在;而数据流则是在多个计算单元构成的图中流动。MediaPipe 的图是有向的——数据包从数据源(Source Calculator或者 Graph Input Stream)流入图直至在汇聚结点(Sink Calculator 或者 Graph Output Stream) 离开。

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉 

MediaPipe Pose是用于高保真人体姿势跟踪的ML解决方案,利用BlazePose研究成果,还从ML Kit Pose Detection API中获得了RGB视频帧的整个33个3D标志(或25个上身标志)。在主要依靠强大的桌面环境进行推理的时代, MediaPipe Pose的方法就可在大多数现代手机,甚至是Web上实现实时性能。

这个解决方案使用了两个步骤的检测器-跟踪器机器学习管线。首先,管道使用检测器来定位图像帧中感兴趣的人/姿势区域(ROI)。然后,跟踪器使用ROI裁剪的帧作为输入来预测ROI中的姿势标记。需要注意的是,在处理视频时,只有在需要时(例如第一帧)或跟踪器无法识别前一帧中的人体姿势时,才会调用检测器。对于其他帧,管道仅利用前一帧的姿势标记来确定ROI。

这个检测器的设计灵感来源于轻量级模型,该模型作为一个代理被用来预测另外两个虚拟关键点。这些关键点被用来描述人体的中心点、旋转和缩放,以形成一个圆。我们预测人的臀部中点、围绕整个人的圆的半径以及连接肩部和臀部中点的直线的倾斜角度。

管道中的姿势估计组件预测了所有33个人体关键点的位置。每个关键点有四个自由度,包括x、y、z位置和可见性,以及之前提到的两个虚拟对齐关键点。与目前使用计算密集型预测方法不同,mediapipe模型使用回归方法进行监督训练,通过组合热图和偏移量来预测所有关键点的位置。

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉

MediaPipe Pose中的地标模型有两个版本:可以预测33个姿势地标位置的全身模型,以及仅预测前25个姿势的上身模型。后者可能比前25个更为准确。前者主要用于下半身不可见的场景。

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉

 Mediapipe的强大的推理能力,轻量易部署都是我选择它的原因,但我选择它的原因不止于此。我使用mediapipe还有一个重要原因:在mediapipe的这个谷歌开源项目上,有不少组件可供后续使用。在这些组件的帮助下,我们能够较为简易地实现面部表情捕捉、手部捕捉等等功能。这将为后续的游戏开发完善过程节省很多时间。

2.应用mediapipe进行动捕

2.1 运行环境

python3.9 安装mediapipe和opencv-python包
python和Unity通信使用socket
Unity2021.3

2.2 python代码

源码如下:

import cv2
import mediapipe as mp
import time


class poseDetector():
    def __init__(self, mode=False, upBody=False, smooth=True, detectionCon=0.5, trackCon=0.5):
        self.mode = mode
        self.upBody = upBody
        self.smooth = smooth
        self.detectionCon = detectionCon
        self.trackCon = trackCon

        self.mpDraw = mp.solutions.drawing_utils
        self.mpPose = mp.solutions.pose
        self.pose = self.mpPose.Pose(self.mode, self.upBody, self.smooth, False, True, # 这里的False 和True为默认
                                     self.detectionCon, self.trackCon)  # pose对象 1、是否检测静态图片,2、姿态模型的复杂度,3、结果看起来平滑(用于video有效),4、是否分割,5、减少抖动,6、检测阈值,7、跟踪阈值
        '''
        STATIC_IMAGE_MODE:如果设置为 false,该解决方案会将输入图像视为视频流。它将尝试在第一张图像中检测最突出的人,并在成功检测后进一步定位姿势地标。在随后的图像中,它只是简单地跟踪那些地标,而不会调用另一个检测,直到它失去跟踪,以减少计算和延迟。如果设置为 true,则人员检测会运行每个输入图像,非常适合处理一批静态的、可能不相关的图像。默认为false。
        MODEL_COMPLEXITY:姿势地标模型的复杂度:0、1 或 2。地标准确度和推理延迟通常随着模型复杂度的增加而增加。默认为 1。
        SMOOTH_LANDMARKS:如果设置为true,解决方案过滤不同的输入图像上的姿势地标以减少抖动,但如果static_image_mode也设置为true则忽略。默认为true。
        UPPER_BODY_ONLY:是要追踪33个地标的全部姿势地标还是只有25个上半身的姿势地标。
        ENABLE_SEGMENTATION:如果设置为 true,除了姿势地标之外,该解决方案还会生成分割掩码。默认为false。
        SMOOTH_SEGMENTATION:如果设置为true,解决方案过滤不同的输入图像上的分割掩码以减少抖动,但如果 enable_segmentation设置为false或者static_image_mode设置为true则忽略。默认为true。
        MIN_DETECTION_CONFIDENCE:来自人员检测模型的最小置信值 ([0.0, 1.0]),用于将检测视为成功。默认为 0.5。
        MIN_TRACKING_CONFIDENCE:来自地标跟踪模型的最小置信值 ([0.0, 1.0]),用于将被视为成功跟踪的姿势地标,否则将在下一个输入图像上自动调用人物检测。将其设置为更高的值可以提高解决方案的稳健性,但代价是更高的延迟。如果 static_image_mode 为 true,则忽略,人员检测在每个图像上运行。默认为 0.5。
        '''
    def findPose(self, img, draw=True):
        imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # 将BGR格式转换成灰度图片
        self.results = self.pose.process(imgRGB)  # 处理 RGB 图像并返回检测到的最突出人物的姿势特征点。
        if self.results.pose_landmarks:
            if draw:
                self.mpDraw.draw_landmarks(img, self.results.pose_landmarks, self.mpPose.POSE_CONNECTIONS)
                # results.pose_landmarks画点 mpPose.POSE_CONNECTIONS连线
        return img


    def findPosition(self, img, draw = True):
    #print(results.pose_landmarks)
        lmList = []
        if self.results.pose_landmarks:
            for id, lm in enumerate(self.results.pose_landmarks.landmark):  # enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标
                h, w, c = img.shape  # 返回图片的(高,宽,位深)

                cx, cy, cz = int(lm.x * w), int(lm.y * h), int(lm.z * w)  # lm.x  lm.y是比例  乘上总长度就是像素点位置
                lmList.append([id, cx, cy, cz])
                if draw:
                    cv2.circle(img, (cx, cy), 5, (255, 0, 0), cv2.FILLED)  # 画蓝色圆圈
        return lmList


def main():
    # cap = cv2.VideoCapture(0)  # 调用电脑摄像头
    # cap = cv2.VideoCapture('video/2.mp4')  # 视频
    # cap = cv2.VideoCapture('video/3.png')
    cap = cv2.VideoCapture('video/ASOUL.mp4')
    pTime = 0

    detector = poseDetector()
    while True:
        success, img = cap.read()  # 第一个参数代表有没有读取到图片True/False 第二个参数frame表示截取到一帧的图片  读进来直接是BGR 格式数据格式
        img = detector.findPose(img)
        lmList = detector.findPosition(img)
        if len(lmList) != 0:
            print(lmList)  # print(lmList[n]) 可以打印第n个
        # 计算帧率
        cTime = time.time()
        fps = 1 / (cTime - pTime)
        pTime = cTime

        cv2.putText(img, str(int(fps)), (70, 50), cv2.FONT_HERSHEY_PLAIN, 3,
                    (255, 0, 0), 3)  # 图片上添加文字  参数:图片 要添加的文字 文字添加到图片上的位置 字体的类型 字体大小 字体颜色 字体粗细

        cv2.imshow("Image", img)  # 显示图片

        cv2.waitKey(3)  # 等待按键


if __name__ == "__main__":
    main()

当然,我们驱动unity中的东西我们是需要把这些结果发送到unity上的。基于此有两种手段,一种是写入一个文件中然后unity读取文件,另一种是直接通过端口实时传输。我们这里做体感游戏,选择实时传输。做动画的可以试试读取视频变成文件,然后unity读取文件。

于是代码:


import cv2
import time
import PoseModule as pm
import socket

pTime = 0

def computeFPS():
    global  pTime
    cTime = time.time()
    fps = 1 / (cTime - pTime)
    pTime = cTime
    cv2.putText(img, str(int(fps)), (70, 50), cv2.FONT_HERSHEY_PLAIN, 3,
                (255, 0, 0), 3)  # 图片上添加文字  参数:图片 要添加的文字 文字添加到图片上的位置 字体的类型 字体大小 字体颜色 字体粗细


# cap = cv2.VideoCapture(0)  # 调用电脑摄像头
cap = cv2.VideoCapture('video/2.mp4')  # 视频


# 构建一个实例,去连接服务端的监听端口。
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
client.connect(('127.0.0.1', 1234))
#  msg=client.recv(1024)
#  print('New message from server: %s' % msg.decode('utf-8'))

detector = pm.poseDetector()
strdata = ""  # 定义字符串变量
while True:
    success, img = cap.read()  # 第一个参数代表有没有读取到图片True/False 第二个参数frame表示截取到一帧的图片  读进来直接是BGR 格式数据格式
    img = detector.findPose(img)
    lmList = detector.findPosition(img)
    # if len(lmList) != 0:
    #     print(lmList)
    if len(lmList) != 0:
        for data in lmList:
            print(data)  # print(lmList[n]) 可以打印第n个
            for i in range(1, 4):
                if i == 2:
                    strdata = strdata + str(img.shape[0] - data[i]) + ','
                else:
                    strdata = strdata + str(data[i]) + ','
        print(strdata)
        client.send(strdata.encode('utf-8'))
        strdata = ""

    computeFPS()  # 计算帧率
    cv2.imshow("Image", img)  # 显示图片

    cv2.waitKey(10)  # 等待按键

 把一帧图像的33个特征点的信息变成一个字符串,以 “,”隔开

通过socket构建一个客户端client,把包含特征点信息的字符串发送到unity的服务端

3.Unity端

为了适应mediapipe检测到的33个关键点,我们在unity中创建了33个小球,并对于这些小球进行编号,使其与特征点形成一对一的关系。

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉

 同时,为了能将小球连接成为“火柴人”,我们编写脚本创建柱体连接小球,让这些柱体连接对应的小球(特征点),代码如下:

using System.Collections;
using System.Collections.Generic;
using UnityEngine;

public class linecode : MonoBehaviour
{
    LineRenderer lineRenderer;
    public Transform oringin;
    public Transform destination;

    // Start is called before the first frame update
    void Start()
    {
        lineRenderer = GetComponent<LineRenderer>();
        lineRenderer.startWidth = 0.1f;
        lineRenderer.endWidth = 0.1f;


    }

    // Update is called once per frame
    void Update()
    {
        lineRenderer.SetPosition(0, oringin.position);
        lineRenderer.SetPosition(1, destination.position);
    }
}

最后,接收数据,33个特征点对应33个unity中的小球,监听端口,将端口传来的字符串消息分解,遍历到每一个小球身上。代码如下:

using System;
using System.Collections;
using System.Collections.Generic;
using System.Net;
using System.Net.Sockets;
using System.Text;
using System.Threading;
using UnityEngine;



public class Server : MonoBehaviour
{
    //public GameObject leftshoulder;
    public GameObject[] Body;
    private static int myProt = 9999;   //端口  
    static Socket serverSocket;
    Thread myThread;
    string str;
    Dictionary<string, Thread> threadDic = new Dictionary<string, Thread>();//存储线程,程序结束后关闭线程
    private void Start()
    {
        //服务器IP地址  ,127.0.0.1 为本机IP地址
        IPAddress ip = IPAddress.Parse("127.0.0.1");
        //IPAddress ip = IPAddress.Any; //本机地址
        Debug.Log(ip.ToString());
        serverSocket = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp);

        IPEndPoint iPEndPoint = new IPEndPoint(ip, myProt);
        //serverSocket.Bind(new IPEndPoint(ip, myProt));  //绑定IP地址:端口  
        serverSocket.Bind(iPEndPoint);  //绑定IP地址:端口  
        serverSocket.Listen(10);    //最多10个连接请求  
                                    //Console.WriteLine("creat service {0} success",
                                    //    serverSocket.LocalEndPoint.ToString());

        myThread = new Thread(ListenClientConnect);
        myThread.Start();
        //Console.ReadLine();
        Debug.Log("服务器启动...........");
    }

    public void Update()
    {
        if (str != null)
        {
            Debug.Log(str);//接受的数据
            string[] points = str.Split(',');
            Debug.Log(points.Length);




            for (int i = 0; i <= 32; i++)
            {
                float x = float.Parse(points[0 + (i * 3)]) / 100;
                float y = float.Parse(points[1 + (i * 3)]) / 100;
                float z = float.Parse(points[2 + (i * 3)]) / 300;
                Body[i].transform.localPosition = new Vector3(x, y, z);
            }
        }

    }

    // 监听客户端是否连接  
    private void ListenClientConnect()
    {
        while (true)
        {
            Socket clientSocket = serverSocket.Accept(); //1.创建一个Socket 接收客户端发来的请求信息 没有消息时堵塞
            clientSocket.Send(Encoding.ASCII.GetBytes("Server Say Hello")); //2.向客户端发送 连接成功 消息
            Thread receiveThread = new Thread(ReceiveMessage); //3.为已经连接的客户端创建一个线程 此线程用来处理客户端发送的消息
            receiveThread.Start(clientSocket); //4.开启线程
            //添加到字典中
            string clientIp = ((IPEndPoint)clientSocket.RemoteEndPoint).Address.ToString();
            //Debug.Log( clientSocket.LocalEndPoint.ToString()); //获取ip:端口号
            if (!threadDic.ContainsKey(clientIp))
            {
                threadDic.Add(clientIp, receiveThread);
            }
        }
    }



    private byte[] result = new byte[1024]; //1.存入的byte值 最大数量1024
    //开启线程接收数据 (将Socket作为值传入)
    private void ReceiveMessage(object clientSocket)
    {
        Socket myClientSocket = (Socket)clientSocket; //2.转换传入的客户端Socket
        while (true)
        {
            try
            {
                //接收数据  
                int receiveNumber = myClientSocket.Receive(result); //3.将客户端得到的byte值写入
                //Debug.Log(receiveNumber);//子节数量
                if (receiveNumber > 0)
                {
                    str = Encoding.UTF8.GetString(result, 0, receiveNumber);//将接受的数据存到str变量中
                    // Debug.Log(str);

                }
                else
                {
                    Debug.Log("client: " + ((IPEndPoint)myClientSocket.RemoteEndPoint).Address.ToString() + "断开连接");
                    threadDic[((IPEndPoint)myClientSocket.RemoteEndPoint).Address.ToString()].Abort(); //清除线程
                }
            }
            catch (Exception ex)
            {
                //myClientSocket.Shutdown(SocketShutdown.Both); //出现错误 关闭Socket
                Debug.Log(" 错误信息" + ex); //打印错误信息
                break;
            }
        }
    }

    void OnApplicationQuit()
    {
        //结束线程必须关闭 否则下次开启会出现错误 (如果出现的话 只能重启unity了)
        myThread.Abort();

        //关闭开启的线程
        foreach (string item in threadDic.Keys)
        {
            Debug.Log(item);//de.Key对应于key/value键值对key
            //item.Value.GetType()
            threadDic[item].Abort();
        }
    }

}

3.结果展示

mediapipe unity,计算机视觉,动作捕捉-体感游戏,unity,游戏引擎,实时互动,计算机视觉

 文章来源地址https://www.toymoban.com/news/detail-736430.html

到了这里,关于mediapipe单人动捕驱动unity“火柴人”的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Unity编程之简易计算机

    效果如下 实现计算器的主要思路: 将(点击按键)输入的式子 存储 起来并 计算 。 计算式子 输入:式子的字符串 输出:计算结果 这是一个经典的队列数据结构应用的问题,具体的解法无需赘述(网络上有很多资源) 核心思想:用两个队列分别维护数字和运算符,对于不

    2024年02月01日
    浏览(38)
  • 学习unity需要的计算机配置及预算(更新)

    unity对电脑的配置要求还是比较高的 ,这类处理图形界面的东西都是需要消耗一些计算机资源的,但Unity的建模、蒙皮、渲染、加特效等操作是比较吃电脑配置的,所以需要的配置也相对好一些。 如果你在家使用的话建议用台式机性价比高一些,如果你用笔记本的话可以选择

    2024年02月04日
    浏览(37)
  • (五·二)计算机图形学 之 Unity代码调用Shader并修改属性值

    直接划重点: 在C#代码中,要先引用材质球(Material),然后通过材质球提供的方法比如: 我这里使用material.SetColor(\\\"_Color\\\", Color.red); 结构是SetColor(shader属性名称,属性值设置); _Color是在shader中,Properties{}里定义好的属性,名称要一直,然后就是给他赋值。 Shader代码: C#代码

    2024年02月15日
    浏览(39)
  • Mediapipe手势识别,并与unity通信

    Mediapipe是goole的一个开源项目,支持跨平台的常用ML方案,详情请戳下面链接 MediaPipe Mediapipe底层封装了手势识别的具体实现内容,而在Python中搭建完环境后经过很简单的调用就能够实现手势识别 环境如下: pip install mediapipe pip install opencv-python 简单的实现,代码很少,代码如

    2024年02月11日
    浏览(39)
  • VS2022Debug 附加Unity程序遇见的问题(由于目标计算机积极拒绝,无法连接)

    今天突然想到用debug来调试一下unity,看一下我的东西,于是在vs的调试栏找到当初下载的Unity的Vs工具,如果不知道是否下载过这个工具可以在工具栏的第一项 获取工具与功能 中查看。 然后就选择当前存在的已经打开的unity项目。 如图: 根据项目名选择就好 但是确定之后出

    2024年02月12日
    浏览(44)
  • Mediapipe+OpenCV与Unity引擎实现动作捕捉

    之前写了一篇文章: Mediapipe+OpenCV图像识别技术与Unity引擎的结合 其中的技术是 Python 利用 OpenCV 图像捕捉,配合强大的 Mediapipe 库来实现 人体动作检测 与识别;将识别结果实时同步至 Unity 中,实现人物模型在Unity中运动身体结构识别 因为之前的人物动作捕捉是先通过 Python

    2024年02月03日
    浏览(50)
  • 基于Mediapipe的姿势识别并同步到Unity人体模型中

    如题,由于是商业项目,无法公开源码,这里主要说一下实现此功能的思路。 人体关节点识别 基于Mediapipe Unity插件进行开发,性能比较低的CPU主机,无法流畅地运行Mediapipe,这个要注意一下。 Mediapipe33个人体关节点图如下: Mediapipe关节点映射到Unity人体骨骼 这是开发此功能

    2024年02月11日
    浏览(59)
  • 打工人逃不开「单人单岗」

    「 闲 」到停不下来,「 忙 」到无事可做! 01 年后开始,研发团队一直「 单人单岗 」; 为什么 ? 就是所谓的追求降本,无非裁员的手段,最终的目的就是让团队的人员结构简化到极致; 虽然符合公司预期,但是与打工人的预期强烈不符; 然而, 这不重要 ; 打工人的难

    2023年04月26日
    浏览(32)
  • Java王者荣耀火柴人

    主要功能 键盘W,A,S,D键:控制玩家上下左右移动。按钮一:控制英雄发射一个矩形攻击红方小兵。按钮控制英雄发射魅惑技能,伤害小兵并让小兵停止移动。技能三:攻击多个敌人并让小兵停止移动。普攻:对小兵造成基础伤害。小兵每隔一段时间自动生成,在王者峡谷下路

    2024年02月05日
    浏览(43)
  • 抢火柴游戏

    一个游戏,规则如下: 一共30根火柴,由甲乙两依次取火柴,每次至少取一根,最多取两根,谁抢到最后一根就胜出。 设计一个机器和人玩的游戏。 策略:要抢到30,必须先抢到27,要抢到27,必须先抢到24,要抢到24 ,必须先抢到21,因此谁能拿到3的倍数谁赢。 就本题而言

    2024年02月13日
    浏览(21)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包