YOLOv8训练自己的数据集(超详细)

这篇具有很好参考价值的文章主要介绍了YOLOv8训练自己的数据集(超详细)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、准备深度学习环境

本人的笔记本电脑系统是：Windows10
YOLO系列最新版本的YOLOv8已经发布了，详细介绍可以参考我前面写的博客，目前ultralytics已经发布了部分代码以及说明，可以在github上下载YOLOv8代码，代码文件夹中会有requirements.txt文件，里面描述了所需要的安装包。

本文最终安装的pytorch版本是1.8.1，torchvision版本是0.9.1，python是3.7.10，其他的依赖库按照requirements.txt文件安装即可。

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

然后还需要安装ultralytics，目前YOLOv8核心代码都封装在这个依赖包里面，可通过以下命令安装

pip install ultralytics

二、准备自己的数据集

本人在训练YOLOv8时，选择的数据格式是VOC，因此下面将介绍如何将自己的数据集转换成可以直接让YOLOv8进行使用。

1、创建数据集

我的数据集都在保存在mydata文件夹（名字可以自定义），目录结构如下，将之前labelImg标注好的xml文件和图片放到对应目录下
mydata
…images # 存放图片
…xml # 存放图片对应的xml文件
…dataSet #之后会在Main文件夹内自动生成train.txt，val.txt，test.txt和trainval.txt四个文件，存放训练集、验证集、测试集图片的名字（无后缀.jpg）
示例如下：
mydata文件夹下内容如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

image为VOC数据集格式中的JPEGImages，内容如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

xml文件夹下面为.xml文件（标注工具采用labelImage），内容如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

dataSet 文件夹下面存放训练集、验证集、测试集的划分，通过脚本生成，可以创建一个split_train_val.py文件，代码内容如下：

# coding:utf-8

import os
import random
import argparse

parser = argparse.ArgumentParser()
# xml文件的地址，根据自己的数据进行修改 xml一般存放在Annotations下
parser.add_argument('--xml_path', default='xml', type=str, help='input xml label path')
# 数据集的划分，地址选择自己数据下的ImageSets/Main
parser.add_argument('--txt_path', default='dataSet', type=str, help='output txt label path')
opt = parser.parse_args()

trainval_percent = 1.0
train_percent = 0.9
xmlfilepath = opt.xml_path
txtsavepath = opt.txt_path
total_xml = os.listdir(xmlfilepath)
if not os.path.exists(txtsavepath):
    os.makedirs(txtsavepath)

num = len(total_xml)
list_index = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list_index, tv)
train = random.sample(trainval, tr)

file_trainval = open(txtsavepath + '/trainval.txt', 'w')
file_test = open(txtsavepath + '/test.txt', 'w')
file_train = open(txtsavepath + '/train.txt', 'w')
file_val = open(txtsavepath + '/val.txt', 'w')

for i in list_index:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        file_trainval.write(name)
        if i in train:
            file_train.write(name)
        else:
            file_val.write(name)
    else:
        file_test.write(name)

file_trainval.close()
file_train.close()
file_val.close()
file_test.close()

运行代码后，在dataSet 文件夹下生成下面四个txt文档：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

三个txt文件里面的内容如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

2、转换数据格式

接下来准备labels，把数据集格式转换成yolo_txt格式，即将每个xml标注提取bbox信息为txt格式，每个图像对应一个txt文件，文件每一行为一个目标的信息，包括class, x_center, y_center, width, height格式。格式如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

创建voc_label.py文件，将训练集、验证集、测试集生成label标签（训练中要用到），同时将数据集路径导入txt文件中，代码内容如下：

# -*- coding: utf-8 -*-
import xml.etree.ElementTree as ET
import os
from os import getcwd

sets = ['train', 'val', 'test']
classes = ["a", "b"]   # 改成自己的类别
abs_path = os.getcwd()
print(abs_path)

def convert(size, box):
    dw = 1. / (size[0])
    dh = 1. / (size[1])
    x = (box[0] + box[1]) / 2.0 - 1
    y = (box[2] + box[3]) / 2.0 - 1
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return x, y, w, h

def convert_annotation(image_id):
    in_file = open('data/mydata/xml/%s.xml' % (image_id), encoding='UTF-8')
    out_file = open('data/mydata/labels/%s.txt' % (image_id), 'w')
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
    for obj in root.iter('object'):
        # difficult = obj.find('difficult').text
        difficult = obj.find('Difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        b1, b2, b3, b4 = b
        # 标注越界修正
        if b2 > w:
            b2 = w
        if b4 > h:
            b4 = h
        b = (b1, b2, b3, b4)
        bb = convert((w, h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

wd = getcwd()
for image_set in sets:
    if not os.path.exists('data/mydata/labels/'):
        os.makedirs('data/mydata/labels/')
    image_ids = open('data/mydata/dataSet/%s.txt' % (image_set)).read().strip().split()
    list_file = open('paper_data/%s.txt' % (image_set), 'w')
    for image_id in image_ids:
        list_file.write(abs_path + '/mydata/images/%s.jpg\n' % (image_id))
        convert_annotation(image_id)
    list_file.close()

3、配置文件

1）数据集的配置
在mydata文件夹下新建一个mydata.yaml文件（可以自定义命名），用来存放训练集和验证集的划分文件（train.txt和val.txt），这两个文件是通过运行voc_label.py代码生成的，然后是目标的类别数目和具体类别列表，mydata.yaml内容如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

2) 选择一个你需要的模型
在ultralytics/models/v8/目录下是模型的配置文件，这边提供s、m、l、x版本，逐渐增大（随着架构的增大，训练时间也是逐渐增大），假设采用yolov8x.yaml，只用修改一个参数，把nc改成自己的类别数,需要取整（可选）如下：

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

至此，自定义数据集已创建完毕，接下来就是训练模型了。

三、模型训练

1、下载预训练模型

在YOLOv8的GitHub开源网址上下载对应版本的模型

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络

2、训练

接下来就可以开始训练模型了，命令如下：

yolo task=detect mode=train model=yolov8x.yaml data=mydata.yaml epochs=1000 batch=16

以上参数解释如下：

task：选择任务类型，可选['detect', 'segment', 'classify', 'init']

mode: 选择是训练、验证还是预测的任务蕾西可选['train', 'val', 'predict']

model: 选择yolov8不同的模型配置文件，可选yolov8s.yaml、yolov8m.yaml、yolov8l.yaml、yolov8x.yaml

data: 选择生成的数据集配置文件

epochs：指的就是训练过程中整个数据集将被迭代多少次,显卡不行你就调小点。
batch：一次看完多少张图片才进行权重更新，梯度下降的mini-batch,显卡不行你就调小点。

训练过程如下所示

yolov8训练自己的数据集,YOLO系列实战教程,深度学习,目标检测,计算机视觉,人工智能,神经网络文章来源地址https://www.toymoban.com/news/detail-777811.html

到了这里，关于YOLOv8训练自己的数据集(超详细)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

YOLOv8训练自己的数据集(超详细)

一、准备深度学习环境

二、准备自己的数据集

1、创建数据集

2、转换数据格式

3、配置文件

三、模型训练

1、下载预训练模型

2、训练

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

YOLOv8训练自己的数据集(超详细)

一、准备深度学习环境

二、 准备自己的数据集

1、创建数据集

2、转换数据格式

3、配置文件

三、模型训练

1、下载预训练模型

2、训练

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

二、准备自己的数据集