深度学习-Pytorch数据集构造和分批加载-Toy模板网

这篇具有很好参考价值的文章主要介绍了深度学习-Pytorch数据集构造和分批加载。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

深度学习-Pytorch数据集构造和分批加载

pytorch 目前在深度学习具有重要的地位，比起早先的caffe，tensorflow，keras越来越受到欢迎，其他的深度学习框架越来越显得小众。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

经典算法

经典算法-遗传算法的python实现

经典算法-模拟退火算法的python实现

经典算法-粒子群算法的python实现-CSDN博客

LLM应用

大模型查询工具助手之股票免费查询接口

Python技巧-终端屏幕打印光标和文字控制

导入模块

import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

pytorch 有两个处理数据的核心模块，torch.utils.data.DataLoader 和 torch.utils.data.Dataset 。

数据集 Dataset 存储样本和对应的标签，而DataLoader 则按设定数据包的大小把数据集迭代进行打包。

构造数据集

针对文本，视觉和音频数据，Pytorch还提供特定数据的模块，例如 TorchText, TorchVision, and TorchAudio, 包括样例数据集。为了方便起见，在此使用视觉数据集举例。

torchvision.datasets 模块的Dataset对象，就包含真实世界的很多图像数据，比如CIFAR, COCO。而常用举例的数据包括MNIST手写体，FashionMNIST 等等。

对于每个图像数据集而言，很关键的是有两个参数，方便大家使用，达到事半功倍的效果。它们是

transform 和 target_transform，提供原始的图像数据转化功能，例如转为tensor 的函数ToTensor：

# Download training data from open datasets.
training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
)

# Download test data from open datasets.
test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor(),
)

分批加载数据

深度学习训练数据集都很大，几乎不可能把所有数据一次加载进行训练，通常需要分批次进行加载。pytorch封装数据加载函数，把数据集作为参数，调用DataLoader函数。要把数据打包，一次次分批返回数据包。函数支持自动分批次，抽样，随机打乱，多次加载等功能。下面定义每批数据共有64个样本：

batch_size = 64

# Create data loaders.
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

for X, y in test_dataloader:
    print(f"Shape of X [N, C, H, W]: {X.shape}")
    print(f"Shape of y: {y.shape} {y.dtype}")
    break