一、课程基础

具体代码见Python>pytorch文件中的==basic_lesson.ipynb==文件

两个有用的python函数：dir( )、help( )

import torch
torch.cuda.is_available()

输出 True 即表明 cuda 可用

二、加载数据

具体代码见Python>pytorch文件中的 ==load_data.ipynb== 文件

Dataset：数据集（含数据+label）
Dataloader：加载器（设定每次获取数据的batch_size、shuffle等）

1. Dataset

from torch.utils.data import Dataset
import os
自己设置一个子类继承Dataset类，要能读取数据

class MyData(Dataset):
&nbsp; &nbsp; '''
&nbsp; &nbsp; 创建自己的数据集读取类
&nbsp; &nbsp; '''
&nbsp; &nbsp; def __init__(self, root_dir, label_dir): # 定义类里面的全局变量，观察到labels就是文件夹的名称
&nbsp; &nbsp; &nbsp; &nbsp; self.root_dir = root_dir # 根目录，这里是训练集的文件夹路径
&nbsp; &nbsp; &nbsp; &nbsp; self.label_dir = label_dir # 数据集所在文件夹名字，这里是标签名
&nbsp; &nbsp; &nbsp; &nbsp; self.path = os.path.join(self.root_dir, self.label_dir) # 获取图片所在文件，这里文件名就是标签
&nbsp; &nbsp; &nbsp; &nbsp; self.image_path_list = os.listdir(self.path) # 获取所有图片的名字组成列表

&nbsp; &nbsp; def __getitem__(self, index): # 获取某一个图片，index为索引
&nbsp; &nbsp; &nbsp; &nbsp; image_name = self.image_path_list[index]
&nbsp; &nbsp; &nbsp; &nbsp; image_item_path = os.path.join(self.path, image_name)
&nbsp; &nbsp; &nbsp; &nbsp; image = Image.open(image_item_path)
&nbsp; &nbsp; &nbsp; &nbsp; label = self.label_dir
&nbsp; &nbsp; &nbsp; &nbsp; return image, label

&nbsp; &nbsp; def __len__(self): # 返回数据集的长度
&nbsp; &nbsp; &nbsp; &nbsp; return len(self.image_path_list)

具体调试过程见代码文件

2. DataLoader

from torch.utils.data import DataLoader
数据加载器：指定了怎样从Dataset中取数据
参考官方文档：torch.utils.data — PyTorch 2.6 documentation
参数：
- dataset：要取数据的数据集
- batch_size：每次取的数据数量
- shuffle：顺序是否随机
- num_workers：多进程，=0为主进程
- drop_last：无法整除batch_size时是否舍去余项