Pytorch-3
Torchvision: 数据读取
Torchvision 是一个和 PyTorch 配合使用的 Python 包,包含很多图像处理的工具。
数据读取
PyTorch 为我们提供了一种十分方便的数据读取机制,即使用 Dataset 类与 DataLoader 类的组合,来得到数据迭代器。在训练或预测时,数据迭代器能够输出每一批次所需的数据,并且对数据进行相应的预处理与数据增强操作。
DataSet
PyTorch 中的 Dataset 类是一个抽象类,它可以用来表示数据集。我们通过继承 Dataset类来自定义数据集的格式、大小和其它属性,后面就可以供 DataLoader 类直接使用。其实这就表示,无论使用自定义的数据集,还是官方为我们封装好的数据集,其本质都是继承了 Dataset 类。而在继承 Dataset 类时,至少需要重写以下几个方法:
**__init__()**:构造函数,可自定义数据读取方法以及进行数据预处理;
**__len__()**:返回数据集大小;
**__getitem__()**:索引数据集中的某一个数据。
示例:
1 | import torch |
使用:
1 | # 生成数据 |
DataLoader
多进程迭代加载数据(考虑到内存有限、I/O 速度等问题)
DataLoader 是一个迭代器,最基本的使用方法就是传入一个 Dataset 对象,它会根据参数 batch_size 的值生成一个 batch 的数据,节省内存的同时,它还可以实现多进程、数据打乱等处理。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Ando's blog!