关于图像分割的预处理 transform

这篇具有很好参考价值的文章主要介绍了关于图像分割的预处理 transform。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 介绍

2. 关于分割中的 resize 问题

3. 分割的 transform

3.1 随机缩放 RandomResize

3.2 随机水平翻转 RandomHorizontalFlip

3.3 随机竖直翻转 RandomVerticalFlip

3.4 随机裁剪 RandomCrop

3.5 ToTensor

3.6 normalization

3.7 Compose

3.8 中心裁剪

3.9 Resize 缩放

4. 预处理结果可视化

1. 介绍

图像分割的预处理不像分类那样好操作，因为分类的label就是一个类别，图像增强的操作都是对原始图像操作的。

图像分割的label和img是严格对应的，或者说两者的空间分辨率(h*w)一样且像素点的对应位置都不能改变。否则，监督学习就失去了作用。而深度学习中，数据增强是不必可少的，对于数据更少的医学图像来说，数据增强更加必不可少。

所以，本章主要聊聊图像分割中的数据增强

下面是DRIVE数据集的预处理可视化：

关于图像分割的预处理 transform

2. 关于分割中的 resize 问题

图像分割的resize问题，本人一直没有弄明白....

分割最后的目的应该是将前景从图像中口出来，那么两者的尺寸肯定需要保证一样的。然而，例如unet一类的网络输入都是固定大小480*480，那么最后分割的分辨率也就是480*480，显然已经和最原始的图像不一样了

现在不管是分类，还是分割网络的输入都不需要和原论文一致了，网络里面都做了优化，例如最大池化层等等....

不管网络如何优化，大部分预处理中都增加了resize的操作。那么能保证输入图像和输出的分辨率一样，但是最原始的图像还是不能一致。例如，原始512*512，resize 480*480 输入给网络产生 480*480 的分割图像，480和512已经不一样了

虽然最后分割出来的图像也可以通过resize还原成最原始的尺寸。但是插值又成了问题，更好的线性插值会导致分割图像的灰度值改变。例如分割的图是二值图像，背景为0前景为255，通过插值会导致出现0-255的任何一个数字，变成了灰度图像。当然最近邻插值可以避免这一问题，但最近邻插值显然在图像处理中不是一个好的选择。

之前想过，用双线性插值resize分割图像，然后利用阈值处理产生二值图。但是，这样的方法不仅仅麻烦，还有很多的问题，且违背了end to end的思想

下面纯个人瞎想...仅供参考...

所以说，解决的办法就是训练的图像随机的resize，例如需要给网络的输入是480*480，那么随机将训练图像变成缩放成例如300-500之之间任意的大小，再裁剪成480*480输入给分割网络

这样的好处就是，网络就不会对单纯的图像缩放敏感

那么，再随机分割的时候，就不需要resize，直接输入原图就行了

3. 分割的 transform

如下，分割任务中图像预处理的测试代码

其中就只要保证img和label是同时变换即可

关于图像分割的预处理 transform

3.1 随机缩放 RandomResize

如下，在给定的min和max直接随机生成一个整数，然后resize即可。

分割的label图像要采用最近邻算法，否则resize之后的label就不是二值图像

class RandomResize(object):
    def __init__(self, min_size, max_size=None):
        self.min_size = min_size
        if max_size is None:
            max_size = min_size
        self.max_size = max_size

    def __call__(self, image, target):
        size = random.randint(self.min_size, self.max_size)
        # 这里size传入的是int类型，所以是将图像的最小边长缩放到size大小
        image = F.resize(image, size)
        target = F.resize(target, size, interpolation=T.InterpolationMode.NEAREST)
        return image, target

3.2 随机水平翻转 RandomHorizontalFlip

flip_prob 就是翻转的概率

class RandomHorizontalFlip(object):
    def __init__(self, flip_prob):
        self.flip_prob = flip_prob

    def __call__(self, image, target):
        if random.random() < self.flip_prob:
            image = F.hflip(image)
            target = F.hflip(target)
        return image, target

3.3 随机竖直翻转 RandomVerticalFlip

和水平翻转的一样

class RandomVerticalFlip(object):
    def __init__(self, flip_prob):
        self.flip_prob = flip_prob

    def __call__(self, image, target):
        if random.random() < self.flip_prob:
            image = F.vflip(image)
            target = F.vflip(target)
        return image, target

3.4 随机裁剪 RandomCrop

随机裁剪的代码如下，需要注意的是，因为图像很可能不足裁剪的大小，所以需要填充

class RandomCrop(object):
    def __init__(self, size):
        self.size = size

    def __call__(self, image, target):
        image = pad_if_smaller(image, self.size)
        target = pad_if_smaller(target, self.size, fill=255)
        crop_params = T.RandomCrop.get_params(image, (self.size, self.size))
        image = F.crop(image, *crop_params)
        target = F.crop(target, *crop_params)
        return image, target

填充的代码，这里填充255代表不敢兴趣的区域

def pad_if_smaller(img, size, fill=0):
    # 如果图像最小边长小于给定size，则用数值fill进行padding
    min_size = min(img.size)
    if min_size < size:
        ow, oh = img.size
        padh = size - oh if oh < size else 0
        padw = size - ow if ow < size else 0
        img = F.pad(img, (0, 0, padw, padh), fill=fill)
    return img

3.5 ToTensor

这里label不能进行官方实现的totensor方法，因为归一化，前景像素的灰度值就会被改变

dtype 是因为要使用交叉熵损失，需要为整型，且label的维度中不能有channel

class ToTensor(object):
    def __call__(self, image, target):
        image = F.to_tensor(image)
        target = torch.as_tensor(np.array(target), dtype=torch.int64)
        return image, target

3.6 normalization

normalization 的实现也很简单

class Normalize(object):
    def __init__(self, mean, std):
        self.mean = mean
        self.std = std

    def __call__(self, image, target):
        image = F.normalize(image, mean=self.mean, std=self.std)
        return image, target

3.7 Compose

将transform 逐个实现就行了

class Compose(object):
    def __init__(self, transforms):
        self.transforms = transforms

    def __call__(self, image, target):
        for t in self.transforms:
            image, target = t(image, target)
        return image, target

3.8 中心裁剪

class CenterCrop(object):
    def __init__(self, size):
        self.size = size

    def __call__(self, image, target):
        image = F.center_crop(image, self.size)
        target = F.center_crop(target, self.size)
        return image, target

3.9 Resize 缩放

image = F.resize(image,(self.size,self.size)) 可以缩放成width = height

# 将图像和标签缩放
class Resize(object):
    def __init__(self, size:list):
        self.size = size

    def __call__(self, image, target):
        image = F.resize(image, self.size)    
        target = F.resize(target, self.size, interpolation=T.InterpolationMode.NEAREST)
        return image, target

4. 预处理结果可视化

dataset里面改成这样就行了

关于图像分割的预处理 transform

加载完数据这样调用即可

关于图像分割的预处理 transform

测试代码：

label 中灰度值只有0 1 255

label 中没有 channel

# 可视化数据
def plot(data_loader):
    plt.figure(figsize=(12,8))
    imgs,labels = data_loader
    for i,(x,y) in enumerate(zip(imgs,labels)):
        x = np.transpose(x.numpy(),(1,2,0))
        x[:,:,0] = x[:,:,0]*0.127 + 0.709       # 去 normalization
        x[:,:,1] = x[:,:,1]*0.079 + 0.381
        x[:,:,2] = x[:,:,2]*0.043 + 0.224
        y = y.numpy()

        # print(np.unique(y))   # 0 1 255
        # print(x.shape)      # 480*480*3
        # print(y.shape)      # 480*480

        plt.subplot(2,4,i+1)
        plt.imshow(x)

        plt.subplot(2,4,i+5)
        plt.imshow(y)
    plt.show()

显示结果：

关于图像分割的预处理 transform