[SS]语义分割——基础知识

这篇具有很好参考价值的文章主要介绍了[SS]语义分割——基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

语义分割前言 

目录

一、定义

1、概念 

2、 常见分割任务

3、建筑物提取(Building Footprint Extraction)

二、任务数据

1、数据集格式

2、结果具体形式

三、评价指标与标注

1、评价指标

2、标注工具


一、定义

1、概念 

        语义分割(Semantic Segmentation)是计算机视觉中的一项任务,目标是将图像中的每个像素按其语义类别进行分类。与传统的目标检测不同,语义分割对图像中的每个像素都进行分类,而不是只关注物体的边界框。

        语义分割的目标是给图像中的每个像素分配一个类别标签,通常使用颜色编码来可视化不同的类别。例如,将图像中的道路像素标记为蓝色,建筑物像素标记为红色等。

        语义分割在许多计算机视觉任务中起到重要作用,如自动驾驶、智能监控、图像编辑等。它可以提供详细的场景理解,使计算机能够准确地理解图像中的不同物体和区域,并在各种应用中进行更精确的分析和决策。

        近年来,随着深度学习的快速发展,基于深度学习的语义分割方法取得了显著的进展。常用的深度学习模型包括全卷积网络(FCN)、U-Net、DeepLab等,它们能够准确地分割图像,并在各种实际场景中取得了优秀的性能。

2、 常见分割任务

语义分割、实例分割、全景分割?这些基本概念别再搞混了!

语义 VS 实例 VS 全景分割 

语义分割(Semantic Segmentation)

        语义分割是将图像分割为不同的语义区域,即将图像中的每个像素都标记为属于哪个语义类别。换句话说,它的目标是为图像中的每个像素分配一个语义标签,例如人、车、树、建筑等。语义分割关注的是图像中的每个像素的语义信息,不关心具体的实例。

实例分割(Instance Segmentation)

        实例分割是将图像中的目标物体分割为独立的实例,即为每个目标分配唯一的标识符,并进行像素级的分割。与语义分割不同,实例分割不仅关注目标的语义类别,还关注目标的个体性。因此,在实例分割中,同一类别的不同目标物体会被分配不同的标识符,以区分它们。

全景分割(Panoramic Segmentation)

        全景分割是语义分割和实例分割的融合,旨在将图像中的每个像素分配一个语义标签,并为每个目标物体分配唯一的标识符,同时区分不同的实例。全景分割可以视为将图像中的每个像素标记为语义类别和实例标识符的任务。实质上,全景分割是一种综合性的图像分割任务,旨在提供对图像中所有物体的语义信息和个体信息。

3、建筑物提取(Building Footprint Extraction)

        建筑物提取任务BFE(Building Footprint Extraction)是指从高分辨率遥感图像中准确地提取出建筑物的轮廓或边界信息。这是一项具有重要应用价值的任务,可以用于城市规划、地理信息系统(GIS)、自动驾驶、灾害评估等领域。

        BFE任务的挑战在于建筑物在图像中呈现出各种形状、大小和复杂性。为了解决这个问题,研究者们提出了各种方法和算法。以下是一些常用的BFE方法:

  1. 基于图像特征的方法:这些方法利用图像的颜色、纹理、形状等特征来区分建筑物和非建筑物。例如,可以使用边缘检测、纹理分析、形状匹配等技术来提取建筑物的边界。

  2. 基于机器学习的方法:这些方法使用机器学习算法来学习建筑物和非建筑物的分类器。常用的算法包括支持向量机(SVM)、随机森林(Random Forest)和深度学习模型等。这些方法需要大量的标注数据和特征工程。

  3. 基于分割的方法:这些方法将建筑物提取任务看作是像素级的语义分割任务,利用分割模型将每个像素分类为建筑物或非建筑物。深度学习模型如U-Net、Mask R-CNN等常被用于此类方法。

  4. 基于无监督学习的方法:这些方法通过对图像进行聚类和分割来提取建筑物。常用的技术包括基于颜色、纹理和形状的聚类分析、超像素分割等。

  5. 结合多源数据的方法:这些方法将多源数据(如高分辨率遥感图像、激光雷达数据等)结合起来,通过融合不同数据源的信息来提高建筑物提取的准确性。

        BFE是一个复杂的任务,目前仍然存在一些挑战和问题,如建筑物遮挡、复杂背景、低对比度等。未来的研究将继续致力于提高建筑物提取的准确性和鲁棒性,以满足实际应用的需求。

二、任务数据

1、数据集格式

PASCAL VOC2012数据集介绍

[SS]语义分割——基础知识,语义分割,深度学习,分类

        PASCAL VOC数据集提供一个PNG图片(P模式),在图片中记录每个像素所属的类别信息。需要注意的是,提供的PNG图片是用调色板的模式进行存储,为1通道图片,图象呈彩色是因为针对像素0到255提供了一个调色板,针对每个像素值都对应一个颜色,所以可以将1通道的图片映射到彩色的图片上。 

notes:

[SS]语义分割——基础知识,语义分割,深度学习,分类

        针对目标的边缘,会有特殊的颜色进行分割,或者图片特殊区域也会用特殊颜色进行填充。该特殊颜色对应的像素值是255,在训练过程中计算损失时会忽略数值为255的地方,针对目标边缘的类别划分并不容易,包括有些不容易分割的目标也可以进行填充,这样就可以忽略,在训练模型时候就不会计算这部分损失。

MS COCO数据集介绍以及pycocotools简单使用 

[SS]语义分割——基础知识,语义分割,深度学习,分类

        MS COCO数据集中提供的是针对图片中每一个目标都给出了多边形的坐标形式,将坐标点连起来就对应了目标所在的区域。在使用中需要将多边形坐标信息解码成PNG图片。计算损失时将预测的每个像素对应的类别与真实标签的每一个类别进行对比计算,所以在计算损失时希望得到PNG图象的。

2、结果具体形式

[SS]语义分割——基础知识,语义分割,深度学习,分类

        单通道图片,加上调色板显示彩色。如图,背景的像素值为0,对应飞机的位置像素值为1,对应人的位置像素值等于15。灰度图片显示效果远不如调色板显彩效果。每个像素的数值对应了每个类别的索引。

三、评价指标与标注

1、评价指标

Pixel Accuracy(Global Acc)

 

  • 在预测标签图像中所有预测正确的像素个数的总和除以这幅图片的总像素个数。 

mean Accuracy

 

  •  每个类别的Accuracy计算出来,再进行求和取平均操作。

mean IoU

[SS]语义分割——基础知识,语义分割,深度学习,分类 

  • 计算每个类别的IoU,然后每个类别求平均操作。目标IoU交并比计算是将两个目标的交集面积比上两个目标的并集面积,公式的含义则是该类别的正确预测像素个数比上真实标签与预测像素的并集面积,并集计算过程为真实标签面积加上错误预测面积减去正确预测面积。 

notes: 

  • :类别被预测成类别的像素个数,如为类别被预测成类别的像素个数,即正确像素个数
  • :目标类别个数(包含背景)
  • :目标类别的总像素个数(真实标签)

 构建混淆矩阵进行计算

[SS]语义分割——基础知识,语义分割,深度学习,分类

[SS]语义分割——基础知识,语义分割,深度学习,分类

  • 表示类别被预测为的像素个数,即矩阵正对角线上对应的是被正确预测类别的像素数量
  • 表示类别被预测为的像素个数,如为类别0被预测为类别1的像素个数

[SS]语义分割——基础知识,语义分割,深度学习,分类

[SS]语义分割——基础知识,语义分割,深度学习,分类

[SS]语义分割——基础知识,语义分割,深度学习,分类

2、标注工具

Labelme 

Labelme分割标注软件使用 

EISeg 

EISeg分割标注软件使用 

ArcGis

 深度学习/语义分割入门笔记(一)——遥感影像数据集及标签制作+arcgis批量矢量转栅格

语义分割—遥感影像数据标签制作(ARCGIS) 文章来源地址https://www.toymoban.com/news/detail-811061.html

到了这里,关于[SS]语义分割——基础知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习基础知识整理

    Auto-encoders是一种人工神经网络,用于学习未标记数据的有效编码。它由两个部分组成:编码器和解码器。编码器将输入数据转换为一种更紧凑的表示形式,而解码器则将该表示形式转换回原始数据。这种方法可以用于降维,去噪,特征提取和生成模型。 自编码器的训练过程

    2024年01月17日
    浏览(50)
  • [SS]语义分割_转置卷积

    转置卷积(Transposed Convolution) 抽丝剥茧,带你理解转置卷积(反卷积)  目录 一、概念 1、定义  2、运算步骤 二、常见参数         转置卷积(Transposed Convolution),也被称为反卷积(Deconvolution)或逆卷积(Inverse Convolution),是一种卷积神经网络中常用的操作。转置卷

    2024年01月22日
    浏览(34)
  • 深度学习torch基础知识

    detach是截断反向传播的梯度流 将某个node变成不需要梯度的Varibale。因此当反向传播经过这个node时,梯度就不会从这个node往前面传播。 拼接:将多个维度参数相同的张量连接成一个张量 torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) module即表示你定义的模型,devic

    2024年02月13日
    浏览(46)
  • 深度学习基础知识神经网络

    1. 感知机 感知机(Perceptron)是 Frank Rosenblatt 在1957年提出的概念,其结构与MP模型类似,一般被视为最简单的人工神经网络,也作为二元线性分类器被广泛使用。通常情况下指单层的人工神经网络,以区别于多层感知机(Multilayer Perceptron)。尽管感知机结构简单,但能够学习

    2024年02月03日
    浏览(51)
  • 深度学习基础知识-感知机+神经网络的学习

    参考书籍:(找不到资源可以后台私信我) 《深度学习入门:基于Python的理论与实现 (斋藤康毅)》 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (Aurelien Geron [Géron, Aurélien])》 机器学习和深度学习的区别: Perceptron(感知机) 感知机就是一种接收多种输入信

    2023年04月26日
    浏览(57)
  • 深度学习基础知识-pytorch数据基本操作

    1.1.1 数据结构 机器学习和神经网络的主要数据结构,例如                 0维:叫标量,代表一个类别,如1.0                 1维:代表一个特征向量。如  [1.0,2,7,3.4]                 2维:就是矩阵,一个样本-特征矩阵,如: [[1.0,2,7,3.4 ]                   

    2024年02月11日
    浏览(46)
  • 深度学习基础知识(三)-线性代数的实现

    1.标量使用 标量由只有一个元素的张量表示,标量可以做最简单的计算。 结果: 2.向量使用 向量:将标量值组成的列表就是向量 结果: 访问张量的长度 只有一个轴的张量,形状只有一个元素 创建一个二维矩阵5行4列,然后将矩阵做转置,轴对称的一个转置 结果:其实就是把

    2024年02月10日
    浏览(56)
  • 深度学习TensorFlow2基础知识学习前半部分

    目录 测试TensorFlow是否支持GPU: 自动求导:  数据预处理 之 统一数组维度  定义变量和常量  训练模型的时候设备变量的设置 生成随机数据 交叉熵损失CE和均方误差函数MSE  全连接Dense层 维度变换reshape 增加或减小维度 数组合并 广播机制: 简单范数运算  矩阵转置 框架本

    2024年02月04日
    浏览(46)
  • 计算机视觉基础知识(十二)--神经网络与深度学习

    一种机器学习的算法 一般有输入层--隐藏层--输出层 隐藏层数量多于两个的称为深度神经网络; 输入的是特征向量; 特征向量代表的是变化的方向; 或者说是最能代表这个事物的特征方向; 权重是特征值,有正有负,加强或抑制; 权重的绝对值大小,代表输入信号对神经元的影响大小

    2024年02月21日
    浏览(53)
  • 现代C++中的从头开始深度学习【1/8】:基础知识

            提及机器学习框架与研究和工业的相关性。现在很少有项目不使用Google TensorFlow或Meta PyTorch,在于它们的可扩展性和灵活性。 也就是说,花时间从头开始编码机器学习算法似乎违反直觉,即没有任何基本框架。然而,事实并非如此。自己对算法进行编码可以清晰而

    2024年02月13日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包