OMSCS-CV课程笔记15-Color Spaces and Segmentation

这个系列是Gatech OMSCS 计算机视觉课程(CS 6476: Computer Vision)的同步课程笔记。课程内容涉及图像处理以及传统计算机视觉的相关理论和方法，本节主要介绍颜色空间与图像分割的相关内容。

Color Spaces

Human Vision System

人眼对颜色的感知是通过视网膜上的棒状(rods)和锥形(cones)细胞来实现的。在视网膜上分布着6,000,000-7,000,000个锥形细胞，它们形成了我们用肉眼看到的图像。同时这些锥形细胞根据它们对颜色的感知可以分为3种：64%对红色敏感，32%对绿色敏感，2%对蓝色敏感，这样的分布构成了”三原色”的生理学基础。

从物理学的角度上讲，这些不同类型的锥形细胞对不同波长的光存在不同的响应。从响应的绝对值上讲人眼对红光最为敏感，其次是绿光，最后才是蓝光。

还需要说明的是与颜色相比人眼对于亮度的变化更为敏感：下方左边图片字体和背景使用了相同的颜色但是具有不同的亮度，我们可以轻松地识别出图上的文字；而右边的图片则使用了具有相同亮度不同颜色的文字和背景，我们要识别出文字则困难得多。

CIE Color Space

显然我们希望能够从物理的角度定量描述不同颜色的差异，这样的想法促成了CIE RGB颜色空间(CIE RGB color space)的诞生。之后人们对空间进行了规范化，得到了CIE XYZ颜色空间(CIE XYZ color space)。人眼能够感知到的颜色在XYZ颜色空间中呈一个马蹄形：

除此之外还有LAB颜色空间(CIELAB color space)，其中L表示亮度，A和B分别表示颜色坐标。不同亮度下的颜色有不同的显示效果，因此LAB颜色空间也可以认为是一个柱体。

其它常用的颜色空间还包括HSV以及HSL空间等，当然最常见的颜色空间还是RGB空间。

还需要注意的一点是不同的颜色空间、软件以及显示设备存在不同色域(color gamut)，因此不是所有的颜色都能够在不同的设备上显示出来。一些常见软硬件的色域可参考下图：

Color Vectors

对于彩色图像我们可以把图像上每个点的颜色用一个向量来表示：

进一步可以将图像上的所有像素放置在颜色空间中，得到图像的颜色分布：

我们可以在图像上使用颜色进行滤波，从而识别图像上的不同物体：

但这样做的缺陷在于同一个颜色在不同光照条件下会产生不同的效果：

因此更合理的做法是将亮度从颜色向量中分离出来，仅对颜色进行滤波：

分离亮度后可以得到图像的颜色分布如下：

最后在YUV空间中进行滤波就能够得到更好的分割结果：

Segmentation

图像分割(image segmentation)是计算机视觉中的重要任务之一，我们希望能够将图像上属于同一物体的区域聚合到一起：

图像分割的经典应用是抠图，我们希望能够将图像中非背景的部分从背景中分离出来：

图像分割的另一个重要应用是超像素(superpixel)。超像素类似于马赛克的效果，它将图像划分成若干个区域这样就可以用这些区域来描述原来的图像：

Clustering

实现图像分割最简单的方式是利用直方图进行阈值化。以下图为例，我们可以通过直方图发现图像存在3个区域，每个区域对应不同的物体。

然而当图像存在噪声时就不能使用这样的方法了，此时每个物体不再具有特定的颜色而是在颜色附近波动。因此图像分割的目标是从图像中找到这些代表颜色来表示不同的物体。

从机器学习的角度上讲这样的过程称为聚类(clustering)，我们希望从数据集中寻找到若干个”代表”作为中心，进而将数据集划分为不同的区域。对于像素而言，只需要把它们看做是一般的向量使用SSD作为误差度量即可。

假设我们知道了每个样本的类别，那么只需要对每个类别取平均就可以得到该类别的”代表”；而如果我们知道了每个类别的”代表”，则可以通过计算样本与每个”代表”的距离来获得它的类别。从这个角度上看聚类问题实际上是一个chicken-egg问题：我们既不知道样本的类别，也不知道聚类的中心，因此无法直接进行求解。