摘要
图像融合的评价方法主要分为主观评价和客观评价两大类,主观评价依赖人眼观察,符合最终应用需求,但具有主观性和不确定性,客观评价通过数学模型计算融合图像的质量,分为无参考型、全参考型和半参考型。全参考型评价方法是当前研究的主流和热点,因为它能够将融合结果与“理想”的参考图像进行对比,从而给出定量的质量分数,本文将详细阐述这两大类评价方法,并重点分析全参考型评价指标的原理、分类、优缺点及最新研究进展。

主观评价方法
主观评价是最直接、最符合人类视觉感知的评价方式,它反映了融合图像在实际应用中的可用性。
1 评价方式
- 观察者评分: 邀请一定数量的观察者(通常是图像处理领域的专家或普通用户),根据 predefined 的标准对融合图像的质量进行打分。
- 双刺激连续质量标度: 观察者同时观看源图像和融合图像,然后在一个连续的标尺(如从“非常差”到“非常好”)上对融合图像的整体质量进行评分。
- 排序法: 给定一组融合结果,要求观察者根据其质量从好到坏进行排序。
2 评价标准
观察者通常会从以下几个方面进行定性判断:
- 信息保留度: 融合图像是否完整地保留了源图像中的重要信息(如可见光图像的颜色和纹理,红外图像的目标)。
- 细节清晰度: 融合图像的边缘、纹理等细节是否清晰、锐利,有无模糊或振铃效应。
- 自然度/真实感: 融合后的图像是否看起来自然,有无明显的伪影、光晕或颜色失真。
- 光谱/保真度: 对于多光谱或高光谱图像融合,光谱信息是否得到很好的保持,颜色是否真实。
- 目标对比度: 对于红外与可见光融合,目标(如人、车辆)在融合图像中的对比度是否得到增强,是否易于被察觉。
3 优缺点
- 优点:
- 符合最终感知: 直接反映了人眼的视觉感受,与实际应用场景高度相关。
- 综合性强: 能够评价一些难以量化的“感觉”,如自然度、舒适度。
- 缺点:
- 主观性强: 不同观察者的知识背景、个人偏好和疲劳度都会影响评价结果。
- 成本高、耗时长: 需要组织观察者、设计实验、统计结果,过程繁琐。
- 不可重复性: 评价结果可能因时、因地、因人而异。
客观评价方法
客观评价使用数学公式来计算一个或多个质量指标,旨在自动化、定量化地评价融合图像的质量。
1 分类
根据是否需要参考图像,客观评价方法可分为三类:

| 类别 | 英文名 | 中文名 | 描述 | 适用场景 |
|---|---|---|---|---|
| NR | No-Reference | 无参考型 | 不需要任何参考图像,仅根据融合图像本身或其与源图像的关系进行评价。 | 无法获得理想参考图像时(如实时处理、部分医学应用)。 |
| FR | Full-Reference | 全参考型 | 需要一个理想的参考图像作为“金标准”,将融合图像与参考图像进行比较。 | 算法研究、离线分析,有高质量的理想参考图像时。 |
| RR | Reduced-Reference | 半参考型 | 不需要完整的参考图像,而是从参考图像中提取少量特征(如哈希、统计量),与融合图像的对应特征进行比较。 | 传输或存储场景,仅传输少量特征进行质量验证。 |
注: 在图像融合领域,全参考型评价是研究和论文中最常用、最受认可的方法,因为它能最直接地衡量算法的性能,下面将重点介绍FR指标。
2 全参考型评价指标
FR指标的核心思想是:一个好的融合图像,应该在空间域(结构、细节)和变换域(如频率、梯度)上都与参考图像高度相似。
A. 基于像素相似性的指标
这类指标直接计算融合图像与参考图像在像素值上的差异,计算简单,但不能反映结构信息。
-
均方误差
(图片来源网络,侵删)- 公式: $MSE = \frac{1}{MN}\sum{i=1}^{M}\sum{j=1}^{N}[I(i,j) - R(i,j)]^2$
- 描述: 计算融合图像和参考图像对应像素点灰度值差的平方的平均值,MSE值越小,表示差异越小,融合质量越好。
- 缺点: 对像素的绝对误差敏感,且与人眼视觉感知不完全一致。
-
峰值信噪比
- 公式: $PSNR = 10 \cdot \log_{10}\left(\frac{MAX_I^2}{MSE}\right)$
- 描述: MSE的对数形式,通常以分贝为单位,PSNR值越大,融合质量越好,MAX_I是图像像素可能的最大值(如255)。
- 缺点: 与MSE有相同的缺点,不能很好地反映图像的结构失真。
B. 基于结构相似性的指标
这类指标认为人眼的主要功能是提取图像中的结构信息,因此从结构相似性的角度进行评价。
-
结构相似性指数
- 描述: SSIM从亮度、对比度和结构三个方面衡量两个图像的相似性。
- 公式: $SSIM(x, y) = \frac{(2\mu_x\mu_y + C1)(2\sigma{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
- $\mu_x, \mu_y$: 图像x,y的均值(亮度)
- $\sigma_x^2, \sigma_y^2$: 图像x,y的方差(对比度)
- $\sigma_{xy}$: 图像x,y的协方差(结构)
- $C_1, C_2$: 用于避免分母为零的稳定常数。
- 优点: 更符合人眼视觉特性,是目前应用最广泛的评价指标之一,SSIM值越接近1,质量越好。
-
基于SSIM的扩展指标
- MS-SSIM (Multi-Scale SSIM): 在多个尺度上计算SSIM,最后将结果相乘,能更好地捕捉不同层次的图像结构信息,性能通常优于SSIM。
- IW-SSIM (Information Content Weighted SSIM): 根据图像块的信息量(方差)对不同区域的SSIM结果进行加权,认为信息量大的区域对整体质量贡献更大。
C. 基于梯度/边缘相似性的指标
这类指标认为图像的细节和边缘信息至关重要,因此通过比较梯度幅值和方向来评价融合质量。
-
Qab/f 指标
- 描述: 由Piella和Heijmans提出,是图像融合领域的经典指标,它分别计算融合图像与两幅源图像在局部区域内的梯度幅值相似性和方向一致性,并进行加权融合。
- 优点: 对边缘和细节的保持能力评价非常有效,被广泛接受。
- 缺点: 计算相对复杂,对参数设置敏感。
-
FSIMc (Feature Similarity Index for Color Images)
- 描述: FSIM的彩色版本,它结合了梯度幅值(用于捕捉结构信息)和相位一致性(一种对光照变化不敏感的图像特征)来评价图像质量,对于彩色图像,还考虑了颜色信息。
- 优点: 性能优异,对光照变化和模糊有较好的鲁棒性。
-
VIF (Visual Information Fidelity)
- 描述: 基于自然场景统计模型和视觉感知模型,将图像视为视觉信息,并计算融合图像相对于参考图像保留了多少视觉信息。
- 优点: 理论基础扎实,评价结果与主观一致性很高。
D. 基于光谱保真度的指标
这类指标主要用于多光谱与全色图像融合,评价融合后的多光谱图像在光谱曲线(颜色)上与原始多光谱图像的相似程度。
-
相对全局维度综合误差
- 描述: 计算融合图像和参考图像在每个像素点上光谱向量的夹角余弦,再对所有像素取平均,ERGAS值越小,光谱保真度越高。
- 公式: $ERGAS = 100 \cdot \frac{d}{\hat{d}} \cdot \sqrt{\frac{1}{L}\sum_{k=1}^{L}\left(\frac{RMSE_k}{\mu_k}\right)^2}$
- $d$: 原始多光谱图像的空间分辨率
- $\hat{d}$: 全色图像的空间分辨率
- $L$: 多光谱图像的波段数
- $RMSE_k$: 第k波段的均方根误差
- $\mu_k$: 第k波段的均值
-
光谱角映射
- 描述: 计算融合图像和参考图像在每个像素点上形成的两个光谱向量之间的夹角,SAM值越小,表示光谱失真越小,颜色保真度越高。
3 无参考型与半参考型指标简介
-
无参考型:
- QNR (Quality with No Reference): 一个经典的NR指标,由融合失真和源图像失真两部分组成,它假设融合图像应该比源图像在细节和结构上更好,同时引入了光谱扭曲惩罚(用于多光谱融合)。
- 基于自然图像统计: 利用自然图像的先验知识(如非高斯分布、稀疏性等)来评价融合图像的“自然”程度,但这类方法通用性较差。
-
半参考型:
- 方法: 从参考图像中提取少量特征(如均值、方差、小波系数统计量、图像哈希等),然后将这些特征与从融合图像中提取的对应特征进行比较。
- 应用: 在图像质量传输中,发送方计算参考图像的特征并传输给接收方,接收方用这些特征来评估本地生成的融合图像质量,而无需传输庞大的参考图像本身。
评价方法的选择与应用
在实际应用中,没有一种“万能”的评价指标,选择哪种方法取决于具体的应用场景和研究目标。
| 评价场景 | 推荐方法组合 | 理由 |
|---|---|---|
| 学术论文/算法比较 | 主观评价 + 多个FR指标 | 主观评价是最终标准,多个FR指标(如SSIM, FSIMc, Qab/f, ERGAS)从不同角度(结构、细节、光谱)进行量化,评价结果更全面、更有说服力。 |
| 实时系统/嵌入式应用 | NR指标 (如QNR) 或 主观评价 | 这些场景通常无法获得实时参考图像,因此只能依赖NR指标或进行快速的主观抽样检查。 |
| 多光谱/高光谱融合 | FR指标 + 光谱保真度指标 | 除了通用的结构相似性指标(如SSIM),必须加入ERGAS、SAM等专门评价光谱失真的指标。 |
| 最终产品验收 | 以主观评价为主 | 产品的最终用户是人,因此用户的主观感受是衡量成功与否的关键,客观指标可作为辅助参考。 |
总结与展望
图像融合的评价方法已经从最初简单的像素级比较(MSE, PSNR),发展到更符合人眼视觉的结构相似性(SSIM系列)和梯度相似性(Qab/f, FSIMc)评价,再到面向特定任务的光谱保真度评价。
当前趋势与挑战:
- 评价指标与任务的统一: 现有指标大多是通用性的,而图像融合的应用场景千差万别(如遥感、医疗、自动驾驶),未来需要开发针对特定任务的、与下游任务性能(如目标检测、图像分割)强相关的评价方法。
- 无参考/盲评算法的深化: 由于实际应用中理想参考图像的缺失,NR算法的研究至关重要,未来的NR算法需要更好地融合深度学习等先进技术,学习从融合图像中直接推断其质量的复杂映射关系。
- 评价模型的鲁棒性: 如何让评价指标对不同的图像内容、噪声水平和失真类型更具鲁棒性,是一个持续的研究方向。
- 多模态评价体系: 结合主观和客观评价,建立一套综合性的、可解释的、自动化的评价体系,将是未来的一个重要方向。
图像融合的评价是一个复杂但至关重要的领域,只有建立科学、全面、可靠的评价体系,才能有效地引导和推动图像融合技术的创新与发展。
