GLASS: 一种基于梯度上升的统一异常合成策略用于工业异常检测与定位

 

摘要:异常合成策略可以有效增强无监督的异常检测。然而,现有策略在异常合成的覆盖度和可控性方面存在局限性,特别是在处理与正常区域极为相似的微弱缺陷时。在本文中,我们提出了一种全新的统一框架,称为全局和局部异常联合合成策略(GLASS)。该框架旨在在全局异常合成(GAS)的特征层面和局部异常合成(LAS)的图像层面上,通过流形和超球分布约束下实现更广泛的异常覆盖。我们的方法通过梯度上升和截断投影指导的高斯噪声,在可控范围内合成接近分布内的异常。GLASS在MVTec AD(检测AUROC达99.9%)、VisA和MPDD数据集上取得了最新的技术成果,尤其在微弱缺陷检测方面表现出色。其有效性和效率在工业应用中的织物缺陷检测中得到了进一步验证。

关键词:工业异常检测、异常合成、微弱缺陷检测、梯度上升

1. 引言

异常检测和定位旨在通过利用正常样本来识别和定位异常区域。由于难以收集足够的缺陷样本且像素级标注成本高昂,监督方法在这些场景中变得不切实际。因此,无监督的异常检测技术被广泛应用于工业检测场景中。此外,由于微弱缺陷通常表现为小面积或低对比度的异常,有些异常区域可能接近于正常区域

现有的异常检测方法大致分为三类:基于重建的方法、基于嵌入的方法和基于分类的方法。基于重建的方法通过分析重建前后的残差图像来检测异常【1, 37】;基于嵌入的方法利用预训练网络提取并压缩特征【8, 15】。一个紧凑的空间可以在特征空间中将异常特征与正常簇清晰地分开。这两类方法都是直接在原始的正常样本上进行训练,但它们无法解决上述问题。基于合成的方法【20, 30, 36, 38】通常通过从正常样本中合成异常,将异常辨别信息引入检测模型以增强性能。

f1

图1展示了各种异常合成策略的流程和可视化。(a) 图像级异常合成策略(灰色三角形)提供了详细的纹理但缺乏多样性;(b) 特征级异常合成策略(粉色菱形)效率更高但缺乏方向性;(c) 我们的方法(蓝色方块)通过梯度上升控制图像和特征层面上的合成异常的分布

 

常见的范式是图像级异常合成策略【5, 30, 36】,如图1(a)所示,该方法在图像级显式模拟异常。尽管图像级异常合成提供了详细的异常纹理,但它被认为缺乏多样性和真实感。近期的方法【20, 34, 38】基于特征级异常合成策略,如图1(b)所示,该策略在特征级隐式模拟异常。由于特征图尺寸较小,特征级异常合成更为高效。然而,它也缺乏以可控方式方向性地合成异常的能力,尤其是对近分布内的异常。

为解决上述限制,我们提出了全局和局部异常联合合成策略(GLASS),一个全新的统一框架,旨在在特征层面的全局异常合成(GAS)和图像层面的局部异常合成(LAS)的流形和超球分布约束下,合成更广覆盖范围的异常。具体来说,我们提出了新颖的特征级GAS方法,如图1(c)所示,该方法利用梯度上升和截断投影指导的高斯噪声,以可控的方式在正常样本分布附近合成异常,从而形成更紧密的分类边界,进一步增强对微弱缺陷的检测。图像级LAS通过提供更广泛的异常合成提升了多样性。GAS在正常点附近合成微弱异常,而LAS在远离正常点的地方合成强异常

理论上,GAS合成的近分布内异常源自对正常特征的相对小的噪声和梯度上升,而LAS合成的远分布异常则通过在正常图像上显著叠加纹理生成。因此,图1最右侧的t-SNE可视化显示,由梯度上升引导的异常主要分布在合适的分类边界附近。相比基于高斯噪声的异常合成策略,我们的方法最小化了异常样本和正常样本之间的重叠,降低了将正常样本误分类为异常的风险

GLASS的主要贡献总结如下:

 

 

2. 相关工作

基于重建的方法(如自编码器[37, 40])通过分析重建前后的残差图像来检测异常。这些方法假设模型可以正确重建正常区域,但无法重建异常区域。然而,这些方法高度依赖于重建图像的质量,并面临差异分析方法的挑战。

基于嵌入的方法利用预训练网络提取特征,随后将正常特征压缩到一个紧凑的空间中,结果是在特征空间中将异常特征与正常簇明显分开。存储库方法【2, 12, 23】存储具有代表性的正常特征,并通过度量学习检测异常。类似地,单类分类方法【15, 22, 31】进一步定义了明确的分类边界,如超平面【27】或超球体【29】。正态化流【9】方法【11, 16, 35】旨在将正常样本的分布转换为标准高斯分布,使异常样本呈现出较低的概率。知识蒸馏方法【3, 8, 25】利用教师网络和学生网络在异常检测能力上的差异。尽管这些特征嵌入方法表现良好,但它们仅在原始正常样本上训练,缺乏对异常样本的表示。

基于合成的方法将异常的合成视为从正常样本中进行的数据增强,目的是引入异常辨别信息,并减轻因将所有正常样本映射到一个点而可能出现的过拟合问题。大多数现有方法在图像级合成异常:CutPaste【17】采用一种简单的方法,将正常区域剪切并随机粘贴到其他位置;NSA【26】使用泊松图像编辑将不同大小的图块无缝混合,从而合成出更接近自然子图像不规则性的异常;DRAEM【36】通过生成二元掩码(使用Perlin噪声)并在正常图像中填充外部纹理来合成异常。

F2

图2:所提出的GLASS框架示意图。训练阶段包括三个分支:(a) 正常分支通过特征提取器和特征适配器获取自适应的正常特征。(b) GAS分支基于梯度引导,从正常特征中分三步合成全局异常特征。(c) LAS分支基于纹理叠加,从正常图像中分三步合成局部异常图像。

最近,若干方法在特征空间中合成异常:DSR【38】在量化的特征空间中采样,通过对码本特征向量的相似性比较来合成微弱缺陷;SimpleNet【20】和UniAD【34】通过向正常特征添加高斯噪声来合成异常。通常,图像级异常合成提供了详细的异常纹理但缺乏多样性,而特征级异常合成更为高效,但在方向性和可控性方面面临挑战。

 

3. 提出的方法

所提出的GLASS的整体架构如图2所示。在训练阶段,GLASS主要由三个分支组成:正常分支、GAS分支和LAS分支。每个分支共享三个模块:特征提取器 Eϕ、特征适配器Aφ和判别器 Dψ。在正常分支中,首先通过冻结的Eϕ 和可训练的Aφ对正常样本进行处理,以获取自适应的正常特征。接着,在GAS分支中,通过梯度引导从自适应的正常特征中合成全局异常特征。同时,LAS分支通过纹理叠加合成局部异常图像,并将其输入EϕAφ 获取局部异常特征。最后,来自三个分支的特征共同输入到判别器Dψ 中,该判别器是通过端到端训练的分割网络,使用三个损失函数。在推理阶段,仅使用正常分支的框架来处理测试图像。。

F3

图3:在不同假设下,全局异常合成GAS的示意图。假设rmrh 分别表示到流形或超球体中心的 ( L2 ) 距离。绿色圆圈(rm<r1rh<r1 )表示正常特征,灰色三角形(rm>r2r2<rh<r3 )表示局部异常特征,粉红色菱形表示通过正常特征添加高斯噪声获得的高斯异常特征,蓝色方块(r1<rm<r2r1<rh<r2 )表示通过梯度上升和截断投影从高斯异常特征中获得的全局异常特征。

 

3.1 特征提取器和特征适配器

类似于[15, 20],我们利用 Aφ 来减轻由冻结的Eϕ 引入的潜在领域偏差。由预训练的主干网络ϕ 提取的图像xiXtrain 在第 j 层的特征图表示为ϕi,j=ϕj(xi)RHj×Wj×Cj ,其中HjWjCj 分别表示该层特征图的高度、宽度和通道数。位置 (h,w) 处的向量表示为ϕi,jh,wRCj

通过自适应平均池化来聚合邻域特征,从 ϕi,jh,w 的邻域特征中导出局部感知向量 si,jh,wRCj ,其中邻域大小为 p 。向量集合 si,jh,w构成了特征si,j。通过上采样和合并来自不同层的 si,j ,拼接后的特征图 tiRHm×Wm×C 表示为 ti=Eϕ(xi),其中通道数 C=jJCj

适应后的正常向量uih,w表示为uih,w=Aφ(tih,w),其中Aφ使用一个单层感知器,输入和输出层的节点数相同。

 

3.2 特征级全局异常合成策略 (GAS)

在特征空间合成异常[20, 34, 38]已被证明是一种有效的方法。然而,现有的方法缺乏在可控的方式下定向合成异常的能力,特别是对于接近分布的异常。为了更高效地在特征空间合成异常,我们通过向正常特征添加高斯噪声来获得全局异常特征,并使用梯度上升来约束这些异常的合成方向。这里,“全局”意味着异常是在特征图的所有点上合成的。

为了避免梯度上升的过度波动并使异常合成更具可控性,采用截断投影来限制梯度上升的最小值和最大值范围。GAS的过程描述如下:

分布假设。假设所有正常特征点都符合流形或超球体分布假设[21]。流形假设认为所有正常特征点uih,w,表示为URC ,满足低维局部线性流形分布[10]。由于流形在局部是线性的,并且与欧几里得空间同胚,低维嵌入的线性组合可以表示全局的非线性分布。在图3(a)所示的流形假设下,特征集 Na={u~ih,wu~ih,wujh,w2>r1,ujh,wU} 被视为异常的。

超球体假设认为,特征点uih,w 可以被一个紧致的超球体包围[24]。在图3(b)所示的超球体假设下,特征集Na={u~ih,wu~ih,wc2>r1}被视为异常的,其中超球体的中心定义为c=1|U|uih,wUuih,w

在流形和超球体假设下,所提的GAS采用三步法,包括高斯噪声、梯度上升和截断投影来合成全局异常特征。GAS的前两步对于流形假设和超球体假设是相同的。

高斯噪声。在现实的工业环境中,异常的分布是未知的。类似于[20, 34],采用高斯噪声来模拟这些不同的异常。具体地,高斯异常特征点 gih,w通过将噪声 εih,wN(μg,σg2)加到正常特征uih,w 上获得,表示为:

(1)gih,w=uih,w+εih,w

然而,这些高斯异常特征点是以无方向的方式合成的,这导致检测训练的效果不佳。

梯度上升。在特征空间中合成异常的最有效方法是沿着梯度上升的方向。借助前述的高斯噪声,我们结合由GAS分支损失Lgas 指导的梯度信息,在公式(1)中进行迭代计算。我们对梯度向量进行归一化,并使用学习率 η 来迭代获得梯度异常特征 g~ih,w

(2)g~ih,w=gih,w+ηLgas(gih,w)Lgas(gih,w)

截断投影(流形)。尽管 g~ih,w 是通过将高斯噪声加到正常特征 uih,w 上并通过梯度上升指导生成的,但仍然存在其与正常特征之间的距离过远或过近的风险。因此,我们提出了截断投影来约束梯度上升的范围,从而促进可控的异常合成。梯度上升的距离通过 ε~ih,w=g~ih,wuih,w计算。为了将 g~ih,w投影到集合Np={g~ih,wr1<g~ih,wuih,w2<r2} 上,如图3(a)所示,截断距离hatεih,w 给出为:

(3)ε^ih,w=αiε~ih,wε~ih,w

其中,

(4)αi={r1if ε~ih,w<r1r2if ε~ih,w>r2ε~ih,wotherwise

 

A1

其中,截断系数αi 取决于梯度上升距离|ε~ih,w的大小。流形距离 r1r2 是常数,通常r2=2r1。最终,得到全局异常特征vih,w=uih,w+ε^ih,w。流形假设下的 GAS 算法在算法 1 中给出。

截断投影(超球面假设)。 超球面假设进一步约束了从GAS 得到的梯度异常特征 g~ih,w 和从LAS得到的局部异常特征 ui+h,w的分布。与公式 (2) 类似,全局异常特征 v~ih,w 通过将g~ih,w投影到集合 Np={g~ih,wr1<g~ih,wc2<r2}上获得。由于 ui+h,w 通常比v~ih,w 更远离正常特征uih,w它也被投影到集合Np={ui+h,wr2<ui+h,wc2<r3} 上,如图 3(b) 所示。这是因为在超球面假设下,ui+h,w不太可能与 uih,w合并,这是流形假设下可能出现的问题。为了使正常样本更加紧凑,下界阈值r1表示超球面半径,该值会被迭代更新,并经验性地设置为覆盖 75% 的正常样本。这防止了合成的异常过于接近中心。上界阈值通常设置为r3=2r2=4r1

鉴于流形分布的复杂非线性结构,我们假设更集中的类内分布与超球面分布更为接近,反之亦然。通过实验验证,由于大多数缺陷具有复杂的非线性结构,流形分布的表现稍优于超球面分布。在实践中,我们分析图像级的谱图以确定不同类别的分布假设。假设选择的具体细节见附录 B 部分。

F4

图 4:局部异常合成(LAS)的流程图,包括三个步骤:步骤 I:异常掩码,步骤 II:异常纹理,步骤 III:叠加融合。

 

3.3 图像级局部异常合成策略 (LAS)

在局部区域合成异常可以提供更详细的异常纹理。将 DTD 数据集的纹理与 Perlin 噪声掩膜结合,在图像级别上合成异常,这是一种常见的异常检测方法。基于此方法,我们提出图像级 LAS 来合成更多样化的异常。图 4 展示了 LAS 的流程图,其详细步骤如下:

 

Hadamard积的定义

如果AB 是两个形状相同的矩阵或向量,则它们的 Hadamard 积AB是对应元素的逐元素相乘:

(AB)i,j=Ai,jBi,j

对于向量元素:

xy=[x1y1x2y2xnyn]

 

 

3.4 判别器与训练目标

通过三条分支分别获得三组特征,并将它们作为判别器Dψ 的输入。判别器采用单隐藏层的多层感知器 (MLP) 和 Sigmoid 激活函数,直接输出每个特征点的异常置信度zh,w,iR。在分类问题中,置信度常由模型的软最大化(Softmax)输出计算得到。训练目标包含三个组成部分:

BCE:

g1

Focal Loss:

g2

g3

为筛选关键样本如微弱缺陷,采用了在线难样本挖掘 (OHEM)方法应用于 Llas。最终的损失函数为:

(10)L=Ln+Lgas+fohem(Llas)

3.5 推理和异常评分

如图 2 所示,推理过程通过实线表示,不涉及 GASLAS。输入图像 xiXtest经过第 3.1 节中的过程处理得到 ui=Aϕ(Eϕ(xi))。随后,判别器 Dψ 给出分割结果 zi=Dψ(ui)。通过将ziRHm×Wm 插值上采样到原始图像大小并应用高斯平滑以减小噪声,获得用于异常定位的像素级异常评分 SAL

(11)SAL=fsmooth(fresizeH0,W0(zi))

 

此外,用于异常检测的图像级异常评分SAD定义为zi中所有点的最大值

T1

表1: GLASS及其变种与不同SOTA方法在MVTec AD各类别上的比较。·/· 表示图像级AUROC%和像素级AUROC%。

 

4 实验

4.1 数据集

实验中使用了三个广泛应用的公共真实世界数据集MVTecAD[4]VisA[41]MPDD[14]。此外,我们还在工业环境下构建了织物缺陷检测WFDD数据集,其中包含3860个正常样本和241个异常样本。为了评估GLASS在弱缺陷检测中的能力,我们基于MVTecAD创建了两个测试集。MVTecADmanualMADman由五个子集组成,每个子集由五个不同的人员从MVTecAD的每个类别中选择弱缺陷样本,并确保选择过程不偏不倚。由于弱缺陷样本稀缺,我们还合成了一个弱缺陷测试集,命名为MVTecADsynthesisMADsys,该数据集由MVTecAD的五个纹理类别合成而成。MADsys包含四个子集,具有不同的弱度等级,通过调整公式4中的β={0.1,0.3,0.5,0.7}获得。WFDDMADmanMADsys数据集已在该网站发布。有关这些数据集的详细信息,请参见附录A。

4.2 实现细节

实验设置
我们使用WideResnet50作为Eϕ的主干,并合并了level2level3的特征用于GLASS。邻域大小p设置为3。输入图像被调整为288×288的尺寸并进行中心裁剪。对于LAS,透明系数βN(0.5,0.12)被限制在[0.2, 0.8]的范围内。对于GAS,采用的高斯噪声εN(0,0.0152)。GLASS-m基于流形假设,其中r1=1r2=2(参见公式2)。GLASS-h基于超球体假设。GLASS-j是一个混合策略,通过判断合并了GLASS-h和GLASS-m。每个类别选择GLASS-h还是GLASS-m,是通过图像级谱图分析方法确定的。由于GLASS的三个变种非常相似,默认实验使用GLASS-m。我们使用Adam优化器训练AφDψ,学习率分别为0.0001和0.0002。训练轮数设置为640,批量大小为8。所有实验都在NVIDIA Tesla A800 GPU和Intel(R) Xeon(R) Gold 6346 CPU @3.10GHz上实现。

评估指标
接收者操作特征曲线下面积(AUROC)是异常检测中常用的评估指标,我们使用它来评估模型在图像级和像素级的判别能力。为了提供更全面的异常定位能力评估,我们还在像素级计算了每区域重叠(PRO)。

 

F5

图 5:GLASS-j在MVTec AD每个类别上的异常分数直方图。

该图展示了GLASS-j方法在MVTec AD数据集的不同类别上的异常分数分布。通过异常分数的直方图,可以清晰地看到正常样本和异常样本的分布差异,这有助于了解模型在各类别中区分异常与正常样本的能力。

4.3 在不同数据集上的对比实验

根据文献[19],我们选取了五个当前最先进的SOTA方法进行对比实验,包括DSR[38]PatchCore[23]BGAD w/o[33]、RD++[30]SimpleNet[20]。更多的对比实验可以参考附录D。

T2

表 2:GLASS及其变体与不同SOTA方法在四个数据集上的比较。

表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%和像素级PRO%。最后一列提供了每秒图像处理量(img/s)的吞吐量。

F6

图 6:GLASS-j与不同SOTA方法在MVTec AD上的定性结果

此图展示了GLASS-j与其他几种最新方法(SOTA)在MVTec AD数据集上的定性结果。通过视觉对比,展示了各方法在检测异常样本时的效果,突出显示了GLASS-j在处理不同类型异常时的表现。

F7

图 7:GLASS-m与不同SOTA方法在数据集上的定性结果

此图展示了GLASS-m与其他SOTA方法在多个数据集上的定性结果。通过图像对比,展示了各方法在检测各种类型异常时的效果,突出显示了GLASS-m在不同工业场景下的出色表现,特别是在弱缺陷检测方面的优势。

 

MVTec AD上的异常检测

如表1所示,GLASS-j在MVTec AD数据集的15个类别中有9个类别达到了100%的图像级AUROC,整体在MVTec AD上的平均图像级AUROC为99.9%,像素级AUROC为99.3%,表现出色。具体而言,GLASS-m在具有复杂非线性结构的类别中表现优异,因为它适用于局部敏感的流形分布,而基于超球面分布的GLASS-h则偏向于类别内分布较为集中的情况。图5中的直方图显示了正常样本和异常样本之间几乎没有重叠,异常样本的异常分数显著较高且集中。类似地,图6展示了GLASS-j在区分正常样本和异常样本方面的优异能力。

T3

表 3:GLASS-m与不同方法在两个弱缺陷测试集上的比较

该表展示了GLASS-m与其他方法在两个弱缺陷测试集上的表现。表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%、和像素级PRO%。通过对比,GLASS-m在这些测试集上的表现显著优于其他方法,特别是在弱缺陷检测方面。

 

4.4 消融研究

为了验证不同模块的贡献,特别是在弱缺陷检测中的贡献,我们主要在MVTecAD上进行了相应的消融实验。更多的消融研究结果可以在附录C中找到。

异常合成策略

我们将GAS分为三个组成部分:高斯噪声(GN)、梯度上升(GA)和截断投影(TP)。如表4所示,GAS(没有GA和TP)在MVTec AD上的表现优于LAS。这表明GAS在检测各种类型的异常方面具有优势。然而,LAS在MAD-sys上的弱缺陷检测中表现更优,揭示了其在检测局部异常方面的优势。LAS和GAS的协同训练实现了明显的改进,展示了它们在合成更广泛异常覆盖方面的互补性。

 

T4

表 4:GLASS-m在MVTec AD和两个弱缺陷测试集上不同异常合成策略下的表现

该表展示了GLASS-m在MVTec AD和两个弱缺陷测试集上的表现,比较了不同异常合成策略对模型性能的影响。表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%、和像素级PRO%。通过对比,表明不同的合成策略在图像级和像素级的检测性能上有所差异,从而帮助揭示合成策略对弱缺陷检测的作用。

F8

图 8:在不同流形距离 r1下,GLASS-m 在 MVTec AD 上的表现

该图展示了在不同的流形距离r1 设置下,GLASS-m 在 MVTec AD 数据集上的表现。通过调整r1的值,评估模型的性能变化,进一步验证了流形距离对异常合成和检测性能的影响。

T5

表 5:在不同骨干网络设置下,GLASS-m 在 MVTec AD 上的表现

该表展示了 GLASS-m 在 MVTec AD 数据集上使用不同骨干网络设置时的性能表现。表中列出了不同骨干网络架构下,图像级 AUROC、像素级 AUROC 和像素级 PRO 的评估结果,帮助分析不同骨干网络对 GLASS-m 整体性能的影响。

对骨干网络的依赖

如表5所示,将WideResNet50的level2和level3输出的特征合并可以获得最佳性能。我们已选择它作为默认设置。与此同时,我们的方法并不依赖于特定的骨干网络。GLASS能够在多个不同参数数量的ResNet之间维持良好的性能,尤其是在MVTec AD上。

特征适配器

如第3.1节所介绍,我们使用特征适配器 Aφ 来减轻预训练骨干网络Eϕ 带来的潜在领域偏差。我们在MVTec AD上对使用和不使用Aφ的GLASS-m进行了实验。结果表明,每个分支中缺少Aφ 会导致像素级AUROC下降0.1%,像素级PRO下降0.5%。

流形距离

在第3.2节中,我们引入了流形距离 r1用于梯度上升的截断投影。它代表了正常特征分布的容忍度,不能太大(过拟合)或太小(欠拟合),从而有助于可控的异常合成。由于预训练特征已经标准化,梯度上升的距离ε~ih,w 大多分布在1左右。图8证明了r1 的最佳范围为[0.5, 1]。因此,我们默认选择r1=1

 

5 结论

本文提出了一种新颖的统一框架GLASS,通过GAS和LAS的协同训练,以可控的方式在流形和超球面假设下合成更广泛覆盖的异常。具体而言,我们提出了基于梯度上升和截断投影的GAS。GAS具备定量合成弱缺陷的能力,解决了高斯噪声中随机合成方向的问题。LAS通过提供更为多样的异常合成方式进行改进。GLASS在四个工业设置中的异常检测数据集上取得了SOTA的结果,并且在弱缺陷检测方面展现了优越的性能。然而,我们的主要关注点是本地化工业场景中的结构性异常,尚未深入探讨逻辑性异常。未来,我们将研究GLASS在逻辑性异常检测中的应用,并计划实现无需依赖辅助纹理数据集的异常合成。

致谢

本工作得到了中国国家自然科学基金(项目编号62303458、62303461和U21A20482)的资助。同时,本工作也得到了北京市自然科学基金(项目编号L243018)的资助。此外,我们要感谢WEIQIAO Textile公司为收集WFDD数据集中的原始图像提供的支持。

 

附录

A. 数据集详情

实验中使用了三个公共数据集和三个自建数据集。表 S1 中详细列出了每个数据集中图像数量和类别数量。三个自建数据集已在 github.com/cqylunlun/GLASS 上发布。

表 S1:实验中使用的所有数据集概览 其中,N 和 A 分别代表“正常”和“异常”。

Ts1

A.1. 公共数据集

Fs1

Figure S1: WFDD 自建数据集示例。从上到下,四个类别依次为灰布、网格布、黄布和粉花布。异常样本上的像素级标注由红色边界标记。

Fs2

Figure S2: 自建测试集 MAD-man 中选出的微弱缺陷示例。红色箭头指示异常位置。

Fs3

Figure S3: 自建测试集 MAD-sys 中不同透明系数 β 下的合成微弱缺陷示例。

 

 

A.2. 自建数据集

B. Implementation Details

B.1. GAS under Hypersphere Hypothesis

在第 3.2 节中提出的流形和超球体假设非常相似。由于加强了全局和局部异常特征之间的联系,超球体假设中的截断投影过程与流形假设中的不同。基于超球体假设的 GAS 算法在算法 S1 中给出。

B.2. Image-level Spectrogram Analysis

GLASS-m 和 GLASS-h(第 3.2 节)分别基于流形和超球体假设。GLASS-j 通过图像级频谱分析结合 GLASS-h 和 GLASS-m。在实际应用中,对图像级频谱进行分析,以确定不同类别的分布假设。具体来说,我们计算每个类别所有样本的平均值 x¯=1|Xtrain|xiXtrainxi。然后应用离散傅里叶变换(DFT)得到频谱 Si=fDFT(xi) 。通过中心偏移和二值化,计算由图 S5 中橙色边界所围区域内的正像素比例,以确定紧凑度。设置一个通用阈值后,可以确定每个类别的分布假设。较低的紧凑度倾向于流形假设,而较高的紧凑度倾向于超球体假设。如图 S5 所示,超球体分布类别显示出更集中的类内分布,而流形分布类别则在每个样本中显示出更复杂的非线性结构。第 D 节的对比实验表明,大多数通过图像级频谱分析得出的假设比相反假设更有效。

C. Extended Ablation Study

C.1. Neighborhood Size

如第 3.1 节所述,邻域大小p 是特征提取器Eϕ 中特征聚合的补丁大小。图 S4 表明,在p=3p=4p=5 之间,性能差异较小。我们选择 p=3 ,因为它在像素级别的AUROC 上取得了最高值。

 

Fs4

Figure S4. GLASS-m 在 MVTec AD 数据集上不同补丁大小下的性能表现。

Fs5

Figure S5. 各种数据集的图像级频谱分析示例。每个图包含三个子图,分别表示所有样本的平均值、灰度频谱图和二值频谱图(从左到右)。紧凑度通过橙色边界区域内的正像素比例计算。·/·/·/· 依次表示数据集名称、类别名称、推导假设和频谱紧凑度。

As1

 

C.2. 噪声尺度

如第 3.2 节所述,高斯噪声用于在特征空间中合成异常。然而,由于梯度上升和截断投影的限制,高斯噪声的尺度有多种选择。图 S6 表明,不同标准差下的性能差距可以忽略不计。我们选择了标准差 (σg=0.015),其像素级 AUROC 最高。

Fs6

图 S6 展示了 GLASS-m 在 MVTec AD 数据集上在不同噪声尺度下的性能。结果表明,在不同标准差的高斯噪声下,性能差异很小,几乎没有明显的性能差距。选择标准差 (\sigma_g = 0.015) 时,像素级 AUROC 达到最高值,表明该参数在异常检测中的最佳性能。

 

C.3. LAS中的组件

如第3.3节所提到,LAS使用了三种操作:交互、并集和单一操作来生成异常掩码。表S2显示,采用这三种操作能够产生最大的异常区域多样性,表现优于其他策略。此外,缺少前景掩码时产生的模糊合成位置,以及常数β导致的异常多样性减少,都会略微降低性能。由于合成多样性的优势,LAS的性能超过了CutPaste[17]和NSA[26]。我们的GLASS(“GAS + LAS”)相比于“GAS + CutPaste”,在平均图像级AUROC、像素级AUROC和像素级PRO上分别提高了0.5%、0.6%和3.2%。

Ts2

表S2. 在不同异常合成策略下,使用提议的GAS方法的GLASS-m在MVTec AD上的性能。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。N/C是“无变化”的缩写。

 

Ts3

表 S3. 在不同训练目标下,GLASS-m 在 MVTec AD 上的表现。·/·/· 表示图像级 AUROC%、像素级 AUROC% 和像素级 PRO%。并且相比于“GAS + NSA”,在图像级 AUROC%、像素级 AUROC% 和像素级 PRO% 上分别提高了 0.2%、0.4% 和 3.2%。

 

C.4. 训练目标

如第3.4节所述,在Normal和GAS分支的训练阶段,使用常见的BCE损失。然而,由LAS合成的局部异常特征检测可以看作是一个分割任务,面临正负样本不平衡的问题。因此,LAS分支中的判别器Dψ通过Focal损失进行训练。表S3显示,使用Focal损失训练LAS可以将像素级PRO提高1.4%。此外,通过使用OHEM过滤重要样本,PRO进一步提高了1.1%。尽管使用BCE损失已经取得了良好的性能,但引入Focal损失和OHEM后,性能得到了进一步提升。

 

Ts4

表S4. 比较GLASS及其变体与不同SOTA方法在VisA每个类别上的表现。·/·表示图像级AUROC%和像素级AUROC%。

Ts5

表S5. GLASS及其变体与不同SOTA方法在MPDD每个类别上的表现比较。·/·表示图像级AUROC%和像素级AUROC%。

Ts6

 

表S6. GLASS及其变体与不同SOTA方法在WFDD每个类别上的表现比较。·/·表示图像级AUROC%和像素级AUROC%。

Ts7

表S7. GLASS-m与不同SOTA方法在MAD-man上的比较。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。

Ts8

表S8. GLASS-m与不同SOTA方法在MAD-sys上的比较。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。

D. 详细比较实验

根据[19],本文采用了五种SOTA方法,包括基于图像重建的DSR [38],基于内存库的PatchCore [23],基于正规化流的BGADw/o [33],基于知识蒸馏的RD++ [30],以及基于单类分类的SimpleNet [20]。具体来说,DSR和SimpleNet使用特征级的异常合成,而BGAD和RD++使用图像级的异常合成。

D.1. 公共数据集上的异常检测

MVTec AD上的异常检测 本文在第4.3节中讨论了GLASS在MVTec AD上的卓越表现。如表1所示,GLASS-j以99.9%的图像级AUROC和99.3%的像素级AUROC取得了SOTA(最先进)性能。如图5和图S7所示,GLASS通过较少的重叠区域和更集中的异常分数,展现出比DSR更好的区分正常样本和异常样本的能力,因此具有更强的判别能力。

VisA上的异常检测 如表S4所示,GLASS-j在12个类别中的8个类别上取得了优异的表现,确立了其作为VisA的SOTA方法,图像级AUROC和像素级AUROC均为98.8%。所有三种GLASS变体均优于其他SOTA方法。由于大多数样本具有复杂的非线性结构,本地敏感的GLASS-m在性能上略优于GLASS-h。

MPDD上的异常检测 如表S5所示,GLASS-j在所有类别上均取得了优异的表现,确立了其作为MPDD的SOTA方法,图像级AUROC为99.6%,像素级AUROC为99.4%。由于MPDD中的所有类别都被认为是流形分布,GLASS-j和GLASS-m在异常检测任务中的表现相同。然而,由于“Bracket brown”和“Bracket white”类别的光谱图紧凑度极低(如图S5所示),GLASS-m在这两个类别上明显优于GLASS-h。

复杂环境下的异常检测 如图S8所示,来自三个公共数据集的多个类别已经包含了不同倾斜角度和散乱物体的样本。为了模拟背景复杂的环境,我们通过对“Capsules”类别的样本应用颜色抖动和添加不同尺度的高斯噪声来增强背景,同时保持前景不变。与干净背景相比,GLASS在脏背景下的图像级AUROC略微下降0.7%,而SimpleNet则下降了6.2%。这表明GLASS在处理复杂工业环境中的样本时(例如散乱物体和脏背景)更具鲁棒性。

Fs7

Figure S7: 这是DSR方法在MVTec AD数据集上异常分数的直方图。

Fs8

Figure S8: 来自MVTec AD、MPDD和VisA数据集的测试异常样本。

D.2. 在自建数据集上的异常检测

WFDD上的异常检测:如表S6所示,GLASS-j在WFDD所有类别上都取得了优越的性能,图像级AUROC平均为100%,像素级AUROC为98.9%。同样,GLASS-j在WFDD的异常检测任务中与GLASS-m表现相当。显而易见,GLASS-m在纹理类别上的表现明显优于GLASS-h,这表明GLASS-h更倾向于具有更集中类内分布的类别。

MAD-man上的异常检测:MAD-man是由五个人在无偏条件下独立选择的。如表S7所示,GLASS在MAD-man上对于选定的弱缺陷表现优异。同时,GLASS在每个子集的三个指标上均超过了其他方法。因此,GLASS在弱缺陷检测方面具有更大的优势。

MAD-sys上的异常检测:如表S8所示,GLASS在MAD-sys上的表现优异,能够有效检测不同程度的弱缺陷。随着β值的增加,缺陷区域变得不易区分,GLASS在其他方法面前的优势变得更加明显,尤其在性能逐渐下降的情况下。

Fs9

图 S9. GLASS及其变体与不同SOTA方法在MVTec AD上的比较可视化结果。

该图可能展示了GLASS及其变体在MVTec AD数据集上的异常检测性能,和其他最新的SOTA方法进行比较的结果。可视化结果通常包括异常检测图,突出显示GLASS在检测和定位异常方面的有效性,并与DSR、PatchCore等方法进行对比。

Fs10

图 S10. GLASS及其变体与不同SOTA方法在VisA数据集上的比较可视化结果。

该图可能展示了GLASS及其变体在VisA数据集上与其他最新SOTA方法的比较,通过可视化的方式展示每种方法在检测异常时的表现。图中通常会标出异常区域,并通过对比不同方法的异常检测结果,突出GLASS在处理此类工业异常检测任务中的优势。

 

Fs11

图 S11. GLASS及其变体与不同SOTA方法在MPDD数据集上的比较可视化结果。

该图可能展示了GLASS及其变体与其他最先进的SOTA方法在MPDD数据集上的异常检测效果。通过可视化的方式,图中可能显示了每种方法对异常区域的检测效果,突出GLASS在检测金属零部件缺陷方面的优势。

Fs12

 

图 S12. GLASS及其变体与不同SOTA方法在WFDD数据集上的比较可视化结果。

该图可能展示了GLASS及其变体在WFDD数据集(用于织物缺陷检测)上的异常检测结果,并与其他最先进的SOTA方法进行了对比。图中可能会显示各方法在不同类型织物缺陷的检测效果,突显GLASS在处理织物缺陷方面的优越性,特别是在细节和复杂背景下的表现。

Fs13

 

图 S13. GLASS-m与不同SOTA方法在选定弱缺陷测试集MAD-man上的比较可视化结果。

此图可能展示了GLASS-m在MAD-man数据集上的表现,MAD-man是通过5个不同的人员在没有偏差的情况下选择的弱缺陷样本。图中可能会显示GLASS-m与其他最先进的SOTA方法的对比,特别是在检测微弱缺陷方面的优越性。

E. 定性结果

我们展示了三种GLASS变体和五种比较方法在六个数据集上的可视化结果。为了清晰地展示不同区域的相对置信度输出,所有类别样本的异常图都经过统一尺度的归一化处理,而不是对每个样本使用不同的尺度进行归一化。

E.1. 公共数据集的可视化结果

MVTec AD上的可视化结果。 如图S9所示,GLASS确保正常区域的异常得分较低,同时准确地定位具有较高置信度的异常区域,无论是在纹理类别还是物体类别上。特别是在‘Carpet’和‘Pill’类别的结果展示中,GLASS更不容易出现过度检测和漏检。此外,在‘Metal nut’和‘Transistor’类别的结果中,GLASS在检测全局异常方面表现出色。

VisA上的可视化结果。 如图S10所示,GLASS在检测相对较小异常的区域时表现更好。此外,在‘Capsules’和‘Macaroni1’类别的结果中,GLASS即使在图像中存在多个同类型物体时,也能准确地定位异常。

MPDD上的可视化结果。 与其他SOTA方法相比,GLASS的结果显示出更清晰的边缘、更完整的结构和更好的一致性,如图S11所示。由于GLASS-j通过判断确定分布假设,因此在每个类别中始终与GLASS-m或GLASS-h保持一致。由于MPDD中类别的类内分布分散,GLASS-m在异常定位方面优于GLASS-h。

Fs14

 

Figure S14. GLASS-m与不同SOTA方法在MAD-sys的‘Carpet’类别下的可视化比较,展示了不同β值下的结果。输入图像上的真实标注通过红色边界标记。

 

Fs15

图S15. GLASS-m 与不同 SOTA 方法在合成弱缺陷测试集 MAD-sys 上的可视化比较。

E.2. 自建数据集的可视化结果