GLASS: 一种基于梯度上升的统一异常合成策略用于工业异常检测与定位

摘要：异常合成策略可以有效增强无监督的异常检测。然而，现有策略在异常合成的覆盖度和可控性方面存在局限性，特别是在处理与正常区域极为相似的微弱缺陷时。在本文中，我们提出了一种全新的统一框架，称为全局和局部异常联合合成策略（GLASS）。该框架旨在在全局异常合成（GAS）的特征层面和局部异常合成（LAS）的图像层面上，通过流形和超球分布约束下实现更广泛的异常覆盖。我们的方法通过梯度上升和截断投影指导的高斯噪声，在可控范围内合成接近分布内的异常。GLASS在MVTec AD（检测AUROC达99.9%）、VisA和MPDD数据集上取得了最新的技术成果，尤其在微弱缺陷检测方面表现出色。其有效性和效率在工业应用中的织物缺陷检测中得到了进一步验证。

关键词：工业异常检测、异常合成、微弱缺陷检测、梯度上升

1. 引言

异常检测和定位旨在通过利用正常样本来识别和定位异常区域。由于难以收集足够的缺陷样本且像素级标注成本高昂，监督方法在这些场景中变得不切实际。因此，无监督的异常检测技术被广泛应用于工业检测场景中。此外，由于微弱缺陷通常表现为小面积或低对比度的异常，有些异常区域可能接近于正常区域。

现有的异常检测方法大致分为三类：基于重建的方法、基于嵌入的方法和基于分类的方法。基于重建的方法通过分析重建前后的残差图像来检测异常【1, 37】；基于嵌入的方法利用预训练网络提取并压缩特征【8, 15】。一个紧凑的空间可以在特征空间中将异常特征与正常簇清晰地分开。这两类方法都是直接在原始的正常样本上进行训练，但它们无法解决上述问题。基于合成的方法【20, 30, 36, 38】通常通过从正常样本中合成异常，将异常辨别信息引入检测模型以增强性能。

图1展示了各种异常合成策略的流程和可视化。(a) 图像级异常合成策略（灰色三角形）提供了详细的纹理但缺乏多样性；(b) 特征级异常合成策略（粉色菱形）效率更高但缺乏方向性；(c) 我们的方法（蓝色方块）通过梯度上升控制图像和特征层面上的合成异常的分布

常见的范式是图像级异常合成策略【5, 30, 36】，如图1(a)所示，该方法在图像级显式模拟异常。尽管图像级异常合成提供了详细的异常纹理，但它被认为缺乏多样性和真实感。近期的方法【20, 34, 38】基于特征级异常合成策略，如图1(b)所示，该策略在特征级隐式模拟异常。由于特征图尺寸较小，特征级异常合成更为高效。然而，它也缺乏以可控方式方向性地合成异常的能力，尤其是对近分布内的异常。

为解决上述限制，我们提出了全局和局部异常联合合成策略（GLASS），一个全新的统一框架，旨在在特征层面的全局异常合成（GAS）和图像层面的局部异常合成（LAS）的流形和超球分布约束下，合成更广覆盖范围的异常。具体来说，我们提出了新颖的特征级GAS方法，如图1(c)所示，该方法利用梯度上升和截断投影指导的高斯噪声，以可控的方式在正常样本分布附近合成异常，从而形成更紧密的分类边界，进一步增强对微弱缺陷的检测。图像级LAS通过提供更广泛的异常合成提升了多样性。GAS在正常点附近合成微弱异常，而LAS在远离正常点的地方合成强异常。

理论上，GAS合成的近分布内异常源自对正常特征的相对小的噪声和梯度上升，而LAS合成的远分布异常则通过在正常图像上显著叠加纹理生成。因此，图1最右侧的t-SNE可视化显示，由梯度上升引导的异常主要分布在合适的分类边界附近。相比基于高斯噪声的异常合成策略，我们的方法最小化了异常样本和正常样本之间的重叠，降低了将正常样本误分类为异常的风险。

GLASS的主要贡献总结如下：

我们提出了一个统一框架，可在图像和特征级以可控方式合成更广覆盖的异常。
我们提出了新颖的特征级GAS方法，利用梯度上升指导的高斯噪声来增强微弱缺陷的检测。
大量实验表明，GLASS在工业异常检测和定位任务中优于现有的最先进（SOTA）方法。

2. 相关工作

基于重建的方法（如自编码器[37, 40]）通过分析重建前后的残差图像来检测异常。这些方法假设模型可以正确重建正常区域，但无法重建异常区域。然而，这些方法高度依赖于重建图像的质量，并面临差异分析方法的挑战。

基于嵌入的方法利用预训练网络提取特征，随后将正常特征压缩到一个紧凑的空间中，结果是在特征空间中将异常特征与正常簇明显分开。存储库方法【2, 12, 23】存储具有代表性的正常特征，并通过度量学习检测异常。类似地，单类分类方法【15, 22, 31】进一步定义了明确的分类边界，如超平面【27】或超球体【29】。正态化流【9】方法【11, 16, 35】旨在将正常样本的分布转换为标准高斯分布，使异常样本呈现出较低的概率。知识蒸馏方法【3, 8, 25】利用教师网络和学生网络在异常检测能力上的差异。尽管这些特征嵌入方法表现良好，但它们仅在原始正常样本上训练，缺乏对异常样本的表示。

基于合成的方法将异常的合成视为从正常样本中进行的数据增强，目的是引入异常辨别信息，并减轻因将所有正常样本映射到一个点而可能出现的过拟合问题。大多数现有方法在图像级合成异常：CutPaste【17】采用一种简单的方法，将正常区域剪切并随机粘贴到其他位置；NSA【26】使用泊松图像编辑将不同大小的图块无缝混合，从而合成出更接近自然子图像不规则性的异常；DRAEM【36】通过生成二元掩码（使用Perlin噪声）并在正常图像中填充外部纹理来合成异常。

$GLASS$ $GAS$ $LAS$ 分支基于纹理叠加，从正常图像中分三步合成局部异常图像。

$DSR$ $SimpleNet$ $UniAD$ 【34】通过向正常特征添加高斯噪声来合成异常。通常，图像级异常合成提供了详细的异常纹理但缺乏多样性，而特征级异常合成更为高效，但在方向性和可控性方面面临挑战。

3. 提出的方法

$GLASS$ $GAS$ $LAS$ $E_{\phi}$ $A_{\varphi}$ $D_{\psi}$ $E_{\phi}$ $A_{\varphi}$ $GAS$ $LAS$ $E_{\phi}$ $A_{\varphi}$ $D_{\psi}$ 中，该判别器是通过端到端训练的分割网络，使用三个损失函数。在推理阶段，仅使用正常分支的框架来处理测试图像。。

$（GAS）$ $r_m$ $r_h$ $L_2$ $r_m < r_1$ $r_h < r'_1$ $r_m > r_2$ $r'_2 < r_h < r'_3$ $r_1 < r_m < r_2$ $r'_1 < r_h < r'_2$ ）表示通过梯度上升和截断投影从高斯异常特征中获得的全局异常特征。

3.1 特征提取器和特征适配器

$A_{\varphi}$ $E_{\phi}$ $\phi$ $x_i \in X_{\text{train}}$ $j$ $\phi_{i,j} = \phi_j(x_i) \in \mathbb{R}^{H_j \times W_j \times C_j}$ $H_j$ $W_j$ $C_j$ $(h, w)$ $\phi_{i,j}^{h,w} \in \mathbb{R}^{C_j}$ 。

$\phi_{i,j}^{h,w}$ $s_{i,j}^{h,w} \in \mathbb{R}^{C_j}$ $p$ $s_{i,j}^{h,w}$ $s_{i,j}$ $s_{i,j}$ $t_{i} \in \mathbb{R}^{H_m \times W_m \times C}$ $t_i = E_{\phi}(x_i)$ $C = \sum_{j \in J} C_j$ 。

$u_i^{h,w}$ $u_i^{h,w} = A_{\varphi}(t_i^{h,w})$ $A_{\varphi}$ 使用一个单层感知器，输入和输出层的节点数相同。

3.2 特征级全局异常合成策略 (GAS)

在特征空间合成异常[20, 34, 38]已被证明是一种有效的方法。然而，现有的方法缺乏在可控的方式下定向合成异常的能力，特别是对于接近分布的异常。为了更高效地在特征空间合成异常，我们通过向正常特征添加高斯噪声来获得全局异常特征，并使用梯度上升来约束这些异常的合成方向。这里，“全局”意味着异常是在特征图的所有点上合成的。

$GAS$ 的过程描述如下：

分布假设 $u_{i}^{h,w}$ $U \subseteq \mathbb{R}^C$ $N_a = \{ \tilde{u}_{i}^{h,w} \mid \|\tilde{u}_{i}^{h,w} - u_{j}^{h,w}\|_2 > r_1, \forall u_{j}^{h,w} \in U \}$ 被视为异常的。

$u_{i}^{h,w}$ $N'_a = \{ \tilde{u}_{i}^{h,w} \mid \|\tilde{u}_{i}^{h,w} - c\|_2 > r'_1 \}$ $c = \frac{1}{|U|} \sum_{u_{i}^{h,w} \in U} u_{i}^{h,w}$ 。

在流形和超球体假设下，所提的GAS采用三步法，包括高斯噪声、梯度上升和截断投影来合成全局异常特征。GAS的前两步对于流形假设和超球体假设是相同的。

高斯噪声 $g_{i}^{h,w}$ $\varepsilon_{i}^{h,w} \sim N(\mu_g, \sigma_g^2)$ $u_{i}^{h,w}$ 上获得，表示为：

\begin{matrix} (1) & g_{i}^{h, w} = u_{i}^{h, w} + ε_{i}^{h, w} \end{matrix}

然而，这些高斯异常特征点是以无方向的方式合成的，这导致检测训练的效果不佳。

梯度上升 $L_{\text{gas}}$ $\eta$ $\tilde{g}_{i}^{h,w}$ ：

\begin{matrix} (2) & {\tilde{g}}_{i}^{h, w} = g_{i}^{h, w} + η \frac{\nabla L_{gas} (g_{i}^{h, w})}{‖ \nabla L_{gas} (g_{i}^{h, w}) ‖} \end{matrix}

截断投影（流形） $\tilde{g}_{i}^{h,w}$ $u_{i}^{h,w}$ $\tilde{\varepsilon}_{i}^{h,w} = \tilde{g}_{i}^{h,w} - u_{i}^{h,w}$ $\tilde{g}_{i}^{h,w}$ $N_p = \{ \tilde{g}_{i}^{h,w} \mid r_1 < \|\tilde{g}_{i}^{h,w} - u_{i}^{h,w}\|_2 < r_2 \}$ $\\hat{\varepsilon}_{i}^{h,w}$ 给出为：

\begin{matrix} (3) & {\hat{ε}}_{i}^{h, w} = \frac{α_{i}}{‖ {\tilde{ε}}_{i}^{h, w} ‖} {\tilde{ε}}_{i}^{h, w} \end{matrix}

其中，

\begin{matrix} (4) & \begin{matrix} α_{i} = {\begin{cases} r_{1} & if ‖ {\tilde{ε}}_{i}^{h, w} ‖ < r_{1} \\ r_{2} & if ‖ {\tilde{ε}}_{i}^{h, w} ‖ > r_{2} \\ ‖ {\tilde{ε}}_{i}^{h, w} ‖ & otherwise \end{cases} \end{matrix} \end{matrix}

$\alpha_{i}$ $| \tilde {\varepsilon }_{i}^{h,w} \|$ $r_{1}$ $r_{2}$ $r_2 = 2r_1$ $v_{i}^{h,w} = u_{i}^{h,w} + \hat {\varepsilon }_{i}^{h,w}$ $GAS$ 算法在算法 1 中给出。

截断投影（超球面假设）。 $GAS$ $\tilde {g}_{i}^{h,w}$ $LAS$ $u_{i+}^{h,w}$ $\tilde {v}_{i}^{h,w}$ $\tilde {g}_{i}^{h,w}$ $N'_p = \{ \tilde {g}_{i}^{h,w} \mid r'_1 < \|\tilde {g}_{i}^{h,w} - c\|_2 < r'_2 \}$ $u_{i+}^{h,w}$ $\tilde {v}_{i}^{h,w}$ $u_{i}^{h,w} ，$ $N''_p = \{ u_{i+}^{h,w} \mid r'_2 < \|u_{i+}^{h,w} - c\|_2 < r'_3 \}$ $u_{i+}^{h,w}$ $u_{i}^{h,w}$ $r'_1$ $r'_3 = 2r'_2 = 4r'_1$ 。

鉴于流形分布的复杂非线性结构，我们假设更集中的类内分布与超球面分布更为接近，反之亦然。通过实验验证，由于大多数缺陷具有复杂的非线性结构，流形分布的表现稍优于超球面分布。在实践中，我们分析图像级的谱图以确定不同类别的分布假设。假设选择的具体细节见附录 B 部分。

$LAS$ ）的流程图，包括三个步骤：步骤 I：异常掩码，步骤 II：异常纹理，步骤 III：叠加融合。

3.3 图像级局部异常合成策略 (LAS)

在局部区域合成异常可以提供更详细的异常纹理。将 DTD 数据集的纹理与 Perlin 噪声掩膜结合，在图像级别上合成异常，这是一种常见的异常检测方法。基于此方法，我们提出图像级 LAS 来合成更多样化的异常。图 4 展示了 LAS 的流程图，其详细步骤如下：

异常掩膜 $m_1$ $m_2$ $m_f$ $m_1$ $m_2$ $m_i$ ：

$\begin{matrix} (5) & \begin{matrix} m_{i} = {\begin{cases} (m_{1} \land m_{2}) \land m_{f} & 0 \leq p_{m} \leq α \\ (m_{1} \lor m_{2}) \land m_{f} & α < p_{m} \leq 2 α \\ m_{1} \land m_{f} & 2 α < p_{m} \leq 1 \end{cases} \end{matrix} \end{matrix}$

$p_m \sim U(0,1)$ $\alpha = \frac{1}{3}$ 。
异常纹理 $x'_i$ $K=9$ $T = \{T_1, \ldots, T_K\}$ $T_R \subset T$ $x''_i = T_R(x'_i)$ 。
覆盖融合 $\beta \sim N(\mu_m, \sigma_m^2)$ $x_i$ $x_i^+$ 的融合表达式为：
$\begin{matrix} (6) & x_{i}^{+} = x_{i} ⊙ \bar{m_{i}} + (1 - β) x_{i}^{″} ⊙ m_{i} + β x_{i} ⊙ m_{i} \end{matrix}$
$\bar{m_i}$ $m_i$ $u_{i}^+ = A_\phi(E_\phi(x_i^+))$ $(h,w)$ $u_{h,w,i}^+$ 。

Hadamard积的定义

$A$ $B$ $A \odot B$ 是对应元素的逐元素相乘：

$(A \odot B)_{i,j} = A_{i,j} \cdot B_{i,j}$

对于向量元素：

$x \odot y = \begin{bmatrix} x_1 \cdot y_1 \\ x_2 \cdot y_2 \\ \vdots \\ x_n \cdot y_n \end{bmatrix}$

3.4 判别器与训练目标

$D_ψ$ $z_{h,w,i} \in \mathbb{R}$ 。在分类问题中，置信度常由模型的软最大化（Softmax）输出计算得到。训练目标包含三个组成部分：

BCE：

Focal Loss：

$L_n$ $z_{i,n} = D_\psi(u_i)$ 与全尺寸正常特征图的交叉熵( Binary Cross-Entropy (BCE) )损失：
$\begin{matrix} (7) & L_{n} = \sum_{x_{i \in X t r a i n}} f_{B C E} (z_{i, n}, 0) \end{matrix}$
$L_{\text{gas}}$ $z_{i,\text{gas}} = D_\psi(v_i)$ 与全尺寸异常特征图的交叉熵损失：
$\begin{matrix} (8) & L_{g a s} = \sum_{x_{i} \in X t r a i n} f_{B C E} (z_{i, g a s}, 1) \end{matrix}$
$L_{\text{las}}$ $z_{i,las}=D_ψ (ui^+)$ $m_i$ $Focal$ 损失：
$\begin{matrix} (9) & L_{l a s} = \sum_{x i \in X t r a i n} f_{F o c a l} (z_{i, l a s}, m_{i}) \end{matrix}$

$(OHEM)$ $L_{\text{las}}$ 。最终的损失函数为：

\begin{matrix} (10) & L = L_{n} + L_{g a s} + f_{o h e m} (L_{l a s}) \end{matrix}

3.5 推理和异常评分

$GAS$ $LAS$ $x_i \in X_{\text{test}}$ $u_i = A_\phi(E_\phi(x_i))$ $D_\psi$ $z_i = D_\psi(u_i)$ $z_i \in \mathbb{R}^{H_m \times W_m}$ $S_{\text{AL}}$ ：

\begin{matrix} (11) & S_{AL} = f_{smooth} (f_{resize}^{H_{0}, W_{0}} (z_{i})) \end{matrix}

$S_{\text{AD}}$ $z_i$ 中所有点的最大值

表1： GLASS及其变种与不同SOTA方法在MVTec AD各类别上的比较。·/· 表示图像级AUROC%和像素级AUROC%。

4 实验

4.1 数据集

$：MVTec AD [4]、VisA [41]$ $MPDD [14]$ $（WFDD）$ $GLASS$ $MVTec AD$ $MVTec AD-manual（MAD-man）$ $MVTec AD$ $MVTec AD-synthesis（MAD-sys）$ $MVTec AD$ $MAD-sys$ $\beta =\{0.1, 0.3, 0.5, 0.7\}$ $WFDD、MAD-man$ $MAD-sys$ 数据集已在该网站发布。有关这些数据集的详细信息，请参见附录A。

4.2 实现细节

实验设置
$WideResnet50$ ${E}_{\phi}$ $level2$ $level3$ $GLASS$ $\beta \sim N(0.5, 0.1^2)$ $\varepsilon \sim N(0, 0.015^2)$ $r_1=1，r_2=2$ ${A}_{\varphi}$ ${D}_{\psi}$ ，学习率分别为0.0001和0.0002。训练轮数设置为640，批量大小为8。所有实验都在NVIDIA Tesla A800 GPU和Intel(R) Xeon(R) Gold 6346 CPU @3.10GHz上实现。

评估指标
接收者操作特征曲线下面积（AUROC）是异常检测中常用的评估指标，我们使用它来评估模型在图像级和像素级的判别能力。为了提供更全面的异常定位能力评估，我们还在像素级计算了每区域重叠（PRO）。

图 5：GLASS-j在MVTec AD每个类别上的异常分数直方图。

该图展示了GLASS-j方法在MVTec AD数据集的不同类别上的异常分数分布。通过异常分数的直方图，可以清晰地看到正常样本和异常样本的分布差异，这有助于了解模型在各类别中区分异常与正常样本的能力。

4.3 在不同数据集上的对比实验

$SOTA$ $DSR [38]$ $PatchCore [23]$ $BGAD$ $\mathrm {}^{w/o}$ $RD++ [30]$ $SimpleNet [20]$ 。更多的对比实验可以参考附录D。

表 2：GLASS及其变体与不同SOTA方法在四个数据集上的比较。

表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%和像素级PRO%。最后一列提供了每秒图像处理量（img/s）的吞吐量。

图 6：GLASS-j与不同SOTA方法在MVTec AD上的定性结果

此图展示了GLASS-j与其他几种最新方法（SOTA）在MVTec AD数据集上的定性结果。通过视觉对比，展示了各方法在检测异常样本时的效果，突出显示了GLASS-j在处理不同类型异常时的表现。

图 7：GLASS-m与不同SOTA方法在数据集上的定性结果

此图展示了GLASS-m与其他SOTA方法在多个数据集上的定性结果。通过图像对比，展示了各方法在检测各种类型异常时的效果，突出显示了GLASS-m在不同工业场景下的出色表现，特别是在弱缺陷检测方面的优势。

MVTec AD上的异常检测

如表1所示，GLASS-j在MVTec AD数据集的15个类别中有9个类别达到了100%的图像级AUROC，整体在MVTec AD上的平均图像级AUROC为99.9%，像素级AUROC为99.3%，表现出色。具体而言，GLASS-m在具有复杂非线性结构的类别中表现优异，因为它适用于局部敏感的流形分布，而基于超球面分布的GLASS-h则偏向于类别内分布较为集中的情况。图5中的直方图显示了正常样本和异常样本之间几乎没有重叠，异常样本的异常分数显著较高且集中。类似地，图6展示了GLASS-j在区分正常样本和异常样本方面的优异能力。

表 3：GLASS-m与不同方法在两个弱缺陷测试集上的比较

该表展示了GLASS-m与其他方法在两个弱缺陷测试集上的表现。表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%、和像素级PRO%。通过对比，GLASS-m在这些测试集上的表现显著优于其他方法，特别是在弱缺陷检测方面。

4.4 消融研究

$MVTec AD$ 上进行了相应的消融实验。更多的消融研究结果可以在附录C中找到。

异常合成策略

我们将GAS分为三个组成部分：高斯噪声（GN）、梯度上升（GA）和截断投影（TP）。如表4所示，GAS（没有GA和TP）在MVTec AD上的表现优于LAS。这表明GAS在检测各种类型的异常方面具有优势。然而，LAS在MAD-sys上的弱缺陷检测中表现更优，揭示了其在检测局部异常方面的优势。LAS和GAS的协同训练实现了明显的改进，展示了它们在合成更广泛异常覆盖方面的互补性。

表 4：GLASS-m在MVTec AD和两个弱缺陷测试集上不同异常合成策略下的表现

该表展示了GLASS-m在MVTec AD和两个弱缺陷测试集上的表现，比较了不同异常合成策略对模型性能的影响。表中的“·/·/·”分别表示图像级AUROC%、像素级AUROC%、和像素级PRO%。通过对比，表明不同的合成策略在图像级和像素级的检测性能上有所差异，从而帮助揭示合成策略对弱缺陷检测的作用。

$r_1$ 下，GLASS-m 在 MVTec AD 上的表现

$r_1$ $r_1$ 的值，评估模型的性能变化，进一步验证了流形距离对异常合成和检测性能的影响。

表 5：在不同骨干网络设置下，GLASS-m 在 MVTec AD 上的表现

该表展示了 GLASS-m 在 MVTec AD 数据集上使用不同骨干网络设置时的性能表现。表中列出了不同骨干网络架构下，图像级 AUROC、像素级 AUROC 和像素级 PRO 的评估结果，帮助分析不同骨干网络对 GLASS-m 整体性能的影响。

对骨干网络的依赖

如表5所示，将WideResNet50的level2和level3输出的特征合并可以获得最佳性能。我们已选择它作为默认设置。与此同时，我们的方法并不依赖于特定的骨干网络。GLASS能够在多个不同参数数量的ResNet之间维持良好的性能，尤其是在MVTec AD上。

特征适配器

$A_{\varphi}$ $E_{\phi}$ $A_{\varphi}$ $A_{\varphi}$ 会导致像素级AUROC下降0.1%，像素级PRO下降0.5%。

流形距离

$r_1$ $\|\tilde{\varepsilon}_{i}^{h,w}\|$ $r_1$ $r_1 = 1$ 。

5 结论

本文提出了一种新颖的统一框架GLASS，通过GAS和LAS的协同训练，以可控的方式在流形和超球面假设下合成更广泛覆盖的异常。具体而言，我们提出了基于梯度上升和截断投影的GAS。GAS具备定量合成弱缺陷的能力，解决了高斯噪声中随机合成方向的问题。LAS通过提供更为多样的异常合成方式进行改进。GLASS在四个工业设置中的异常检测数据集上取得了SOTA的结果，并且在弱缺陷检测方面展现了优越的性能。然而，我们的主要关注点是本地化工业场景中的结构性异常，尚未深入探讨逻辑性异常。未来，我们将研究GLASS在逻辑性异常检测中的应用，并计划实现无需依赖辅助纹理数据集的异常合成。

致谢

本工作得到了中国国家自然科学基金（项目编号62303458、62303461和U21A20482）的资助。同时，本工作也得到了北京市自然科学基金（项目编号L243018）的资助。此外，我们要感谢WEIQIAO Textile公司为收集WFDD数据集中的原始图像提供的支持。

附录

A. 数据集详情

实验中使用了三个公共数据集和三个自建数据集。表 S1 中详细列出了每个数据集中图像数量和类别数量。三个自建数据集已在 github.com/cqylunlun/GLASS 上发布。

表 S1：实验中使用的所有数据集概览 其中，N 和 A 分别代表“正常”和“异常”。

Ts1

A.1. 公共数据集

MVTec AD：MVTec Anomaly Detection [4] 数据集包含15类高分辨率工业产品，共有5354张图像，包含70多种缺陷类型。
VisA：Visual Anomaly [41] 数据集是最大的工业异常检测数据集，包含12类彩色工业部件，共10821张图像。
MPDD：Metal Parts Defect Detection [14] 数据集包括1346张金属部件图像，涵盖6个类别，图像在不同摄像条件下采集。

Fs1

Figure S1: WFDD 自建数据集示例。从上到下，四个类别依次为灰布、网格布、黄布和粉花布。异常样本上的像素级标注由红色边界标记。

Fs2

Figure S2: 自建测试集 MAD-man 中选出的微弱缺陷示例。红色箭头指示异常位置。

Fs3

Figure S3: 自建测试集 MAD-sys 中不同透明系数 β 下的合成微弱缺陷示例。

A.2. 自建数据集

WFDD：为了展示GLASS在真实工业场景中的表现，我们构建了编织面料缺陷检测（WFDD）数据集，包含4类编织面料，共4101张图像，具有不同的纹理和图案。训练集包含3657个正常样本，测试集包含203个正常样本和241个异常样本。正如图 S1 所示，WFDD包含3类具有规则纹理的样本，这些样本来自于WEIQIAO纺织的工业生产现场，另1类具有不规则图案的样本来自于公开的Cloth Flaw Dataset。此外，每类样本还包含块状、点状和线状的缺陷，并提供像素级标注。
MAD-man：为了评估GLASS对真实弱缺陷的检测能力，我们构建了MVTec AD-manual（MAD-man）测试集，该数据集由5名个体在无偏条件下从MVTec AD的15个类别中独立挑选弱缺陷样本，排除了主观干扰。每个子集的每个类别包含2个正常样本和6个异常样本。图 S2 显示了由第一人挑选出的各类别的弱缺陷。
MAD-sys $β = {0.1, 0.3, 0.5, 0.7}$ 的值，MAD-sys 包含4个具有不同弱缺陷程度的子集。在MAD-sys的每张异常图像中，正常背景来自训练集，异常前景通过增强另一个随机训练图像获得。图 S3 显示了随着 β 的增加，弱缺陷逐渐变得更难以区分。

B. Implementation Details

B.1. GAS under Hypersphere Hypothesis

在第 3.2 节中提出的流形和超球体假设非常相似。由于加强了全局和局部异常特征之间的联系，超球体假设中的截断投影过程与流形假设中的不同。基于超球体假设的 GAS 算法在算法 S1 中给出。

B.2. Image-level Spectrogram Analysis

$\bar{x} = \frac{1}{|X_{\text{train}}|} \sum_{x_i \in X_{\text{train}}} x_i$ $S_i = f_{\text{DFT}}(x_i)$ 。通过中心偏移和二值化，计算由图 S5 中橙色边界所围区域内的正像素比例，以确定紧凑度。设置一个通用阈值后，可以确定每个类别的分布假设。较低的紧凑度倾向于流形假设，而较高的紧凑度倾向于超球体假设。如图 S5 所示，超球体分布类别显示出更集中的类内分布，而流形分布类别则在每个样本中显示出更复杂的非线性结构。第 D 节的对比实验表明，大多数通过图像级频谱分析得出的假设比相反假设更有效。

C. Extended Ablation Study

C.1. Neighborhood Size

$p$ $E_{\phi}$ $p = 3 、 p = 4$ $p = 5$ $p = 3$ $AUROC$ 上取得了最高值。

Fs4

Figure S4. GLASS-m 在 MVTec AD 数据集上不同补丁大小下的性能表现。

Fs5

Figure S5. 各种数据集的图像级频谱分析示例。每个图包含三个子图，分别表示所有样本的平均值、灰度频谱图和二值频谱图（从左到右）。紧凑度通过橙色边界区域内的正像素比例计算。·/·/·/· 依次表示数据集名称、类别名称、推导假设和频谱紧凑度。

As1

C.2. 噪声尺度

$\sigma_g = 0.015$ )，其像素级 AUROC 最高。

Fs6

图 S6 展示了 GLASS-m 在 MVTec AD 数据集上在不同噪声尺度下的性能。结果表明，在不同标准差的高斯噪声下，性能差异很小，几乎没有明显的性能差距。选择标准差 (\sigma_g = 0.015) 时，像素级 AUROC 达到最高值，表明该参数在异常检测中的最佳性能。

C.3. LAS中的组件

如第3.3节所提到，LAS使用了三种操作：交互、并集和单一操作来生成异常掩码。表S2显示，采用这三种操作能够产生最大的异常区域多样性，表现优于其他策略。此外，缺少前景掩码时产生的模糊合成位置，以及常数β导致的异常多样性减少，都会略微降低性能。由于合成多样性的优势，LAS的性能超过了CutPaste[17]和NSA[26]。我们的GLASS（“GAS + LAS”）相比于“GAS + CutPaste”，在平均图像级AUROC、像素级AUROC和像素级PRO上分别提高了0.5%、0.6%和3.2%。

Ts2

表S2. 在不同异常合成策略下，使用提议的GAS方法的GLASS-m在MVTec AD上的性能。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。N/C是“无变化”的缩写。

Ts3

表 S3. 在不同训练目标下，GLASS-m 在 MVTec AD 上的表现。·/·/· 表示图像级 AUROC%、像素级 AUROC% 和像素级 PRO%。并且相比于“GAS + NSA”，在图像级 AUROC%、像素级 AUROC% 和像素级 PRO% 上分别提高了 0.2%、0.4% 和 3.2%。

C.4. 训练目标

如第3.4节所述，在Normal和GAS分支的训练阶段，使用常见的BCE损失。然而，由LAS合成的局部异常特征检测可以看作是一个分割任务，面临正负样本不平衡的问题。因此，LAS分支中的判别器Dψ通过Focal损失进行训练。表S3显示，使用Focal损失训练LAS可以将像素级PRO提高1.4%。此外，通过使用OHEM过滤重要样本，PRO进一步提高了1.1%。尽管使用BCE损失已经取得了良好的性能，但引入Focal损失和OHEM后，性能得到了进一步提升。

Ts4

表S4. 比较GLASS及其变体与不同SOTA方法在VisA每个类别上的表现。·/·表示图像级AUROC%和像素级AUROC%。

Ts5

表S5. GLASS及其变体与不同SOTA方法在MPDD每个类别上的表现比较。·/·表示图像级AUROC%和像素级AUROC%。

Ts6

表S6. GLASS及其变体与不同SOTA方法在WFDD每个类别上的表现比较。·/·表示图像级AUROC%和像素级AUROC%。

Ts7

表S7. GLASS-m与不同SOTA方法在MAD-man上的比较。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。

Ts8

表S8. GLASS-m与不同SOTA方法在MAD-sys上的比较。·/·/·表示图像级AUROC%、像素级AUROC%和像素级PRO%。

D. 详细比较实验

根据[19]，本文采用了五种SOTA方法，包括基于图像重建的DSR [38]，基于内存库的PatchCore [23]，基于正规化流的BGADw/o [33]，基于知识蒸馏的RD++ [30]，以及基于单类分类的SimpleNet [20]。具体来说，DSR和SimpleNet使用特征级的异常合成，而BGAD和RD++使用图像级的异常合成。

D.1. 公共数据集上的异常检测

MVTec AD上的异常检测 本文在第4.3节中讨论了GLASS在MVTec AD上的卓越表现。如表1所示，GLASS-j以99.9%的图像级AUROC和99.3%的像素级AUROC取得了SOTA（最先进）性能。如图5和图S7所示，GLASS通过较少的重叠区域和更集中的异常分数，展现出比DSR更好的区分正常样本和异常样本的能力，因此具有更强的判别能力。

VisA上的异常检测 如表S4所示，GLASS-j在12个类别中的8个类别上取得了优异的表现，确立了其作为VisA的SOTA方法，图像级AUROC和像素级AUROC均为98.8%。所有三种GLASS变体均优于其他SOTA方法。由于大多数样本具有复杂的非线性结构，本地敏感的GLASS-m在性能上略优于GLASS-h。

MPDD上的异常检测 如表S5所示，GLASS-j在所有类别上均取得了优异的表现，确立了其作为MPDD的SOTA方法，图像级AUROC为99.6%，像素级AUROC为99.4%。由于MPDD中的所有类别都被认为是流形分布，GLASS-j和GLASS-m在异常检测任务中的表现相同。然而，由于“Bracket brown”和“Bracket white”类别的光谱图紧凑度极低（如图S5所示），GLASS-m在这两个类别上明显优于GLASS-h。

复杂环境下的异常检测 如图S8所示，来自三个公共数据集的多个类别已经包含了不同倾斜角度和散乱物体的样本。为了模拟背景复杂的环境，我们通过对“Capsules”类别的样本应用颜色抖动和添加不同尺度的高斯噪声来增强背景，同时保持前景不变。与干净背景相比，GLASS在脏背景下的图像级AUROC略微下降0.7%，而SimpleNet则下降了6.2%。这表明GLASS在处理复杂工业环境中的样本时（例如散乱物体和脏背景）更具鲁棒性。

Fs7

Figure S7: 这是DSR方法在MVTec AD数据集上异常分数的直方图。

Fs8

Figure S8: 来自MVTec AD、MPDD和VisA数据集的测试异常样本。

D.2. 在自建数据集上的异常检测

WFDD上的异常检测：如表S6所示，GLASS-j在WFDD所有类别上都取得了优越的性能，图像级AUROC平均为100%，像素级AUROC为98.9%。同样，GLASS-j在WFDD的异常检测任务中与GLASS-m表现相当。显而易见，GLASS-m在纹理类别上的表现明显优于GLASS-h，这表明GLASS-h更倾向于具有更集中类内分布的类别。

MAD-man上的异常检测：MAD-man是由五个人在无偏条件下独立选择的。如表S7所示，GLASS在MAD-man上对于选定的弱缺陷表现优异。同时，GLASS在每个子集的三个指标上均超过了其他方法。因此，GLASS在弱缺陷检测方面具有更大的优势。

MAD-sys上的异常检测：如表S8所示，GLASS在MAD-sys上的表现优异，能够有效检测不同程度的弱缺陷。随着β值的增加，缺陷区域变得不易区分，GLASS在其他方法面前的优势变得更加明显，尤其在性能逐渐下降的情况下。

Fs9

图 S9. GLASS及其变体与不同SOTA方法在MVTec AD上的比较可视化结果。

该图可能展示了GLASS及其变体在MVTec AD数据集上的异常检测性能，和其他最新的SOTA方法进行比较的结果。可视化结果通常包括异常检测图，突出显示GLASS在检测和定位异常方面的有效性，并与DSR、PatchCore等方法进行对比。

Fs10

图 S10. GLASS及其变体与不同SOTA方法在VisA数据集上的比较可视化结果。

该图可能展示了GLASS及其变体在VisA数据集上与其他最新SOTA方法的比较，通过可视化的方式展示每种方法在检测异常时的表现。图中通常会标出异常区域，并通过对比不同方法的异常检测结果，突出GLASS在处理此类工业异常检测任务中的优势。

Fs11

图 S11. GLASS及其变体与不同SOTA方法在MPDD数据集上的比较可视化结果。

该图可能展示了GLASS及其变体与其他最先进的SOTA方法在MPDD数据集上的异常检测效果。通过可视化的方式，图中可能显示了每种方法对异常区域的检测效果，突出GLASS在检测金属零部件缺陷方面的优势。

Fs12

图 S12. GLASS及其变体与不同SOTA方法在WFDD数据集上的比较可视化结果。

该图可能展示了GLASS及其变体在WFDD数据集（用于织物缺陷检测）上的异常检测结果，并与其他最先进的SOTA方法进行了对比。图中可能会显示各方法在不同类型织物缺陷的检测效果，突显GLASS在处理织物缺陷方面的优越性，特别是在细节和复杂背景下的表现。

Fs13

图 S13. GLASS-m与不同SOTA方法在选定弱缺陷测试集MAD-man上的比较可视化结果。

此图可能展示了GLASS-m在MAD-man数据集上的表现，MAD-man是通过5个不同的人员在没有偏差的情况下选择的弱缺陷样本。图中可能会显示GLASS-m与其他最先进的SOTA方法的对比，特别是在检测微弱缺陷方面的优越性。

E. 定性结果

我们展示了三种GLASS变体和五种比较方法在六个数据集上的可视化结果。为了清晰地展示不同区域的相对置信度输出，所有类别样本的异常图都经过统一尺度的归一化处理，而不是对每个样本使用不同的尺度进行归一化。

E.1. 公共数据集的可视化结果

MVTec AD上的可视化结果。 如图S9所示，GLASS确保正常区域的异常得分较低，同时准确地定位具有较高置信度的异常区域，无论是在纹理类别还是物体类别上。特别是在‘Carpet’和‘Pill’类别的结果展示中，GLASS更不容易出现过度检测和漏检。此外，在‘Metal nut’和‘Transistor’类别的结果中，GLASS在检测全局异常方面表现出色。

VisA上的可视化结果。 如图S10所示，GLASS在检测相对较小异常的区域时表现更好。此外，在‘Capsules’和‘Macaroni1’类别的结果中，GLASS即使在图像中存在多个同类型物体时，也能准确地定位异常。

MPDD上的可视化结果。 与其他SOTA方法相比，GLASS的结果显示出更清晰的边缘、更完整的结构和更好的一致性，如图S11所示。由于GLASS-j通过判断确定分布假设，因此在每个类别中始终与GLASS-m或GLASS-h保持一致。由于MPDD中类别的类内分布分散，GLASS-m在异常定位方面优于GLASS-h。

Fs14

Figure S14. GLASS-m与不同SOTA方法在MAD-sys的‘Carpet’类别下的可视化比较，展示了不同β值下的结果。输入图像上的真实标注通过红色边界标记。

Fs15

图S15. GLASS-m 与不同 SOTA 方法在合成弱缺陷测试集 MAD-sys 上的可视化比较。

E.2. 自建数据集的可视化结果

WFDD 可视化结果：如图 S12 所示，GLASS 能有效检测连续的线型缺陷，并且在复杂图案背景下表现出色，例如在“粉红花”类中的结果。此外，GLASS 还能够识别非常小的异常区域，例如小于 10×10 像素的异常区域，这一点在“黄色布料”类中得到了验证。
MAD-man 可视化结果：图 S13 显示了从 MVTec AD 的 15 个类别中选择的弱缺陷的检测结果。尽管大多数缺陷较弱且难以区分，GLASS 仍能确保正常区域的低置信度和异常区域的高置信度。例如，在“瓶子”类中，GLASS 能保持对不同程度异常的一致关注，而不像其他方法那样只关注明显的缺陷。
MAD-sys 可视化结果 $β = 0.7$ $GLASS$ 相较于 MAD-man 精度稍低，但在 MAD-sys 的五个类别中，GLASS 在检测弱缺陷时明显优于其他所有方法，特别是在 β = 0.5 时。