基于图像的缺陷检测的全卷积交叉尺度流

Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection

摘要

在工业制造过程中，错误经常发生在不可预测的时间和未知的表现中。我们解决了自动缺陷检测的问题，而不需要缺陷部件的任何图像样本。Recent works对无缺陷图像数据的分布进行了建模，使用强统计先验或过于简化数据表示。相比之下，我们的方法处理细粒度表示结合了全局和同时灵活地估计密度。致为此，我们提出了一种新的全卷积交叉尺度联合处理多个数据的标准化流（CS流）不同比例尺的特征图。使用标准化流为输入样本分配有意义的可能性允许在图像级别进行高效的缺陷检测。此外，由于保留的空间布局规范化流是可解释的，这使得能够进行本地化图像中的缺陷区域。我们的工作在基准上开创了图像级缺陷检测的新局面磁砖缺陷和MVTec AD数据集显示15节课中有4节达到100%AUROC。

1.导言

在部件的工业生产过程中，缺陷随着时间的推移而发生。必须检测它们以确保安全标准和产品质量。自手动检查以来人类成本高昂，容易出错，可靠高效对自动缺陷检测的要求很高。在大多数情况下然而，在现实世界中，没有这样的例子的缺陷。此外，即使有一小部分已知的缺陷可用，新的和以前看不见的缺陷类型也会在不可预测的时间出现，这使得无法应用标准的分类方法。相反，不可避免的是，缺陷检测器只能从无缺陷的示例。这个问题通常被称为半监督异常检测（AD）、新颖性检测或一个类别分类。这些术语描述了决定是否数据样本属于图1中给定集合X的类。我们的方法基于以下内容检测和定位缺陷从不同大小的输入图像中估计特征图的密度。我们联合处理多尺度特征图，使用一个在尺度之间具有交叉连接的完全卷积归一化流。屏幕截图 2024-09-17 214919

AD领域的大多数研究[14,37,32]都集中在具有高类内方差和高类间方差的图像数据集。缺陷检测中的设置不同：因为无缺陷的组件与其自身相似，对于这些缺陷，存在较小的类内方差和类间方差。因此，大多数AD方法都不合适用于缺陷检测。基于autoen编码器[42,12,6,15]或生成对抗网络的常见方法（GAN）[34,1,7]在这种设置下表现不佳，详见第2节。因此，最近的作品依赖于从模型中获得的图像特征的密度估计在ImageNet上进行预训练[9]，例如ResNet[17]或Efficient Net[38]。然而，由于特征图的平均值[31]或强统计先验需要限制它们在密度估计中的灵活性[29, 8]. 为了缓解这些问题，我们提出了一种能够处理多尺度特征的标准化流（NF）如图1所示。NF是将训练集分布pX转换为具有预定义分布的潜在空间的生成模型pZ通过最大似然优化。与…对比其他生成模型，例如VAE[21]和GAN[16,4]，NF中潜在空间向量的可能性为直接解释为输入数据的可能性，因为网络是双射映射的。因此，潜在的区域高似然空间表示正常示例而有缺陷的例子被投影到潜在变量中在学习分布之外。相反，injective自动编码器的映射可能会导致投影未经训练的异常到不确定的潜在空间区域，其可以与正常样本的区域重叠。

然而，将NF应用于图像以进行OOD检测如Kirichenko等人[22]所示，这并不简单。对于RGB数据，网络无法学习有用的分布，只关注局部像素相关性而不是语义。因此，我们对通过提供压缩语义信息的预训练特征导出器获得的特征图进行密度估计。我们的跨尺度流程（CS flow）同时处理图像在不同尺度下的传播特征它们通过NF并行运行，同时与每个NF相互作用其他。记住，关于在训练过程中，缺陷是未知的，我们的模型充分利用了训练中信息和相关性的全部潜力本地和全局上下文都可以精确地学习分布，以识别有缺陷的示例。除了身份-此外，全卷积架构还保留了允许可视化的空间布局图像上的缺陷区域。与使用密集连接的层，因此有许多参数[31]，即使使用训练样本数量少。我们将我们的贡献总结如下： •我们的新型跨尺度归一化流（CS flow）通过联合估计多尺度特征图上的可能性来检测缺陷。 •我们的方法保持图像结构，以获得可解释的潜在空间，实现精确的缺陷检测。 •我们在MVTec AD和磁砖缺陷的图像级缺陷检测方面设置了新的最先进技术数据集。 •代码可以在GitHub1上找到

2.相关工作

在下文中，我们回顾了在异常检测和归一化流作为我们的基础方法论。

屏幕截图 2024-09-17 215919

图2:用EfficientNet提取的MVTec AD图像不同特征的直方图[38]。每个直方图包含来自一个特征图的相同位置的值。蓝色这条线显示了最拟合的正态分布。假设特征分布正常，如[29,8]所做的那样，似乎不足以捕捉特征分布。

2.1. 异常检测

最先进的工作可以大致分为基于生成模型或预训练的方法网络。不属于以下任一情况的替代方法这些类别将单独描述。

2.1.1生成模型

许多异常检测方法都是基于生成的模型，如自动编码器[24,21,30]和GAN[16]，其被优化以生成正常数据。这些方法通过生成能力的丧失来检测异常模型来重建它们。在最简单的情况下，输入并对自动编码器的重建进行了比较[42]。在这种情况下，高重建误差被解释为异常的指示器。Bergmann等人[6]取代了SSIM的常见l2错误可以更好地衡量视觉相似性。Gong等人[15]在防止自动编码器泛化的潜在空间异常数据。翟等人[41]将基于能源的模型和正则化自编码器来模拟数据分布。黄等人使用去噪自动编码器al.[12]通过让自动编码器学习恢复转换后的图像。

与自动编码器的解码部分类似，GAN的生成器用于异常检测。施莱格尔等人[34]提出在训练GAN后学习逆生成器，同时利用两者进行重建和错误考虑。自动编码器和GAN由Akcay等人提出[1]。他们应用自动编码器直接作为GAN的生成器，以确保仅生成正常数据。

屏幕截图 2024-09-17 220606

图3。归一化流中一个块的架构：经过固定的随机置换后，每个输入张量被分成两部分在信道维度上，每个系综用于估计变换相应对应物的尺度和偏移参数。符号和⊕分别表示元素乘法和加法

如第4.3节所示，自动编码器和GAN在缺陷检测任务中表现不佳。由于不同类型具有个体大小、形状和结构的异常由于重建误差的特征不一致，它们并不广泛适用。例如，具有以下结构的高频通常不能准确地表示和重建，小的缺陷区域会导致较小的误差。

2.1.2基于预训练网络的方法

许多方法不是直接处理图像对预训练网络的特征进行缺陷检测。在大规模数据库（如ImageNet）上进行预训练，可以确保提取出预期的通用特征在存在缺陷的情况下有所不同。通过这种方式，考虑了无法从中学习到的描述特征无缺陷数据，因为它们不一定出现在通常在特征空间中检测缺陷使用传统的统计方法。

Andrews等人[2]将一类支持向量机拟合到特征分布中。Rippel等人[29]模型特征为单峰高斯分布，并利用马氏距离作为评分函数。这个Defard等人[8]进一步改进了该方法，将其应用于利用不同特征图的图像补丁语义层面。然而，这些方法仅限于在许多情况下不合适的正态分布如图2所示。相比之下，我们不假设任何预定义的特征分布，但通过最大似然估计（MLE）学习真实分布。假设特征空间内的距离在语义上是可表达的，到最近邻的距离被用作[27]中的异常评分。唯一基于深度学习的图像Rudolph等人[31]提出的特征密度估计方法，与我们的工作最具可比性的，也是基于关于流量的正常化。然而，它们不处理全尺寸的特征图，而是在应用平均池后处理向量。因此，重要的上下文和位置信息丢失了。作者通过在网络中传递每个图像的64次不同旋转来部分弥补这一弱点，然而，这大大增加了计算复杂性。相比之下，我们的方法利用全尺寸特征的细粒度信息地图，只需要一次通过，性能优于DifferNet[31]在几乎所有实验中都有很大的优势。

2.1.3其他方法

除了生成模型和预训练模型外，还有其他方法来执行异常检测。Lizner-ski等人[26]提出了一种可学习的超球面分类器，该分类器使用样本异常暴露作为异常替代。同一图像增强的对比学习是Tack等人[37]通过定义分布内和分布外变换来使用。相比之下，Golan和El Yaniv[14]增强了图像以对特定的转换进行分类，假设这在以下情况下不那么清楚异常情况与正常数据一样。

2.2. 标准化流程

归一化流（NF）[28]是一种生成模型将数据转换为易于处理的分布。与传统的神经网络不同，它们的映射是双射的允许他们在两个方向上进行训练和评估[39]。正向传递将数据投影到潜在空间中，以计算给定预定义潜在空间的数据的后期精确似然性分布。相反，从预定义的分布可以映射回原始空间生成数据。双射性和双向执行是通过使用可逆仿射变换来确保。那里是不同类型的归一化流，它们在实现仿射变换的体系结构-有效地启用前进或后退方向。仿射块是通过学习固定或自回归来实现的转变。一种流行的自回归流是MADE（Germain等人[13]）。密度计算基于在这种情况下，贝叶斯链规则是有效的。然而，采样成本很高。相反，逆自回归流动（Kingma等人[20]）通常在采样时是有效的，但在计算可能性方面并非如此。Real NVP[11]是一种逆自回归流的变体，它将这两个过程简化为在两个方向上都要高效。我们增强了Real NVP在可以相互作用的多个尺度上操作。这通过全面引入NF来利用NF进行缺陷检测卷积跨尺度流，其架构在第3.1节中有详细说明。

归一化流已成功用于非图像数据的异常检测[33,35,10]。对于图像数据，出现了网络主要集中在本地的问题不考虑语义的像素相关性。最近的研究[31,22]发现，在处理图像特征时，语义信息比完整信息更容易被捕获图像。与[22]相反，我们使用来自多个缩放并避免使用完全连接的层与挤压层2通过这种方式，我们的潜在空间得以保留空间排列，因此能够实现精确的缺陷本地化。此外，我们减少了参数的数量，使我们能够处理高维特征使用很少的数据样本进行地图和训练。

屏幕截图 2024-09-17 222430

图4。耦合块内部网络的架构。卷积在两个级别上执行，在第二个级别上进行标尺之间的交叉连接。特征图大小调整是通过上采样和跨步卷积实现的。聚合通过求和来实现。输出在通道维度上进行分割，以获得缩放和偏移参数。

3.方法

$\boldsymbol{x} \in X$ $\boldsymbol{y} \in Y$ $x$ $\boldsymbol{y}$ $p_{Y}$ $Y$ $Z$ $p_{Z}$ $X \rightarrow Y$ $Y \rightarrow Z$ $\boldsymbol{x}$ $f_{\mathrm{fe}}(\boldsymbol{x})=\boldsymbol{y}$ $\boldsymbol{y}$ $\boldsymbol{x}$ $s$ $\boldsymbol{y}$ $\boldsymbol{y}=\left[y^{(1)}, \ldots, y^{(s)}\right]$ $y^{(i)}$ $x^{(i)}$ $i \in\{1, \ldots, s\}$ $f_{\text {csf }}$ 对特征张量进行双射变换平行于

\begin{matrix} (1) & f_{csf} (y^{(1)}, \dots, y^{(s)}) = [z^{(1)}, \dots, z^{(s)}] = z \in Z \end{matrix}

${ }^{3}$ $\boldsymbol{y}$ $p_{Z}(z)$ $\mathcal{N}(0, I)$ .

$p_{Z}(\boldsymbol{z})$ $\boldsymbol{x}$ $\theta$ :

\begin{matrix} (2) & \begin{matrix} A (x) = {\begin{cases} 1 & for p_{Z} (z) < θ \\ 0 & else \end{cases} \end{matrix} \end{matrix}

3.1. 跨尺度流

$\boldsymbol{y}=\left[y^{(1)}, \ldots, y^{(s)}\right]$ $Z$ 如 Section 3.3 所示。与 [31] 相比，我们的方法的另一个好处是可以切实地处理非常高维的输入空间，同时训练样本很少，如第 4 节所示。

$s=3$ $y_{\text {in }}^{(i)}$ $y_{\mathrm{in}, 1}^{(i)}$ $y_{\mathrm{in}, 2}^{(i)}$ $\left[y_{\text {out }, 1}^{(i)}, y_{\text {out }, 2}^{(i)}\right]$ $r_{1}$ $r_{2}$ $\left[s_{1}, t_{1}\right]$ $\left[s_{2}, t_{2}\right]$ ，然后按如下方式使用：

\begin{matrix} (3) & \begin{array}{r} y_{out, 2} = y_{in, 2} ⊙ e^{γ_{1} s_{1} (y_{in, 1})} + γ_{1} t_{1} (y_{in, 1}) \\ y_{out, 1} = y_{in, 1} ⊙ e^{γ_{1} s_{2} (y_{out, 2})} + γ_{2} t_{2} (y_{out, 2}) \end{array} \end{matrix}

$\odot$ $\gamma_{1}$ $\gamma_{2}$ $y_{\text {out }}=y_{\text {in }}$ $r_{1}$ $r_{2}$ 不需要是可逆的，可以是任何可微函数，在我们的例子中，它被实现为一个完全卷积的网络，通过拆分输出来回归两个组件（有关架构的详细信息，请参见图 4）。每个刻度使用一个隐藏层处理特征，在该层上增加通道数。在 HRNet [36] 的启发下，我们通过双线性上采样或跨步卷积来调整不同尺度的单个特征图的大小，然后通过求和进行聚合。

$s$ $s_{1}$ $s_{2}$ 通过激活

\begin{matrix} (4) & σ_{α} (h) = \frac{2 α}{π} \arctan \frac{h}{α} \end{matrix}

$(-\alpha, \alpha)$ .

3.2. 学习目标

$f_{\text {csf }}$ $p_{Y}(\boldsymbol{y})$ $Z$ $p_{Z}$ $\boldsymbol{z}=f_{\mathrm{NF}}(\boldsymbol{y})$ ，则此似然由

\begin{matrix} (5) & p_{Y} (y) = p_{Z} (z) | \det \frac{\partial z}{\partial y} | \end{matrix}

$p_{Z}$ $\log$ $-\log p_{Y}(\boldsymbol{z})$ ：

\begin{matrix} (6) & \begin{array}{r} \log p_{Y} (y) = \log p_{Z} (z) + \log | \det \frac{\partial z}{\partial y} | \\ L (y) = - \log p_{Y} (y) = \frac{∥ z ∥_{2}^{2}}{2} - \log | \det \frac{\partial z}{\partial y} | \end{array} \end{matrix}

$\left|\operatorname{det} \frac{\partial z}{\partial y}\right|$ $s$ $l_{2}$ -norm 的梯度设置为 1 。Section 4.2 更详细地描述了训练。

3.3. 本地化

$z$ 被视为在图像级别生成分数。由于我们的方法处理特征图是完全卷积的，因此保留了位置信息。这允许根据单个图像区域的可能性来解释输出，在我们的应用中是缺陷的定位。

$(i, j)$ $y^{s}$ $\left\|z_{i, j}^{s}\right\|_{2}^{2}$ $z^{s}$ .

4. 实验

4.1. 数据集

我们在各种真实的缺陷检测场景中评估了我们的方法，以证明我们的贡献的优势和优于以前的方法。为此，我们测量了具有挑战性和多样化的 MVTec AD [5] 和磁性瓦片缺陷（MTD） [18] 数据集的性能。

$700 \times 700$ $1024 \times 1024$ 像素。该测试集包括不同大小、形状和类型的缺陷，例如裂纹、划痕和位移，每类最多 8 种不同的缺陷类型，总共 70 种缺陷类型。据我们所知，MVTec AD 目前是唯一一个具有多对象和多缺陷数据用于异常检测的数据集。

屏幕截图 2024-09-17 234040

$\%$ 用于在图像级别检测所有类别的 MVTec AD [5] 缺陷，分为纹理和对象。最佳结果以粗体显示。16 张照片表示在训练中每个类别仅使用 16 张随机图像的子集。除了平均值外，作者没有提供 PaDiM [8] 的详细结果。

屏幕截图 2024-09-17 234204

表 2.用于检测 MTD 异常的 ROC 下面积（以 % 为单位）。

作为常见的选择，我们还在 MTD 数据集上进行评估，其中包括磁性瓦片的灰度图像有缺陷和无缺陷。由于磁势不相等，所包含的缺陷（例如破损和气孔）可能会导致发动机出现问题。值得注意的是，由于照明和其他非缺陷特性的差异，该数据集在无缺陷示例中显示出很大的差异。按照 [31]，我们使用所有 392 张缺陷图像和 952 张无缺陷图像中的五分之一进行测试，并使用剩余的无缺陷数据进行训练。

4.2. 实现细节

$s=3$ $768 \times 768,384 \times 384$ $192 \times 192$ $24 \times 24,12 \times 12$ $6 \times 6$ $384 \times 384,192 \times 192$ $96 \times 96$ $n_{\text {blocks }}=4$ $3 \times 3$ $5 \times 5$ $\alpha=3$ $2 \cdot 10^{-4}$ $10^{-5}$ $\beta_{1}=0.5$ $\beta_{2}=0.9$ .我们用 16 个批量大小训练我们的模型，分别为 MVTec AD 的固定数量的 240 个时期和 MTD 的 60 个时期，因为没有验证集来定义停止标准。使用 NVIDIA RTX 45 Ti 对一类 MVTec AD 进行训练平均需要大约 2080 分钟。

屏幕截图 2024-09-17 234517

图 5.MTD 测试图像的负对数似然分布为归一化直方图。根据此标准，有缺陷的样品几乎与无缺陷的样品完全分开。请注意，为清楚起见，最右侧的条形汇总了 3 以上的所有分数。

屏幕截图 2024-09-17 234817

图 6.MTD 上不同方法的缺陷检测性能比较。图形是各个方法的 ROC 曲线。最好用彩色观看。

4.3. 检测

$\theta$ $3 \cdot 304=912$ $A U-$ $98.7 \%$ $100 \%$ $97 \%$ 在 15 个类别中的 14 个类别中。当每个类别仅对 16 个样本进行训练时，我们的方法仍然具有竞争力，甚至在纹理类别上显示出大致相同的性能。

$99.3 \%$ $0.7 \%$ AUROC 接近最佳 ROC，我们想强调的是，在这个指标中，与竞争对手相比，几个百分点的利润率是相对较强的性能提升，如图 6 所示。

屏幕截图 2024-09-17 235131

表3.MVTec AD 的消融研究，关于秤使用的不同策略。

屏幕截图 2024-09-17 235249

表 4.不同数量的耦合块的 MVTec AD 的消融研究。

4.4. 本地化

$z^{(1)}$ .在沿通道维度对平方值求和后，使用双线性插值放大这些值。可以看出，输出值的大小与相应位置异常区域的出现直接相关。因此，我们的方法定位了颜色、图案和形状方面各种大小的异常。除了卷积感受野引起的扩张外，缺陷区域被正确确定。我们的目的不是提供像素精确的分割，因为该方法没有针对它进行优化，并且处理的是小分辨率的特征图。尽管如此，这种可视化有助于在实践中解释输出，以快速发现或评估潜在错误。有关本地化的更详细分析，请参阅补充材料。

4.5. 消融研究

$0.5 \% \mathrm{AU}-$ $0.7 \%$ ，这证明了我们的交叉卷积多尺度程序的合理性。

$n_{\text {blocks }}=4$ 然后饱和。

$98.2 \%$ 这表明我们的模型可以处理多模态分布。

屏幕截图 2024-09-17 235503

图 7.每个 MVTec AD 和 MTD 类别一个缺陷示例的缺陷定位。各行从上到下分别显示原始图像、位置和两个图像的叠加层。定位图以最高比例显示沿网络输出的通道维度的平方和。

5. 总结

我们提出了一种半监督方法，使用归一化流有效地检测和定位不同尺度的特征张量上的缺陷。我们通过在归一化流程中集成交叉卷积块来利用多尺度特征图内部和之间的上下文来分配可能性并将不太可能的样本检测为缺陷。这解决了以前方法的弱点，这些弱点由于过于简化的数据表示的限制或有限的分布模型而难以实现，并使我们的方法能够在 MVTec AD 和 MTD 上设置最先进的性能。将来，这个概念可以被改进为视频异常检测[40, 25]。这项工作得到了德国联邦教育和研究部（BMBF）在 LeibnizKILabor 项目（资助号 01DD20003）、数字创新中心（ZDIN）和德国研究基金会（DFG）的支持，根据德国卓越战略在卓越集群 PhoenixD （EXC 2122）。

引用

$1,2,6$ $10-16,2020.2$

[5] 保罗·伯格曼、迈克尔·福瑟、大卫·萨特莱格和卡斯滕·斯特格。Mvtec ad-用于无监督异常检测的综合真实数据集。在 IEEE 计算机视觉和模式识别会议论文集，第 9592-9600 页，2019 年。5， 6 [6] 保罗·伯格曼、辛迪·勒维、迈克尔·福瑟、大卫·萨特莱格和 C. 斯特格。通过将结构相似性应用于自动编码器来改进无监督缺陷分割。在 VISIGRAPP，2019 年。1， 2 [7] Haoqing Cheng， Heng Liu， Fei Gao，和 Zhuo Chen.Adgan：一种基于 gan 的可扩展架构，用于图像异常检测。2020 年 IEEE 第 4 届信息技术、网络、电子和自动化控制会议（ITNEC），第 1 卷，第 987-993 页。IEEE，2020 年。1 [8] 托马斯·德法尔、亚历山大·塞特科夫、安杰利克·洛施和罗马里克·奥迪吉尔。Padim：用于异常检测和定位的补丁分布建模框架。在模式识别中，ICPR 国际研讨会和挑战，2021 年。1， 2， 3， 6， 7， 8 [9] 邓佳，魏东，理查德·索彻，李李佳，李凯，李飞飞.Imagenet：大规模分层图像数据库。2009 年 IEEE 计算机视觉和模式识别会议，第 248-255 页。IEEE，2009 年。1， 6 [10] Madson LD Dias， César Lincoln C Mattos， Ticiana LC da Silva， José Antônio F de Macedo， and Wellington CP Silva.使用规范化流对轨迹数据进行异常检测。arXiv 预印本 arXiv：2004.05958,2020 年。4 $881-889$ [14] 伊扎克·戈兰和兰·埃尔-亚尼夫。使用几何变换的深度异常检测。在神经信息处理系统进展中，第 9758-9769 页，2018 年。1， 3， 6 [15] Dong Gong， Lingqiao Liu， Vuong Le， Budhaditya Saha， Moussa Reda Mansour， Svetha Venkatesh， and Anton van den Hengel.记住正常性以检测异常：用于无监督异常检测的内存增强深度自动编码器。在 IEEE 计算机视觉国际会议论文集中，第 1705-1714 页，2019 年。1， 2 [16] 伊恩·古德费罗、让·普盖特-阿巴迪、迈赫迪·米尔扎、徐兵、大卫·沃德-法利、谢尔吉尔·奥泽尔、亚伦·库尔维尔和约书亚·本吉奥。生成对抗网络。在神经信息处理系统进展中，第 2672-2680 页，2014 年。2 [17] Kaiming He， Xiangyu Zhang， Shaoqing 任，和 Jian Sun. 用于图像识别的深度残差学习.在 IEEE 计算机视觉和模式识别会议论文集，第 770-778 页，2016 年。1 [18] 黄逸斌、邱聪英和袁奎。磁瓦的表面缺陷显著性。视觉计算机，36（1）：8596,2020 年。5 [19] Diederik P Kingma 和 Jimmy Ba。Adam：一种随机优化的方法。在学习表征国际会议（ICLR）中，2015 年。6 [20] 杜尔克·金马、蒂姆·萨利曼斯、拉法尔·约泽福维奇、陈习、伊利亚·萨茨切弗和马克斯·威灵。使用逆自回归流改进了变分推理。在神经信息处理系统进展中，第 4743-4751 页，2016 年。4 [21] Diederik P. Kingma 和 Max Welling。自动编码变分贝叶斯。CoRR，abs/1312.6114,2013 年。2 [22] 波琳娜·基里琴科、帕维尔·伊兹梅洛夫和安德鲁·戈登·威尔逊。为什么规范化流无法检测到分布外数据。在 NeurIPS 中，2020 年。2， 4 [23] 亚历克斯·克里热夫斯基、伊利亚·萨茨切弗和杰弗里·辛顿。使用深度卷积神经网络进行 Imagenet 分类。在神经信息处理系统的进展中，第 1097-1105 页，2012.7 $I C L R, 2021$ .3 [27] 蒂亚戈·纳扎尔、罗德里戈·德·梅洛和莫阿西尔·庞蒂。预训练的 cnns 是监控视频中异常检测的良好特征提取器吗？arXiv 预印本 arXiv：1811.08495,2018 年。3， 6， 7 [28] 达尼洛·雷森德和沙基尔·穆罕默德。使用归一化流的变分推理。在机器学习国际会议中，第 1530-1538 页。PMLR，2015 年。3 [29] 奥利弗·里佩尔、帕特里克·梅尔滕斯和多丽特·梅尔霍夫。对预训练深度特征中法线数据的分布进行建模，以进行异常检测。arXiv 预印本 arXiv：2005.14140,2020 年。1， 2， 3， 6， 7 [30] 马可·鲁道夫、巴斯蒂安·万特和博多·罗森哈恩。构建自动编码器。在 IEEE 计算机视觉研讨会国际会议论文集，2019 年。2 [31] 马可·鲁道夫、巴斯蒂安·万特和博多·罗森哈恩。相同但不同：使用归一化流程进行半监督缺陷检测。在 IEEE/CVF 计算机视觉应用冬季会议论文集，第 1907-1916 页，2021 年。1， 2， 3， 4， 5， 6， 7 [32] 卢卡斯·拉夫、罗伯特·范德梅伦、尼科·戈尔尼茨、卢卡斯·迪克、绍伊布·艾哈迈德·西迪基、亚历山大·宾德、伊曼纽尔·穆勒和马里乌斯·克洛夫特。深度单类分类。在机器学习国际会议上，第 4393-4402 页。PMLR，2018 年。1 [33] 阿尔乔姆·雷日科夫、马克西姆·鲍里西亚克、安德烈·乌斯秋扎宁和丹尼斯·德尔卡奇。规范化流以进行深度异常检测。arXiv 预印本 arXiv：1912.09323,2019 年。4 [34] 托马斯·施莱格尔、菲利普·塞伯克、塞巴斯蒂安·瓦尔德斯坦、乔治·朗斯和乌苏拉·施密特-埃尔福特。f-anogan：使用生成对抗网络进行快速无监督异常检测。医学影像分析，54：30-44,2019。1， 2 [35] 马克西米利安·施密特和马尔科·西米奇。对工业时间序列数据中的新颖性检测流程进行归一化。arXiv 预印本 arXiv：1906.06904,2019 年。4 [36] 孙可、肖斌、刘东和王敬东。用于人体姿态估计的深度高分辨率表示学习。在 IEEE/CVF 计算机视觉和模式识别会议论文集，第 56935703 页，2019 年。5 [37] Jihoon Tack、Sangwoo Mo、Jongheon Jeong 和 Jinwoo Shin。CSI：通过对比学习对分布偏移实例进行新颖性检测。在 NeurIPS 中，2020 年。1， 3 [38] 谭明兴和郭乐。Efficientnet：重新思考卷积神经网络的模型缩放。在机器学习国际会议中，第 6105-6114 页。PMLR，2019 年。1， 2， 6， 7 [39] 汤姆·维尔拜因、马可·鲁道夫、博多·罗森哈恩和巴斯蒂安·万特。具有归一化流程的概率单目 3d 人体姿态估计。IEEE 计算机视觉国际会议论文集， 2021.3 [40] Michael Ying Yang， Wentong Liao， Yanpeng Cao， and Bodo Rosenhahn.通过结合高斯过程和分层狄利克雷过程模型进行视频事件识别和异常检测。在摄影测量工程与遥感中，2018 年。8 [41] 翟双飞、程宇、卢伟宁和张忠飞。用于异常检测的基于深度结构的能量模型。第 33 届机器学习国际会议论文集第 48 卷，第 1100-1109 页，2016 年。2， 6 [42] 周崇和兰迪 C 帕芬罗斯.使用强大的深度自动编码器进行异常检测。第 23 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集，第 665-674 页，2017 年。1, 2

1 https://github.com/marco-rudolph/cs-flow
2Squeeze layers 重塑张量，例如通过将 4 个相邻像素的通道聚合为一个具有四倍通道号的像素。
3为了提高可读性，在以下z没有任何索引表示一个向量，该向量是扁平化张量的串联[z(1),…,z(s)].