深度学习中常用的几种卷积（2）空间可分卷积

楼主

KA_IX

5372 主题
5429 帖子
11410 积分

身份：LV7 中级工程师

E币：4879

发消息

 3637

 0

发表于 2021-7-14 11:16:07

显示全部楼层

深度学习中常用的几种卷积（1）
https://mbb.eet-china.com/forum/topic/91770_1_1.html

可分卷积

某些神经网络架构使用了可分卷积，比如 MobileNets。可分卷积有空间可分卷积和深度可分卷积。

1、空间可分卷积

空间可分卷积操作的是图像的 2D 空间维度，即高和宽。从概念上看，空间可分卷积是将一个卷积分解为两个单独的运算。对于下面的示例，3×3 的 Sobel 核被分成了一个 3×1 核和一个 1×3 核。
3432b4b1e5ae4b859715be2803e408fc?from=pc.jpg

3432b4b1e5ae4b859715be2803e408fc?from=pc.jpg

Sobel 核可分为一个 3x1 和一个 1x3 核

在卷积中，3×3 核直接与图像卷积。在空间可分卷积中，3×1 核首先与图像卷积，然后再应用 1×3 核。这样，执行同样的操作时仅需 6 个参数，而不是 9 个。

此外，使用空间可分卷积时所需的矩阵乘法也更少。给一个具体的例子，5×5 图像与 3×3 核的卷积（步幅=1，填充=0）要求在 3 个位置水平的扫描核（还有 3 个垂直的位置）。总共就是 9 个位置，表示为下图中的点。在每个位置，会应用 9 次逐元素乘法。总共就是 9×9=81 次乘法。
df48d250a5e24561b6e912332ce011b9?from=pc.jpg

df48d250a5e24561b6e912332ce011b9?from=pc.jpg

具有 1 个通道的标准卷积

另一方面，对于空间可分卷积，我们首先在 5×5 的图像上应用一个 3×1 的过滤器。我们可以在水平 5 个位置和垂直 3 个位置扫描这样的核。总共就是 5×3=15 个位置，表示为下图中的点。在每个位置，会应用 3 次逐元素乘法。总共就是 15×3=45 次乘法。现在我们得到了一个 3×5 的矩阵。这个矩阵再与一个 1×3 核卷积，即在水平 3 个位置和垂直 3 个位置扫描这个矩阵。对于这 9 个位置中的每一个，应用 3 次逐元素乘法。这一步需要 9×3=27 次乘法。因此，总体而言，空间可分卷积需要 45+27=72 次乘法，少于普通卷积。
fbd233831e4b43cca5baffc2b62944c9?from=pc.jpg

fbd233831e4b43cca5baffc2b62944c9?from=pc.jpg

具有 1 个通道的空间可分卷积

我们稍微推广一下上面的例子。假设我们现在将卷积应用于一张 N×N 的图像上，卷积核为 m×m，步幅为 1，填充为 0。传统卷积需要 (N-2) x (N-2) x m x m 次乘法，空间可分卷积需要 N x (N-2) x m + (N-2) x (N-2) x m = (2N-2) x (N-2) x m 次乘法。空间可分卷积与标准卷积的计算成本比为：
5457d24069454648b9a16640174b7f7f?from=pc.jpg

5457d24069454648b9a16640174b7f7f?from=pc.jpg

因为图像尺寸 N 远大于过滤器大小（N>>m），所以这个比就变成了 2/m。也就是说，在这种渐进情况（N>>m）下，当过滤器大小为 3×3 时，空间可分卷积的计算成本是标准卷积的 2/3。过滤器大小为 5×5 时这一数值是 2/5；过滤器大小为 7×7 时则为 2/7。

尽管空间可分卷积能节省成本，但深度学习却很少使用它。一大主要原因是并非所有的核都能分成两个更小的核。如果我们用空间可分卷积替代所有的传统卷积，那么我们就限制了自己在训练过程中搜索所有可能的核。这样得到的训练结果可能是次优的。

来源：机器不学习

继续阅读本篇相关更多标签