摘要
最近的研究表明,如果卷积网络在靠近输入层和靠近输出层之间包含更短的连接,那么卷积网络可以训练得更深、更准确、更有效。在这篇论文中,我们采纳了这一观察结果,并介绍了密集卷积网络(DenseNet),它以前馈方式连接每一层到每一层。传统的L层的卷积网络有L个连接,每层和它的下一层之间有一个连接,而我们的网络有L(L+1)/ 2个直接连接。对于每一层,前面所有层的特征映射被用作输入,它自己的特征映射被用作后面所有层的输入。densenet有几个引人注目的优点:它们缓解了消失梯度问题,加强了特征传播,鼓励特征重用,并大幅减少了参数的数量。我们在四个高度竞争的对象识别基准任务(CIF AR-10、CIF AR-100、SVHN和ImageNet)上评估了我们提出的架构。densenet在大多数最先进的基础上获得了显著的改进,同时需要更少的计算来实现高性能。
网络结构:主要由dense block 和transition组成。

在DenseBlock中,各个层的特征图大小一致,可以在channel维度上连接。DenseBlock中的非线性组合函数 H ( ⋅ )采用的是BN+ReLU+3x3 Conv的结构。另外值得注意的一点是,与ResNet不同,所有DenseBlock中各个层卷积之后均输出k个特征图,即得到的特征图的channel数为k,或者说采用k个卷积核。k 在DenseNet称为growth rate,这是一个超参数。一般情况下使用较小的 k (比如12),就可以得到较佳的性能。假定输入层的特征图的channel数为k0 ,那么 l层输入的channel数为 k0 + k ( l − 1 ) ,因此随着层数增加,尽管k设定得较小,DenseBlock的输入会非常多,不过这是由于特征重用所造成的,每个层仅有 k个特征是自己独有的,针对参数量后面引入了1X1的卷积,即BN-ReLU-Conv(1× 1)-BN-ReLU-Conv(3×3),并将这种结构称为Densenet-b,后面为了进一步提高模型的紧凑性,我们在过渡层引入θ参数将一个denseblock的特征映射减少,将θ <1的DenseNet称为denseNet- c,若denseblock和过渡层都引用了θ<1,则模型称为densenet-bc. 试验:本文作者通过试验证明了DenseNet在几个基准数据集上的有效性,并与最先进的体系结构进行了比较,特别是与ResNet及其变体。
作者训练不同深度L和生长速率k的DenseNets,在各个数据集上的结果如上图所示,黑体标记所有优于现有最先进的结果,蓝色标记总体最佳结果。