SKETCHKNITTER: VECTORIZED SKETCH GENERATION WITH DIFFUSION MODELS
ICLR2023
主要思路和贡献:
1、将草图生成建模为一个基于变形的去噪过程,一次生成全部笔画点,相比于基于RNN序列生成的方式,作者的方法在复杂手绘图上表现更好,能够更好的掌握草图整体结构。
2、提出一种在生成过程中评估并优化草图可识别性的方法,可以减少采样过程。
3、无需重新训练就可以进行条件生成以修复有缺陷的草图。
模型框架
论文采用的扩散模型为DDIM,相比于DDPM扩散模型,它可以加速生成过程,从原始序列中采样一个子序列来作为生成过程的序列。
贡献点1
把矢量草图生成构建为一个去噪过程,一次预测全部笔画点,不同于RNN的序列生成。把草图生成过程定义为是一个笔画点归位的过程,所以生成的草图能保留原始草图的时序信息
贡献点2
模型预测的噪声与图片的可识别性具有一定相关性,由于DDIM模型可以选择采样时间步(图中蓝色三角形就是作者选择的采样时间步),所以作者训练了一个网络,能够根据DDIM模型预测的噪声得到图片的可识别性rt,然后根据可识别性选择采样时间步。
贡献点3
无需重新训练扩散模型就可以修复有缺陷的草图。作者在生成过程中引入了草图生成引导,目标是通过重复采样具有与需要修复的图片相似的内容来引导最终草图的生成。具体来说就是在预测噪声部分加上生成草图St与条件Sc之间感知距离的对数概率的梯度。
生成草图St与条件Sc之间感知距离是通过ImageNet预训练的VGG模型得到的。
实验结果
无条件生成
作者根据关键笔画点的个数将矢量图分为简单,中等,复杂三类。
1、Ours(full 1000 steps)是完整的经过扩散模型1000步得到的训练结果,可以看到,与其他RNN序列生成模型相比,指标更好
2、Our(r-Shortcut,S=30)是引入可识别性判断后的结果,在采样步骤均为30步的情况下,与DDIM原生的采样方式相比,指标更好。同时,与1000步相比,速度得到了很大提升。
有条件生成
方式一:给原图加入噪声
对加噪后的图片进行图片修复后,得到的结果在图像识别和图像检索上的指标相比修复前都得到了提升。而且将未加噪声的原图进行有条件生成后,得到的结果也有提升。
方式二:去除10%或30%的关键笔画点
作者采用图像识别和人为评估的方式与其他模型的修复效果进行比较。