Paper | ZITS++ Image Inpainting by Improving the Incremental Transformer on Structural Priors | arXiv2023

Info

Abstract

ZITS存在的问题:

  • ZITS中使用的canny边缘不能区分有意义的结构。在复杂环境中Canny边缘产生confusing textures而不是具有丰富信息的底层结构。

  • 深入研究不同的图像先验信息引导的高分辨率图像修复是必要的。
  • 提升LaMa的纹理修复性能。

贡献点:

  • 在原始的ZITS上(transformer-based的边缘和线框补充),又加入了许多不同先验的实验分析和讨论,最终发现L-Edges、线框和梯度先验结合效果最好。
  • 将补全好的先验信息融合到修复网络中需要上采样,提出了一种Edge Non-Maximum Suppression(E-NMS),将冗余的边缘信息过滤掉(消除边界附近的模糊边缘)。
  • 对于LaMa进行修改,加入了Large Kernel Attention以及修改模型设计。(增益:large receptive fields and scale invariance尺度不变性。we promote the maxpool as the mask resizing strategy of PatchGAN instead of the nearest in LaMa)

  • 提供了一个高分辨率图像数据集,HR-Flickr。

Method

  • 提出了learning-based边缘CATS取代原来用的canny边缘。并利用E-NMS(现有的算法)过滤不确定的边缘。最终使用的先验是CAT+线框(wireframe)+梯度。

  • 利用扩张卷积分解large Kernel,实验中取K=21。

  • mask resize策略:maxpool取代nearest resize(稳定训练过程)

Evalutaion

  • 定量性能提升明显。

  • 定量效果也很好。

  • 人脸修复效果也很好。

Paper | Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding | CVPR2022

Info

Abstract v1

本文是基于WACV’22的高分辨率图像修复工作LaMa进一步改进的,更偏向于自然场景的修复(更注重结构、轮廓的先验信息)

现存的问题:

  • 1)现有的方法受限于CNN有限的感受野,只能处理常规的纹理,仍存在恢复生动纹理与合理的整体结构的问题(Vivid textures and Reasonable structures)。

  • 2)Attention-based模型(Transformer)虽然能更好的学习长距离依赖(Long-range dependency),但是受限于高分辨率图像推理时的Heavy Computation

解决的方法(贡献):

  • 1)【主要贡献】An additional structure restorer,增加一个额外的结构修复器,增量式的辅助图像修复。
    • 在固定的低分辨率Sketch space(Gray-scale space)修复整体的结构,并可以通过上采样融入到修复过程中。
    • Can be integrated with other pretrained inpainting models efficiently with the zero-initialized residual addition(无需额外训练,直接融入到其他Inpainting预训练模型中)。
  • 2)Masking positional encoding strategy用于提升使用Large irregular mask训练的性能。

Abstract v2

现存的问题:

  • 现有的Inpainting方法只能处理regular textures,由于CNN感受野有限的问题,失去了对于图像整体结构(Holistic Structure)的把控。
  • 基于attention的方法可以一定程度上解决该问题,但受限于高分辨率图像推理时的Heavy Computation

贡献:

  • Motivation:对于高分辨率自然图像修复来说,边缘信息十分重要,如果没有对于大图像的整体理解,很难恢复场景的边缘和线条,尤其是纹理较弱的场景。Method:使用一个额外的结构恢复网络,增量式的辅助图像修复过程。具体而言:transformer-based网络,在固定的低分辨率草图空间中,修复图像的边缘和轮廓线条,而后上采样到高分辨率,融合到后续图像修复网络中。
  • Zero-initialized Residual Addition(零初始化残差融合)增量训练策略:提出的方法可以和其他的pretrained inpainting model轻易的整合在一起(许多其他利用先验信息的方法通常是多阶段多模型,训练成本高,而这个策略可以在较少的step数中快速收敛)。
  • 提出了一个Masking Positional Encoding Strategy,提升在大mask配置下的模型性能。(高分辨率、较大缺失区域的修复,模型前期会在mask区域重复产生没有语义的伪影,浪费计算量)

Introduction

  • Image Inpainting Goal:The inpainted images should remain both semantically coherent textures and visually reasonable structures. 这里也给了我们一点点启发,对于人脸修复而言,语义一致性至关重要,所以利用语义分割信息来引导人脸修复是一个好的想法;而后者,整体结构的连贯性,则对于自然场景图像修复至关重要。
  • Image Inpainting任务现存的问题
    • 1)Limited receptive fields。面对large corrupted region和高分辨率图像时问题更加凸显。
    • 2)Missing holistic structures。缺乏整体结构,Recovering key edges and lines for scenes。
    • 3) Heavy computations。训练高分辨率图像的GAN非常tricky and costly。
    • 4) No positional information in masked regions。在大mask配置下,模型会生成没有意义伪影,浪费计算量。

很好,我的另一个Idea别人也已经实现了,好好看好好学吧(●’◡’●)

  • 作者分析了LaMa的不足之处(其实非常明显),LaMa的本质是在频域内做了1×1卷积保证了相同周期性信号的关联,也就是LaMa作者想要解决的重复性纹理的修复。但是这样的方法无法确保整体结构,并且在纹理较弱的图像上性能很差。

最先使用transformer-based做low-resolution图像修复,然后再CNN上采样超分一下的工作。

  • Ziyu Wan, Jingbo Zhang, Dongdong Chen, and Jing Liao. High-fidelity pluralistic image completion with transformers. arXiv preprint arXiv:2103.14031, 2021.

  • Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jianxiong Pan, Kaiwen Cui, Shijian Lu, Feiying Ma, Xuansong Xie, and Chunyan Miao. Diverse image inpainting with bidirectional and autoregressive transformers. arXiv preprint arXiv:2104.12335, 2021.

还有许多使用先验信息的网络,但通常都是多阶段图像修复,训练成本较高(trained from scratch)。

Method

  • 首先将mask、masked image(valid pixel为1,待填充区域为0,mask可视化时反转一下,待填充变为1,都是为了方便后续计算)、canny边缘提取器获得的masked edge(边缘)以及利用作者之前提出的模型获取的masked lines(线框,主要是建模两点之间的连线,所以上采样下采样时不存在歧义,但是canny边缘提取出来的信息在不同feature size提取出的边缘可能不同)。
  • 送入TSR,首先将256×256的图片下采样三次到32×32大小,然后利用基于轴向注意力和常规注意力的transformer,减少计算量提升计算效率,最后获得256×256的修复后的边缘和线框。后续利用一个简单的四层CNN网络来对于修复好的先验信息进行上采样,只用线框数据进行训练而不用线框加边缘数据,这样做能够更好的消除歧义,获得不同分辨率更加一致的先验信息。
  • 因为边缘和线框信息是稀疏的,所以利用基于门控卷积的网络来提取更关键的信息,并采用多尺度信息,也就是中间block的最后一层和上采样的三层,通过零初始化残差融合(就是做了一个简单的残差运算),和baseline LaMa的前四层融合在一起,然后训练50k进行一个增量学习微调就能显著的提升原模型的效果。
  • 至于MPE(Masking Positional Encoding),其实就是取一个3×3的all-one卷积核来和mask区域做计算,能够获得距离大mask中心的距离信息以及mask方向信息,送入到baseline网络中作为辅助信息。(黑色区域为1白色为0,很简单的卷积运算)。

Evaluation

  • 主要针对自然场景图像修复,定性上的性能增益不是很明显。

  • MPE这个方法更是鸡肋,出发点很好但是做的太简单了,所以也没有多高的性能增益。

  • 但是定性效果很好,主要是整体结构信息(边缘和线框)对于高分辨率的自然场景图像来说是非常关键的信息。作者之前提出的提取线框的模型,我觉得底层逻辑就像是透视图,对于空间布局来说,透视图很重要,所以修复出来的图片效果会更好。

Paper | Resolution-robust Large Mask Inpainting with Fourier Convolutions | WACV2022

Info

Abstract

现存的问题:

  • Modern image inpainting systems, often struggle with large missing areas, complex geometric structures, and high-resolution images. 目前图像修复存在的问题有:大缺失区域(但个人认为ill-posed problem不是傅里叶卷积能够解决的)、复杂几何结构以及高分辨率图像修复。

猜想:

  • 如何解决这个问题?作者认为最主要的原因是lack of an effective receptive field in both the inpainting network and the loss function.

本文LaMa(Large mask inpainting)贡献点:

  • 在网络结构上,使用fast Fourier convolutions的inpainting network architecture,image-wide的感受野(快速傅里叶卷积的贡献)。
  • 在损失函数上,A high receptive field perceptual loss。
  • 在训练策略上,使用Large training mask。

Introduction

A large effective receptive field is essential for understanding the global structure of an image.

  • 第一, high receptive field architecture。文章提出了基于快速傅里叶卷积(FFCs)的网络架构,能够使得网络前几层感受野都能cover整个图像。可以提升perceptual quality并使网络轻量化,而且泛化能力很强(即使训练集不包含的高分辨率图像,也能很好的推理)。
  • 第二, high receptive field loss function。文章提出基于语义分割网络、大感受野的perceptual loss。能够提升全局结构和形状的一致性。
  • 第三,aggressive algorithm of training masks generation。training mask generation,生成更大的mask。

Method

大mask配置下,如果依旧利用传统的3×3ResNet卷积核,在网络前期感受野可能位于掩膜内部,所以网络中的许多层都缺乏全局上下文,浪费了计算量和参数。

Add FFC

  • 而Fast Fourier convolution (FFC) 能够让网络前几层应用全局的上下文信息。包含两个并行分支,1)局部分支使用常规的卷积操作;2)全局分支使用real FFT,作用在实数信号上。FFT会转换到复数空间(频域)。而inverse real FFT能够保证输出是实数。

  • 这里简单的real FFT得到的复数实部和虚部concat到了一起,然后在频域上做了一个1×1卷积,也就是同频分量的卷积,这样能保证周期性信号的修复(也就是重复性的pattern,作者最初的motivation就是认为现有的方法对于重复性pattern修复的结果不佳,想到重复pattern就想到了周期性信号,也就使用了FFT来解决这个问题)

  • 提出了一个Fast Fourier Conv Residual Block,也就是res block改成快速傅里叶卷积。FFC还有局部分支和全局分支的交互,作用在每一个层之间。

Perceptual loss pro

  • 在鉴别器部分,使用segmentation model作为backbone来专注于high-level information,而不是classification model backbone,更专注于纹理等低级特征。使用傅里叶或扩张卷积来实现均可。

  • 这里做了消融实验验证了对于perceptual loss升级后的效果。因为生成器更关注于全局信息,所以也要使判别器的性能提升,这样在GAN的训练过程中才能保持平衡。

Generation of large mask

  • 输入的数据对于模型的性能提升很重要。与deepfillv2和narrow mask相比,文章生成large wide mask(多边形宽笔划)和large box mask的组合,作为训练输入。

Evaluation

  • 红色代表本方法比其他方法性能提升的百分比。可以看出在narrow mask配置下,本文方法超过绝大多数method,但是在wide mask配置下,性能吊打其他方法。

  • 使用傅里叶卷积的消融实验,在narrow mask下傅里叶卷积模型的性能提升效果不是很明显,但是大mask配置下优势就很突出。

  • 还可以泛化到高分辨率图像上。

Paper | SFI-Swin Symmetric Face Inpainting with Swin Transformer by Distinctly Learning Face Components Distributions | arXiv2023

Info

日常感叹,为什么我能想到的Idea别人总能如此之快的抢发。当我还在拖拖拉拉实现Idea,别人已经验证完了。要多读paper,更重要的是多写code,实现Idea并验证哇。世界上最遥远的距离就是知道和做到

Abstract

现存的问题(问题陈述):

  • None of the existing inpainting methods consider the symmetry and homogeneity of the picture.

    现有的方法在人脸修复的过程中没有考虑图像的对称性和同质性

  • The metrics that assess a repaired face image quality cannot measure the preservation of symmetry between the rebuilt and existing parts of a face.

    现有的评估指标无法衡量修复人脸的对称性

提出的方法(贡献点):

  • 利用多discriminators分别验证五官的生成质量(提升对人脸高级语义五官的理解),构建一个transformer-based的网络(大感受野能够保证面部对称性)。
  • 提出symmetry concentration score指标,来评估修复人脸的对称性。
  • 在reality, symmetry, and homogeneity三个维度上,比最近提出的sota算法效果好。

Introduction

  • 在图像处理中,同质性指的是测量图像的局部均匀性。
  • 文章中的同质性指的是修复的缺失区域需要和面部的其他区域保持协调(global features of each part of the face)。The inpainted regions must be homogeneous with the other parts of the face and highly correlated to the available surrounding areas of the input image.
  • 对称性指的是面部的左右对称。facial symmetry must be preserved between the left and right sides.

作者认为现存方法的问题出在了损失函数无法向生成器传达面部特征的整体理解。This shortcoming is because the network losses do not convey a general understanding of the facial features to the generator.

于是作者分析了主流Inpainting方法常用的几种loss对于模型训练的影响,包括pixel-wise, adversarial, feature-matching, and perceptual loss。

  1. pixel-wise loss。L1、L2范数,只能让网络理解到底层特征(low-level features)。👉focus on 底层特征(颜色、纹理)
  2. adversarial loss。能够让gt和生成图像的分布(distribution)接近,使用discriminator和generator构成博弈;feature-matching loss。gt和pred作为输入,提取discriminator中间层特征。这两个loss只能让生成的图片看起来真实,但不能保证missing regions exactly similar to ground truth(inpainting任务的不适定性,ill-posed problem),大多数鉴别器是patch-based的,所以只能保证局部真实感。👉focus on 生成patches内容的真实感
  3. perceptual loss。先利用一个seg network的预训练提取高级语义特征,然后计算L1、L2范数。主要考虑了high-level features,比如边缘。👉focus on 边缘轮廓的平滑性

一般是过一个类似VGG的backbone预训练提取特征,high-level features就默认为语义及以上层次的特征。

有时上述的loss会牺牲面部对称性而达到局部真实感的最优,所以我们现在需要💡homogeneity-aware loss均匀感知损失,来约束模型。同时,transformer的大感受野也能保证面部对称性。

Method

Evaluation

  • 方法效果一般,更多的是Swin transformer带来的加成。

You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.