Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation

  • 用 semantic 信息来指到生成 cross view 的图片

主要解决什么问题

本文解决的问题是两个视角之间的 overlap 比较小。

之前有一些工作是同时生成 semantic 信息和 image。

但是训练用的 semantic map 往往比较粗糙(甚至是用一些 pretrain 的分割网络获得的),可能会有一些 misguiding。

作者表示用一个 single phase 的生成网络并不能很好地捕捉两个视角之间的复杂的场景结构关系。而且 3 channel 的 generation space 可能不足以学到一个关于这样复杂的生成问题的很好地 mapping。

解决的思路

文中提出了一种 coarse-to-fine 的两阶段生成思路,然后用 attention 机制选取合适的中间结果来辅助最后的 final output 的质量。

核心知识点

本文中也是用预训练的 segmentation 方法来得到 semantic map。

这个 semantic map 还被用来限制最后的 final output ,求它的 segmentation 并和输入的 map 相比较,相当于是做个 reconstruction 的限制吧。

20190710165803.png

用不同尺度的 pooling 来得到多样的信息,然后 upsample 到同样大小并 concat 起来,再分两个 branch,其中一路是 attention,最后 element-wise 乘到 feature map 上做 scaling。

multi channel selection 是说把这么多中间结果配上 weight,然后乘起来求个和。

20190710170431.png

在两阶段中 D 好像都是 share weight 的吧(也必须 share 吧,不share 没啥意义),但是特意说了 Generator 和 semantic map 的生成器 不是 share weight 的。作者表示不然就会导致 reduce the network capacity。

为了解决开头提出的 noisy semantic label 的问题,本文提出一种 uncertainty-guided pixel loss。

20190710171617.png

comments

它两阶段之间的信息交互不是只传一个 3 channel 图,而是把前一层的 feature map 也给传过来.. 感觉就肯定要比 DeepFill2 那种只给个图要好..