Non-Local Attention CycleGAN: 解决非成对风格转换中的几何畸变
在传统的 CycleGAN 架构中,由于生成器主要依赖于局部卷积操作(Local Convolution),模型在进行风格转换(Style Transfer)时往往只能关注局部的纹理和颜色变化。这种局限性在处理复杂结构时,极易导致图像发生几何畸变(Geometric Distortion)。
💡 核心动机
为了解决长程空间依赖(Long-range Spatial Dependencies)被忽略的问题,我在这项研究中将**非局部注意力机制(Non-Local Attention Mechanism)**创新性地引入了 CycleGAN 的生成器网络中。
🔬 架构与实现
- 注意力模块嵌入:通过在深层特征图上计算全局自注意力(Self-Attention),模型能够理解图像中相隔较远但语义相关的部分(比如动物的四肢对称性、建筑的整体轮廓)。
- 损失函数优化:除了传统的对抗损失(Adversarial Loss)和循环一致性损失(Cycle-Consistency Loss),引入了注意力正则化,引导模型在风格转换时保留原始图像的几何刚性。
- 性能平衡:非局部计算(时间与空间复杂度均为 $O(N^2)$)带来了极大的显存开销。通过特征下采样压缩再还原的设计,成功将该架构在消费级 GPU 上落地训练。
🏆 研究成果
该论文(作为第一作者)凭借在消融实验中的显著指标提升,最终被 CONF-CIAP 国际会议正式录用。这项研究证明了注意力机制不仅在 NLP 领域大放异彩,在生成式视觉任务中同样能充当维持空间结构的“骨架”。