Non-Local Attention CycleGAN: 解决非成对风格转换中的几何畸变

在传统的 CycleGAN 架构中，由于生成器主要依赖于局部卷积操作（Local Convolution），模型在进行风格转换（Style Transfer）时往往只能关注局部的纹理和颜色变化。这种局限性在处理复杂结构时，极易导致图像发生几何畸变（Geometric Distortion）。

💡 核心动机

为了解决长程空间依赖（Long-range Spatial Dependencies）被忽略的问题，我在这项研究中将**非局部注意力机制（Non-Local Attention Mechanism）**创新性地引入了 CycleGAN 的生成器网络中。

🔬 架构与实现

注意力模块嵌入：通过在深层特征图上计算全局自注意力（Self-Attention），模型能够理解图像中相隔较远但语义相关的部分（比如动物的四肢对称性、建筑的整体轮廓）。
损失函数优化：除了传统的对抗损失（Adversarial Loss）和循环一致性损失（Cycle-Consistency Loss），引入了注意力正则化，引导模型在风格转换时保留原始图像的几何刚性。
性能平衡：非局部计算（时间与空间复杂度均为 $O(N^2)$）带来了极大的显存开销。通过特征下采样压缩再还原的设计，成功将该架构在消费级 GPU 上落地训练。

🏆 研究成果

该论文（作为第一作者）凭借在消融实验中的显著指标提升，最终被 CONF-CIAP 国际会议正式录用。这项研究证明了注意力机制不仅在 NLP 领域大放异彩，在生成式视觉任务中同样能充当维持空间结构的“骨架”。