Transformer也能生成图像,新型

选自arXiv作者:ZhuowenTu、CeLiu等机器之心编译编辑:PandaTransformer已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由CNN主导的任务上暂露头角。近日,加州大学圣迭戈分校与GoogleResearch的一项研究提出了使用视觉Transformer来训练GAN。为了有效应用该方法,研究者还提出了多项改进技巧,使新方法在一些指标上可比肩前沿CNN模型。卷积神经网络(CNN)在卷积(权重共享和局部连接)和池化(平移等变)方面的强大能力,让其已经成为了现今计算机视觉领域的主导技术。但最近,Transformer架构已经开始在图像和视频识别任务上与CNN比肩。其中尤其值得一提的是视觉Transformer(ViT)。这种技术会将图像作为token序列(类似于自然语言中的词)来解读。Dosovitskiyetal.的研究表明,ViT在ImageNet基准上能以更低的计算成本取得相当的分类准确度。不同于CNN中的局部连接性,ViT依赖于在全局背景中考虑的表征,其中每个patch都必须与同一图像的所有patch都关联处理。ViT及其变体尽管还处于早期阶段,但已有研究展现了其在建模非局部上下文依赖方面的优秀前景,并且也让人看到了其出色的效率和可扩展性。自ViT在前段时间诞生以来,其已经被用在了目标检测、视频识别、多任务预训练等多种不同任务中。近日,加州大学圣迭戈分校与GoogleResearch的一项研究提出了使用视觉Transformer来训练GAN。这篇论文的研究议题是:不使用卷积或池化,能否使用视觉Transformer来完成图像生成任务?更具体而言:能否使用ViT来训练生成对抗网络(GAN)并使之达到与已被广泛研究过的基于CNN的GAN相媲美的质量?论文链接:


转载请注明:http://www.shandongbdf.com/afhzz/1458.html

当前时间: