|
|
在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖迭代推理,虽然此方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。3 k, g6 y4 O9 V5 l) }/ }# |
在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,这是 GAN 式微的原因之一。9 f9 }2 y7 b& \3 f+ l8 u/ }
当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。1 D5 R+ X( L7 c! p# S) R, w
其中,来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌等机构的研究者们提出了一种强大的控制 GANs 的方式,即以用户交互的方式拖动图像的任何关键点以精确到达目标点。5 X+ U+ z) r& F I# n
为了实现这一点,该研究提出了 DragGAN,它包含两个主要组成部分:1)基于特征的运动监督,用于驱动关键点向目标位置移动;2)一种新的点追踪方法,利用 GAN 的特征来定位关键点的位置。1 W% L1 d3 r, B9 F0 {
通过 DragGAN,任何人都可以精确控制像素的移动位置来变形图像,从而操控各种空间属性,如动物、汽车、人类、风景等的姿态、形状、表情和布局。由于这些操控在 GAN 的生成图像流形上进行,因此 DragGAN 可以生成被遮挡的内容和以及保证物体的形变符合物体的结构。定性和定量比较都表明,DragGAN 在图像操控和点追踪任务上优于先前的方法。此外,该研究还展示了通过 GAN 重建操控真实图像的例子。6 ~9 J- g) |2 E6 i
为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了 DragGAN 论文第一作者潘新钢,通过本次分享,大家可以更深入的了解这一项研究。4 h2 \4 N9 l- H1 ]$ a! x7 h# F, u
" v- E, n5 `* X; J9 E
/ a7 ~9 k2 W* G
0 ~& J# R7 l' [( Y" B分享主题:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold0 [. g3 g% P6 a1 c( P2 j; N
嘉宾简介:潘新钢是南洋理工大学计算机科学与工程学院助理教授。此前他在马克斯普朗克计算机科学研究所从事博士后研究。他于清华大学获得学士学位,于香港中文大学 MMLAB 获得博士学位,师从汤晓鸥教授。他的主要研究方向是生成式 AI。$ [: _0 x" ^% L6 Z0 Y9 M7 u
分享摘要:这次分享将主要介绍 DragGAN,一种新的图像编辑方法。通过 DragGAN,用户可以通过交互的方式拖动 GAN 所生成的图像的任何关键点以精确到达目标点,从而实现对各种空间属性如姿态、形状、表情和布局等的操控。7 i1 @: V& c+ F/ Y/ r( ]
相关链接
* Z( x6 h9 j- R$ Q6 r0 x论文链接:https://arxiv.org/abs/2305.109737 H$ X W3 ~3 { d& X: c9 w
项目主页链接:https://vcai.mpi-inf.mpg.de/projects/DragGAN/6 z8 R6 t4 \7 ]8 L
直播间:关注机器之心机动组视频号,立即预约直播。 i- g9 U$ C1 D1 Y
- K4 U s& @; r! }3 n" j
' i2 {9 r1 r: w! a7 e交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
7 b: R+ _( w5 T7 S3 x8 J' E
) N! C# N$ R, a D9 u5 i |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|