生成对抗网络(GAN)是一个十分有效的深度学习模型,由此衍生了CycleGAN。
先简单介绍一下GAN。
网络中有生成器G(generator)和鉴别器(Discriminator)。
有两个数据域分别为X,Y。G 负责把X域中的数据拿过来拼命地模仿成真实数据并把它们藏在真实数据中,而 D 就拼命地要把伪造数据和真实数据分开。经过二者的博弈以后,G 的伪造技术越来越厉害,D 的鉴别技术也越来越厉害。直到 D 再也分不出数据是真实的还是 G 生成的数据的时候,这个对抗的过程达到一个动态的平衡。
传统的GAN是单向的:
训练这个单向GAN需要两个loss:生成器的重建Loss和判别器的判别Loss。
1 重建Loss :希望生成的Gba(Gab(a))与原图a尽可能的相似。
CycleGAN本质上是两个镜像对称的GAN,构成了一个环形网络。
两个GAN共享两个生成器,并各自带一个判别器,即共有两个判别器和两个生成器。一个单向GAN两个loss,两个即共四个loss。
论文里最终使用均方误差损失表示:
CycleGAN的网络架构如图所示:
可以实现无配对的两个集的训练是CycleGAN与Pixel2Pixel相比的一个典型优点。但是我们仍然需要通过训练创建这个映射来确保输入图像和生成图像间存在有意义的关联,即输入输出共享一些特征。
简而言之,该模型通过从域DA获取输入图像,该输入图像被传递到第一个生成器GeneratorA→B,其任务是将来自域DA的给定图像转换到目标域DB中的图像。然后这个新生成的图像被传递到另一个生成器GeneratorB→A,其任务是在原始域DA转换回图像CyclicA,这里可与自动编码器作对比。这个输出图像必须与原始输入图像相似,用来定义非配对数据集中原来不存在的有意义映射。
鉴别器将一张图像作为输入,并尝试预测其为原始图像或是生成器的输出图像。
鉴别器本身属于卷积网络,需要从图像中提取特征,再通过添加产生一维输出的卷积层来确定提取的特征是否属于特定类别。
分别有大约2万张男人与女人的脸作为输入的训练集。
项目中提供了build_datapy脚本,修改训练集的路径,运行即可。
将data/testjpg替换为对应的输入地址
训练时踩了比较多坑。由于急于看结果用了比较高的学习率。大概迭代五万次的时候可以有一点能看的结果,10万次时多数还可以接受。但是仍然有许多问题,比如戴眼镜,脸上亮度不均匀,角度奇异等都可能引起生成的图像中噪声较大的问题。
转换的特征通常为面部五官特征以及肤色亮度等,不包括发型,因此男女转化之后显得比较诡异。。
比如
未完待续。。
Tensorflow的JIT(just-in-time)是指在运行 @tffunction 修饰的python函数时,由 jit 、 tf2xla 和 XLA 一起完成一系列如子图构造、子图优化、图编译和图执行等 *** 作。编译后的可执行程序-- executable 会存放到cache中,供再次调用时直接获取执行。JIT的好处在 开篇 已经讲过了,这里不再赘述。
JIT的流程可以概括为:Tensorflow子图构造/优化,graph -> HLO,编译/执行,合并计算结果到Tensorflow图这四部分。本文只涉及图编译和图执行。
函数中ops在子图构造阶段被包裹进一个cluster node,并替换成 xla_compile 和 xla_run 这两op,而 XlaCompileOp 和 XlaRunOp 就是它们的 OpKernel ,分别用于图编译和执行。
XlaCompileOp通过 XlaCompilationCache 获取或编译executable,并将其封装成 XlaExecutableClosure ,并缓存在 XlaExecutableClosureStore 。 XlaRunOp 用从XlaCompileOp传递来的key在cache中查找并执行executable。
从编译流程图可以看到,XLA的编译结果会缓存到XlaCompilationCache,后续调用可以根据 signature 在cache中查找executable。
函数的 signature 是由 BuildSignature(function, args) 根据函数和arguments生成的。即使是同一个函数,只要input tensors不同,signature也会不一样,这就是 power() 被编译两次的原因:第三次函数调用时,由于无法通过signature在cache中找到executable而触发编译。
signature表示唯一的计算图:只要函数中的ops序列和arguments(type/shape)是确定的,那么计算图也是确定的。
编译之前需要通过 tf2xla 将图转换成XLA支持的语言 HLO 。tf2xla为每个Tensorflow op创建了生成HLO的 XlaOp ,因此,只要执行该Tensorflow子图,就可以生成具有相同的拓扑排序的HLO -- XlaComputation 。
XlaComputation (HLO)可以认为是一个运行在device上的纯函数,它的input/output会伴随着host-to-device(H2D)和device-to-host(D2H)的数据传输。
我们知道,Tensorflow图中的input tensor有两种: tfPlaceholder 和 tfVariable ,前者每个step都会将新data发送到device,而后者是模型参数,它们会常驻内存,只在store/load checkpoint才会有H2D/D2H。
而纯函数的定义是:
不管是input还是output,虽然variable和其他argument一样存在于HLO的参数列表和返回值列表中,但它们实际上是常驻于device的,不需要也不应该H2D/D2H。
因此,HLO在编译时还需要通过 argument_input_indices 、 resource_input_indices 和 resource_update_to_input_index 等options来区分arguments和variables。
此外,如果有input是常数,为了避免无谓的H2D开销,可以把它固化到函数内部。同理,对于常数output,它没必要出现在函数中,可以直接定义在 XlaCompilationResult 的output buffer。
XlaCompilationResult是 Graph -> HLO 的output,它封装了HLO以及上述部分metadata、buffers。
XlaCompileOp会把编译好的executable、metadata、input/output buffers、options等统统封装进一个closure -- XlaExecutableClosure ,并将其缓存在 XlaExecutableClosureStore 供 XlaRunOp 获取。
XlaRunOp 可以通过一个数字字符串key(从0开始累加)从cache中查找并执行XlaExecutableClosure,这个key由XlaCompileOp提供。
python363、tensorflow1100
Intel@AIDevCloud:Intel Xeon Gold 6128 processors集群
>
以上就是关于CycleGAN原理及实验(TensorFlow)全部的内容,包括:CycleGAN原理及实验(TensorFlow)、JIT(上):Tensorflow如何实现即时编译、用多线程预处理数据提高神经网络训练速度等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)