网站首页互联网 > 正文

用AI生成高真实感视频的重要尝试

2021-09-23 02:38:30 互联网来源：

导读最近，DeepMind的研究人员开发了一个名为Dual Video Discriminator Gan(DVD-Gan)的人工智能模型，通过学习一系列YouTube视频数据

最近，DeepMind的研究人员开发了一个名为Dual Video Discriminator Gan(DVD-Gan)的人工智能模型，通过学习一系列YouTube视频数据集，可以生成256 x 256像素、最大长度为48帧的高度逼真且连贯的视频。

目前，DVD-GAN的研究成果已于2019年7月15日在arxiv上发表，名称为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。

AI假视频比假图片难。

最近俄罗斯AI研究人员开发的FaceApp确实大受欢迎。这款app可以通过人工智能技术改变自拍用户的年龄、长相、发色、性别，甚至生成虚构的人物照片。这直接让人近距离感受到人工智能技术给我们生活带来的乐趣。

但是有没有人想过，有一天这些技术也可以应用到视频领域？

如果说BigGAN是DeepMind在图像领域开发的一款图像生成器，能够生成高度逼真的图像，那么DeepMind研究人员开发的DVD-GAN则是人工智能在视频片段生成领域的最新突破。

研究人员在论文中指出，生成自然视频是生成性建模的一大挑战，同时也会受到数据复杂度和计算需求增加的困扰。

因此，业内研究人员在研究视频生成领域时，几乎都集中在相对简单的数据集上，或者利用有限的时间信息来降低任务的复杂度。

这一次，DeepMind的研究人员主要专注于视频合成和视频预测的任务，将生成图像模型的强大功能和逼真效果扩展到了视频领域。

DVD-GAN:基于BigGAN模型的结构。

研究人员基于BigGAN的模型结构搭建了一个DVD-GAN系统，并针对视频生成引入了一系列调整，使得DVD-GAN可以在dynamics-600上进行训练。

dynamics-600是一个训练数据集，由50万个10秒高分辨率的YouTube视频剪辑编译而成。它最初是为了识别人的动作而制作的，比目前其他常用的语料库大一个数量级。

同时，研究人员表示，dynamics-600具有多样化的特性，可以消除他们对过拟合的担忧。过拟合主要是指机器学习时选择的模型包含太多参数，以至于该模型能够很好地预测已知数据，而对未知数据的预测较差的现象。

另一方面，DeepMind研究人员使用生成对抗来提供一个可以生成动作的学习信号。

此外，DVD-GAN有一个单独的Transformer模块，可以使学习信息在集成的AI模型中传播。

生成视频需要12到96个小时。

研究表明，经过谷歌第三代TPU 12到96小时的训练，DVD-GAN可以成功生成视频。这些视频包括物体和各种复杂纹理的合成和移动。

遗憾的是，DVD-GAN生成的视频内容有时是“怪异”的，比如生成的物体和人物都是奇形怪状的，甚至人体变化也很快很快。

然而，研究人员指出，当将DVD-GAN放在UCF-101(包含13，320个人类动作视频的小数据集)上进行评估时，DVD-GAN生成的样本初始值高达32.97。

DeepMind的研究人员希望进一步强调在大型复杂的视频数据集上训练和生成模型的好处，例如dynamics-600。

“我们设想通过DVD-GAN在这个数据集上建立一个强基线，作为未来建模生成领域的参考点。”研究人员表示，“尽管在不受约束的环境中持续生成逼真的视频仍需要大量工作，但我们相信DVD-GAN是朝着这个方向迈出的重要一步。”

网络(GANs)用于区分生成样本和真实样本，主要由生成器和鉴别器组成。

GANs已经被用来将文字转换成场景和故事，或者生成人造星系的图像。然而，这一次，研究人员使用了一个名为BigGANs的一代对抗网络，该网络以其大量和数百万个参数命名。

值得一提的是，DVD-GAN包含两个鉴别器。一种是空间鉴别器(D _ S)，它通过随机采样全分辨率帧并分别处理它们来评估单个帧的内容和结构。另一种是时间鉴别器(D _ T)，它可以提供一个可以产生动作的学习信号。

此外，DVD-GAN有一个单独的Transformer模块，可以使学习信息在集成的AI模型中传播。

结论：尝试用人工智能生成高度逼真的视频。

无论是BigGAN还是FaceApp，之前的研究者在人工智能领域做了很多突破性的研究来生成图像，但是在视频领域，除了AI变脸之外没有更多的突破。

另一方面，DeepMind研究人员基于BigGAN架构和dynamics-600训练数据集开发的DVD-GAN通过使用计算高效的判别分析，扩展到时间更长、分辨率更高的视频。目前，这一成果虽然存在一些不足，但无疑是研究者利用AI生成高真实感视频的一次重要尝试。

郑重声明：本文版权归原作者所有。转载文章只是为了传播更多的信息。如果作者信息标注有误，请第一时间联系我们修改或删除。谢谢你。

免责声明： 本文由用户上传，如有侵权请联系删除！

标签：