神经渲染:您可以在输入方面进行多少?

2021-05-14 03:12:19

昨天,神经形象综合的一些非凡的新工作引起了互联网的注意力和想象力,因为英特尔研究人员揭示了一种提高合成图像现实主义的新方法。

如来自英特尔的视频中所示的系统直接介入大盗窃汽车V视频游戏的图像管道,并通过在卷积神经网络(CNN)上培训的图像合成算法自动增强图像,使用真实的世界图像从Mapillary数据集,并交换GTA游戏引擎的逼真照明和纹理。

评论者在Reddit和黑客新闻等社区的广泛反应中,这不仅是这种类型的神经渲染可以有效地取代传统游戏发动机和VFX级CGI的较小的光敏输出,而是可能是通过比英特尔GTA5演示 - 有效地创建具有大规模现实输出的“木偶”代理输入,更具基本输入。

在过去三年中,该原理通过了新一代GaN和编码器/解码器系统,例如NVIDIA的Gaugan,它从原油涂布产生了光电型风景图像。

有效地,从一种被动方法将计算机视觉中的语义分割中的语义分割中的传统使用传统使用,允许机器系统识别并将观察到的对象识别为创意输入,其中用户“绘制”人造语义分割图和系统产生一致的图像使用它已经理解已经分类并分割了特定域,例如风景。

成对的数据集图像综合系统通过在两个数据集上关联语义标签:一个丰富和全面的图像集,无论是从真实世界的图像生成的吗(与用于增强昨天的英特尔演示中的GTA5)或合成图像,如CGI图像。

在创建此类配对数据集转换时,外部环境是相对彻底的,因为突起通常非常有限,所以地形具有有限的方差范围,可以在数据集中全面捕获,我们不必处理创建人造人才,或谈判不可思议的山谷(尚未)。

谷歌开发了一个称为无限大自然的Gaugan架构的动画版,能够故意“幻觉”连续和永无止境的虚拟景观通过将假语义地图翻译成通过NVIDIA的Spade Infill系统将假语法图翻译成:

但是,无限的性质使用单个图像作为起点,使用Spade仅在连续框架中丢失在缺失的部分中,而Spade本身则直接从分段映射创建图像变换。

这是似乎激起了英特尔图像增强系统的令人兴奋的崇拜者 - 即使实时(最终)来自极其原油输入,也可能导出非常高质量的光电型图像的可能性。

在GTA5输入的情况下,有些人知道在未来的神经渲染系统中真正需要从游戏引擎输出的任何计算昂贵的程序和位图纹理和点击,或者是否可能有可能转换低分辨率,线框级输入到光电静态视频中,优于游戏引擎的阴影,纹理和照明功能,从“占位符”代理输入中创建超现实场景。

显而易见的是,诸如反射,纹理和其他类型的环境细节等游戏生成的面部是英特尔展示的类型的神经渲染系统的必要信息。然而,由于NVIDIA的单位(未经监督的形象到图像翻译网络)已经证明,只有域名很重要,并且即使是“夜晚或日”的扫除方面也基本上是由风格转移处理的问题:

就所需输入而言,这可能使游戏发动机仅需要生成基础几何和物理模拟,因为神经渲染引擎可以通过将所需图像从捕获的数据集合成使用语义地图作为解释来过度绘制所有其他方面层。

英特尔的神经渲染方法涉及从GTA5缓冲区分析完全渲染的帧,神经系统具有创建深度映射和分段图的增加的负担。由于深度映射在传统的3D管道中隐含地可用(并且苛刻的时间苛刻而不是纹理,射线跟踪或全局照明),因此可能更好地利用资源来让游戏引擎处理它们。

因此,当前的Intel图像增强网络的实现可能涉及大量的冗余计算周期,因为游戏引擎产生了计算地昂贵的纹理化和照明,神经渲染引擎并不真正需要。该系统似乎已经以这种方式设计而不是因为这必然是一种最佳方法,而是因为它更容易使神经渲染引擎适应现有的管道,而不是创建针对神经渲染方法优化的新游戏引擎。

在这种性质的游戏系统中,资源中最经济利用可以通过神经渲染系统完成GPU,通过CPU处理的剥离代理输入。

此外,游戏引擎可以通过关闭其输出中的所有阴影和照明来轻松生产代表性分割映射。另外,它可以以远低于通常需要的分辨率提供视频的视频,因为视频只需要广泛代表内容,并且通过神经引擎处理高分辨率细节,进一步释放局部计算资源。

分割对光电保护视频的直接翻译远非假设。 2017年英特尔ISL,昨天的创造者犯了弗洛尔,发布了能够直接从语义细分进行城市视频合成的初步研究。

实际上,原始2017个管道仅扩展到适合GTA5的完全渲染输出。

人工分割地图的神经渲染似乎是VFX的有希望的技术,通过产生来自模型或合成(CGI)图像的域的特定数据集,可以将非常基本的视频播放直接转换为完成的视觉效果。

这些系统的开发和采用将从一个代表性工作流程的解释转向艺术努力的轨迹,并提升从支持到视觉艺术中的核心作用的域驱动的数据。