为什么今天的视频编辑如此可怕?

2020-09-18 12:10:00

在过去的三个月里,我做了比过去12年更多的视频后期制作。令人惊讶的是,这些年来,似乎什么都没有改变。考虑到现在有多少媒体是机器可分析的内容,比如音频和视频,我很惊讶没有更多的模式让导航和排列视频内容变得更快。除此之外,我感到惊讶的是,没有更多的过程可以编程合成视频,以一种完善的方式来补充现有的手动编排方法。

在1918年,当摄像机被创造出来时,如果你拍摄了一些东西并想要编辑它,你就拿出你的镜头,剪切它,然后按照你想要的样子安排它。现在,如果要编辑视频,必须将源资源导入到专业程序(如Adobe Premiere)中,然后手动查看每个项目以观看/收听所需的部分。一旦您有了每个导入资产的部分,您就必须在时间线上手动排列每个项目。当然,很多东西都变了,但是一般的工作流程感觉是一样的。

视频制作和编辑怎么会没有得到数字优先的创作方法呢?计算能力已经飞涨。对存储的访问通常是无限的。我们的计算机在世界各地联网。为什么导入、编辑和导出的工作流程花了这么长时间?

视频编辑的消费化通过抽象出看似重要但复杂的部分,如时间的线性,简化了某些元素。像TikTok这样的东西似乎是视频创作中最戏剧性的转变,因为工作流程从立即审查和重新拍摄视频转变。多年来,iMovies等移动了时间线,从水平表示流逝的时间到一般的“场景”或剪辑块。通过抽象进行简化对于一般消费者来说很重要,但会减少对细节的关注。这创造了一种自己的审美,这似乎是工具更换的结果。

在视频的等价物中,我在开发工具中理所当然的东西都在哪里,比如自动补全或类方法搜索?编辑视频剪辑时自动完成是什么样子?我可以只写一次,然后到处重用的可重复的“模式”在哪里?为什么视频画布上的每个项目似乎彼此孤立,没有意识到其他元素,也没有能力相互互动?

作为一个专门研究电影和动画多年的人,我总体上感到惊讶的是,制作内容的总体方式基本上与10年前一样,但似乎也是过去100年的方式。

据我所知,复杂的领域已经变得更加小众,例如在VFX或多媒体领域。我没有任何复杂的3D渲染的直接经验,我也没有尝试过任何非传统视频显示的视觉编辑,所以说电影没有任何变化有点牵强。我还没有接触到新的视频创新的表面,但综合考虑,我希望一些基本的事情能容易得多。

首先,当涉及到视觉布局时,我会喜欢类似于Figma的“自动布局”功能。如果我在画布上有多个项目,我希望它们基于某种盒子模型自动排列。应该有一种方法将样式的等价物指定为“类”,比如使用CSS,并且多个文本元素应该能够继承/共享填充/边距定义。像FlexBox和相对/绝对定位这样的东西将使视觉模板在开发新的视频内容时变得更加容易和快捷。

我希望有一个“更聪明”的时间线,可以浮出我可能想要钩住的视觉变化的“提示”。基于在可用内容中检测到的特征,提示可以利用音频和视频中的机器可分析特征。这里到处都是毛茸茸的地方,听起来肯定比实际情况要好。在一个基本的例子中,时间线可以查看音频或文字记录,并知道某个说话者何时在讲话。已经有诸如Descript的服务无缝地使用说话人检测。这应该会在视频编辑软件中找到一些表达方式。即使软件本身没有检测到这些信息,也应该利用来自其他软件的元数据。

更高级的做法是知道多个人之间的某些交流何时是一个自我封闭的“点”。识别“交换”发生的时间,或者“问题”被“回答”的时间,对于标题幻灯片或带有赠送文本的较低三分之一的幻灯片将很有用。

如果有相同镜头的多个镜头,最好让剪辑根据音频的排列来记录开始和结束的位置。如果有方法区分视频/音频剪辑的内容并将其与自身或其他剪辑进行比较,则不应该以线性方式审查内容。

为了配合“线索”,我想以更全面的方式“搜索”我的视频。我的iPhone照片应用程序可以让我根据面孔或位置进行搜索。在我的视频编辑器里怎么样?所有的视频剪辑都有特定的面孔或背景吗?

此外,轻松地生成这些“特性”也是不错的。我个人不知道通过查看剪辑的某些部分、标记它,然后使用标记的示例来查找类似类型的可视内容的其他实例来训练特征检测器需要做些什么。我知道这是可能的,这对加快编辑过程非常有用。

在我的用例中,我看到了很多Zoom电话会议或网络研讨会的视频记录。这是视频内容的另一个示例,该视频内容通常看起来“相同”,并且可以针对某些内容类型进行分析。如果我能够根据视频是同时观看的多个面孔的屏幕,或者一次只有一个扬声器的特点来过滤视频,我将能够快速浏览剪辑。

所有这些都表明,目前可用的工具存在很大差距。