深度学习机器人Shimon实时写作和押韵

2020-12-05 02:13:37

如果您的数字助理可以抗击说唱怎么办?听起来可能有些牵强,但是佐治亚理工学院的音乐技术专家吉尔·温伯格(Gil Weinberg)改编了一个名为Shimon的音乐机器人来创作歌词并进行实时表演。这意味着它可以与人类进行说唱“对话”,甚至可以帮助他们创作自己的歌词。 Shimon专为听起来像机器而设计(请在此处听),旨在成为一种独特的音乐合作者,或者是一个不人道的说唱战斗对手。

计算机生成的音乐可以追溯到1950年代,当时早期的计算机使用算法来创作旋律。现代机器人可以利用机器学习来学习包括长笛和鼓在内的乐器。这样的机器就是Shimon的早期版本,可以播放马林巴琴和唱歌。最近更新的机器人外观相同。它仍然由一个球形的“头”组成,在遮盖住眼睛的上方上方带有狡猾的活动眉毛,栖息在机械臂的末端。但是现在,温伯格声称西蒙是第一个涉足说唱的即兴机器人,其独特的风格特征带来了独特的编程挑战。

说唱的最高荣耀在于歌词。除了语义内容之外,单词还必须坚持美学上令人愉悦的节奏和节奏,同时还要提供多层诗意的复杂性。温伯格(Weinberg)的研究小组在最近发表在第11届国际计算创意大会2020年会议上的论文中,概述了使说唱歌手栩栩如生的技术进步。

当Shimon战斗说唱时,软件会将其人类对手的口头歌词转换为文本。机器人的系统从中识别出关键字,并根据Shimon训练过的几个自定义单词数据集(使用深度学习模型)生成新的歌词。这些数据集可以来自任何文本:Lil Wayne,JAY-Z或其他说唱歌手的作品;其他流派的歌词;甚至是非音乐文学作品。想象一下,如果莎士比亚或简·奥​​斯丁被拍,听起来会怎样? Shimon可以为您模拟。

创作者说,西蒙设计的一个新颖元素是额外使用音素数据集来构思新歌词。音素是组成单词发音的不同发音单元。论文的第一作者,佐治亚理工学院的音乐技术专家理查德·萨维里(Richard Savery)说,将关键字分解成这些单元是将韵律融入歌词的最有效方法。 Savery解释说:“单词之间的音素联系方式非常重要,有时甚至比单词的实际含义更重要。”音素的训练数据集使Shimon能够以韵律搅动以关键字为中心的短语,然后机器人将有节奏的节拍叠加到其语音中。

Shimon的系统必须足够快才能实时响应,而又不影响性能质量。为了实现这一目标,研究人员做出了一些艰难的编程决策,例如将Shimon的响应词汇限制在3,000个单词左右,并缩短Shimon向其对手“监听”的时间长度。到目前为止,Shimon可以在不到七秒的时间内强行卷土重来,同时可以改善诸如头部摆动和摆动眉毛等手势。硬件升级(例如功能更强大的图形处理单元)最终将使处理速度更快。

没有参与该项目的技术初创公司Descript的研究科学家Prem Seetharaman说,Shimon技术的单个组件都不是全新的,但是这种特殊的组件组装才是。 Seetharaman说:“通常,该领域被分为各种不同的领域,例如语音到文本,文本到语音,音乐。” “该领域正在达到足够的(足够)复杂程度,以便人们能够使用这些[组件]并将它们连接在一起,成为真正有趣的交互式系统。”

除了Shimon的新颖性价值,Weinberg希望他的机器人为人们提供尝试新型音乐的机会。他说:“如果[Shimon]在没有人类的情况下做它的事情……作为一个完全自主的音乐系统,这对我来说并不有趣,”他的目标是看到他的机器人“与[人类]交流和互动,并以令人惊讶的方式启发他们。”温伯格以前从未写过歌词,但说西蒙使他第一次创作了歌曲。他补充说,他甚至收到过作家障碍所困扰的歌词作者的帮助请求。

Seetharaman本人是娱乐音乐家,他还说,他对Shimon的技术可能为非音乐家带来的可能性感到兴奋。他说:“使用AI的工具可以减少进入…制作艺术品的障碍。” “人们一直在这样做:您看到人们在制作Instagram故事和TikTok [视频]。”

但是,专业人员对此有所保留。没参与该项目的说唱歌手和多媒体艺术家Rhys Langston说,他将热衷于与Shimon进行说唱,尤其是因为COVID-19大流行限制了Langston从他的大部分灵感中获得的亲身互动。他说,人工智能可以实现的成就令人印象深刻,但同时也表明,机器人根本无法获得有时是偶然出现的灵感,例如人为失误。兰斯顿解释说,在录音过程中,错误有时会在最终录音中结束,因为它们听起来好极了。他说,事故“释放了可能性,因为并不是(录音中的)所有事情都被计划了”。 “你能教机器犯错误吗?”