合成音频Deepfakes的兴起

2020-07-27 22:45:46

音频深度伪造是商业妥协计划的新前沿,并正成为犯罪分子欺骗性获得公司资金的更常见途径。Nisos最近调查并获得了一种原始的企图深度假合成音频,该合成音频用于针对一家科技公司的欺诈企图。深度假的形式是该公司据称的首席执行官发来的语音信箱信息,要求一名员工回电“敲定一笔紧急的商业交易”。收件人立即认为可疑,没有联系这个号码,而是将其转给了他们的法律部门,结果攻击没有成功。

Nisos调查了潜在攻击者使用的电话号码,并确定这是一项没有所有者注册信息的VOIP服务。它很可能只是被简单地收购并用作这次诈骗企图的“燃烧器”。虽然没有与该号码关联的实际语音信箱消息,但出于法律原因,我们没有尝试与该电话号码的所有者进行实时联系。

Nisos使用名为Spectrum3d的音频谱图工具分析了深度伪造的语音邮件音频记录。为了发现任何异常,我们立即注意到谱图中的高点反复出现(见下图)。我们最初怀疑深度假冒的创建者使用多个通道上播放的音频来帮助掩盖声音。

图1:深伪音频的频谱分析,显示了音高和音调的主要不一致。

此外,我们还注意到音频非常不稳定,与类似的人类语音记录不一致。当我们改变音频速度并以1.2速度播放时,音频听起来更像是标准的文本到语音系统。最有趣的是,当我们放大声音以检测任何背景噪音时,我们找不到任何痕迹,这进一步表明这是被操纵的音频。

然后,我们将深伪语谱图分析结果与一段类似录音中的正常人声结果进行了比较。我们可以立即看到音调和音调是如何更加平滑的,以及检测微弱背景噪音的能力。

图2:“正常”人类声音的语谱图分析,显示出更一致的音调和语调。

我们无法确定用于创建此深度伪的确切软件或语音模型,因为我们需要访问攻击者其他深度伪音频文件的足够大的样本(我们可能需要数十(如果不是数百)个文件,这假设攻击者制作的不仅仅是这个文件)。然而,我们注意到演员必须克服几个复杂的因素,才能创造出更真实的深度假音频:

在实际情况下(通话的音调、背景噪音和通话原因)安排音频传送呼叫,在这种情况下,该人员不会觉得需要回电。

上述场景中的攻击者很可能利用了大多数手机/VOIP服务提供商提供的功能,即绕过振铃选项并使用`#`键直接进入语音邮件的能力。

深度假合成音频技术在刑事欺诈中最著名的使用是2019年9月发生的一起涉及一家英国能源公司的事件。据报道,犯罪分子使用模仿语音的软件模仿这位英国高管的演讲,并欺骗他的下属将数十万美元汇到一个秘密账户。

这家公司的总经理相信他的老板在打电话,于是奉命将超过24万美元电汇到匈牙利的一个账户。1个。

赛门铁克(Symantec)安全研究人员在2月份报告了三起针对私人公司的音频深度假冒案件,通过冒充该公司首席执行官的声音。据报道,犯罪分子从电话会议、YouTube、社交媒体更新甚至TED演讲中获得的音频中训练机器学习引擎,模仿公司老板的声音模式。

他们制作了复制CEO声音的音频深度假,并打电话给财务部门的高级成员,要求紧急发送资金。没有关于这些是哪些公司的额外报道,这些技术是否成功,或者赛门铁克是否能够自己获得深度假货的录音。

如果没有对音频的实际数字捕获和额外的取证分析,目前还不清楚这些尝试是否真的是深度伪造的合成操纵音频。无论如何,产生合成音频的能力扩展了电子罪犯的工具箱,罪犯最终仍然必须有效地使用社会工程策略来诱使某人采取行动。

罪犯和潜在的更广泛的民族国家行为者也相互学习,所以随着这些备受瞩目的案件获得更多的恶名和成功,我们预计会有更多的非法行为者审判它们,并向其他铺平道路的人学习。

此外,随着深度假货变得更容易制作或购买,以及音频(和视频)合成操作的质量提高,我们预计这些电子犯罪利用会得到更广泛的部署。如果诈骗行动需要使用完全伪造的视频或音频才能产生最大影响,而且它值得花费金钱和资源,就会使用它。然而,Nisos的研究人员还没有看到将这种类型的深伪轻松外包给单个人或大规模生产的能力。

我们的研究人员联系了几个深度虚假的渠道,在那里我们询问了这种类型的攻击媒介,参与者不确定这样的事情在不久的将来是否可能发生。音频深度伪造的中心问题不仅与捕捉人的语气有关,还与捕捉特定的言语举止有关。然而,未来的场景可能会成为现实,类似于Yandex反向图像搜索(但针对语音)的工具可以用来收集大量样本,然后建立和训练一个模型,帮助将源语音转换为目标语音。

如果员工在语音信箱(或任何音频)指示中感觉到可疑情况,他们可以采取的最直接行动是直接使用已知号码回电,并让他们接通电话。

深伪技术还不够复杂,不足以模仿与某人的整个电话通话。此外,该公司还可以使用不为公众所知的信息或演员无法轻易回答的谈话要点,进行一系列“挑战性问题”,以审查在线个人的身份。

这一诈骗计划是一种商业电子邮件泄露(更复杂、更人工智能开发的版本),通常攻击者会假扮成一家公司的高级管理人员,让更容易受到影响的“较低级别”员工向银行账户汇款。

我们预计,深度伪造的音频将是一系列社会工程尝试的第一步,目的是让员工将钱电汇到特定地点。钓鱼电子邮件、额外的电话,甚至声称授权采取行动的深度虚假视频,都可能被用来进一步推进犯罪计划。

深伪音频也可能用于上述所列原因之外的其他原因。例如,犯罪分子可以留下虚假信息,指示员工提供对公司的网络或物理访问,从而允许攻击者轻松危害公司的网络或物理资产。

这项新兴但迅速崛起的技术的出现突显了公司必须开发包含这些措施的安全实践的紧迫性。任何时候发生不寻常的事件,当然当涉及大型金融交易时,员工都应该接受培训,向高级管理人员提出挑战性问题。