由现在面临法律诉讼的团体拍摄的非双方同意的色情图像和视频,可以永远存在于用于制造深度虚假色情的机器学习数据集中

2020-11-12 02:06:34

数以千计的裸体女性照片被用来制作机器学习生成的色情图片,其中包括色情制作公司的图片,这些公司被指控对女性撒谎,并强迫她们在镜头前发生性行为。

这个数据集在网上的深度虚假色情创作社区中流传,其中包括从捷克Cast(捷克一家色情制作公司)收集的图片,警方指控该公司贩卖人口和强奸,以及Girls do Porn制作的视频中的静止图像。Girls do Porn被勒令向出现在其视频中的22名女性支付近1300万美元,其创始人目前是FBI头号通缉名单上的逃犯。

就像这个人不存在网站一样,该网站使用机器学习算法和数千张人脸照片来生成不存在的人的照片真实感图像,这些数据集被用来生成不真实的裸体女性的照片真实感图像,这些裸体女人看起来并不完全像任何一个人。一个使用这个数据库的人正在创建他所说的数百万女演员的后宫,可以插入到深度假色情中,而另一个人则使用这个数据集来创建他所说的完全由人工智能生成的色情。

Motherboard已经下载并查看了包含捷克选角和Girls do Porn的图片的数据集,以及其他几个用于创建机器学习生成的色情图片的数据集。

匿名使用这些数据集的人说,从技术上讲,他们最终生成的算法生成的图像不是真人的,所以他们不会伤害任何人。事实上,他们争辩说,他们的创作是迈向色情片根本不需要人类色情表演者的未来的一步。但包括在数据集中的法律专家、技术专家和女性将这些创造描述为独一无二的非人性。

Motherboard写了大量文章,谈到深度假货和互联网平台无法充分遏制非自愿色情的传播,颠覆了女性的生活,并不断给她们造成创伤。这种由机器学习生成的色情作品及其所依赖的数据集引入了一种新的虐待形式,一些女性生活中最糟糕的时刻被摄像机捕捉下来,被保存下来,并在网上传播,目的是制作色情作品,制作人声称这些色情作品的主角并不是真正存在的人。

HonzaČervenka是麦卡利斯特奥利维纳斯律师事务所的一名律师,专门从事复仇色情和技术,他来自捷克,一直在关注捷克选角的案件,该公司隶属于捷克最大的色情公司netLook。他告诉《母板》说,认为图片有害程度较低是因为图片经过了算法处理,而且是匿名的,这是无稽之谈。

他说,这是一门疯狂的科学,完全、彻底地再次伤害了捷克铸件肇事者的受害者。

这感觉不公平,感觉我的自由被剥夺了,简在接受《母板》采访时说,她说自己是被迫为捷克选角拍摄的。

简要求匿名谈论一起令人精神创伤的事件,她记得当她宣读捷克选角合同时,她的手在颤抖。她在那里支持她的朋友,她的朋友需要钱付房租。他们回复了一则模特演唱会的广告,并决定一起去。他们都刚满18岁。他们不知道这是一种什么样的模特;广告对细节含糊其辞。有人在地铁站接走了他们,并把他们带到了布拉格郊区的一所房子里。

(在YouTube上发布的对捷克健美运动员安东宁·霍丹的采访中,捷克选角视频中一位名叫Alekos Begaltsis的男演员承认,有时出现在拍摄现场的女性不知道自己是为了什么,因为有欺骗性的广告。)。

贝加尔特西斯说,任何人都可以推荐这些女孩通过中介机构、私人经纪人或朋友来这里。我们无法控制广告中的每一条信息。可能会有一个女孩来到这里,以为她会拍一张内衣照片。这很糟糕,因为我们在这种情况下无能为力。我们正试图敦促他们写下真相(在广告中)。不幸的是,情况并不总是如此。但一旦她到了这里,我们就会把一切都告诉她。)。

她说:我们坐在候车室里,起身离开了两三次,但总会有人上前让我们留下来,不要害怕。我们害怕离开,所以留了下来。

一名女子把他们一个个叫到一个有白色沙发的房间里,在那里拍摄,并递给他们一份合同,说捷克的任何人都不能接触到这些视频。这部分安排类似于《谎言女孩》告诉女性,她们的视频只会被分发给新西兰的收藏家。事实上,《少女时代》的色情视频在美国出版、销售,并在PornHub上进行推广。

捷克Cast确实阻止了试图从捷克共和国访问该网站的用户,Motherboard通过尝试使用虚拟专用网络访问该网站证实了这一点。但是国内的人们也可以很容易地使用VPN绕过封锁,VPN是免费的,很容易设置。此外,就像指控捷克选角不当的女性所说的那样,她们的家人和朋友很快就发现了她们的视频,这些视频被转载到流行的免费管道网站上,有时她们的真名被删掉了。

几周后,我开始收到…的信息。简说,这些话大多来自男人们,他们说我有多漂亮,如果他们能和我上床,他们会说我有多漂亮。我收到了这么多这样的信息,而且还在不停地收到。正因为如此,我甚至改了我在Facebook上的名字。

在她签完合同后,一名男子走了进来,问她是不是处女。她说,她觉得自己没有出路,没有身份证她不能离开。

在我答应之后,他拿起相机让我裸体,简说。有人告诉我他们要拍一些柔和的东西。。我不敢说出来。

简说,在她离开的时候,他们把钱交到了她手中。她没有得到一份她签署的合同的复印件,也没有任何证明她去过那里的证据。

简说:我的朋友在一个色情网站上找到了我们住的房间。我意识到这是一场他妈的大混乱。我一直在想,即使这意味着我们没有带身份证,我们也应该离开。

在另一段捷克选角视频中,一名女子在做爱时哭了起来,并要求男子停止性行为。母板公司证实,这名女子也包括在数据集中。这名男子停了下来,摄像机将镜头放大,显示她正在流血。他递给她一条毛巾,让她把血迹清理干净。

简关于捷克选角的故事并不是独一无二的。多名女性指责捷克演员强迫她们在镜头前发生性关系。捷克警方指控与捷克铸造公司NetLook有关的9人犯有人口贩运和强奸罪。黛西·李(Dasie Lee)是一名女子,她在捷克选角后继续从事色情行业,现在与贝加尔特西斯关系友好。她说,这个网站毁了人们的生活。

我当时18岁,不知道自己陷入了什么境地。大多数女孩都不这么认为。他们中的大多数人留了下来,但也有一些人离开了。这毁了很多人的生命,李告诉《母板》杂志。

在成人娱乐新闻网站Xbiz 7月份发布的一份声明中,NetLook否认了这些指控,并表示正在与警方合作。NetLook没有回应母板的置评请求。

今年9月,在简为捷克选角拍摄场景四年后,一名博士生开设了一个新论坛,展示他最新的个人人工智能项目:算法生成的色情。

制作这些视频的人使用用户名GeneratedPorn,并将r/GeneratedPorn subreddit命名为r/GeneratedPorn subreddit来发布关于这项技术的信息(在本文中,我们将把这个用户称为gp)。他说,他之所以启动这个项目,是因为他想提高自己的机器学习技能。就像2017年在网上发布的一些最早的深伪作品一样,他分享的是他们接受过训练的图片的零星、痉挛的复制品:数千个色情视频和图片。与许多深度虚假的色情作品不同,全科医生制作的图片不会欺骗任何人,让他们认为自己是真正的色情作品。最终的结果看起来几乎不像人类,更不用说像一个特定的人了。

你有《选角沙发》制片人的经验吗,或者知道非双方自愿的色情作品是如何在网上传播的?我们很想听到你的消息。在短信应用Signal上安全地联系萨曼莎·科尔(Signal+6469261726),在推特上直接留言,或者通过电子邮件联系萨曼莎·科尔([email protected])。

但就像早期的深度假货一样,它们的真实感也在迅速提升。在过去的几周里,全科医生发布了几个实验,展示了越来越精确的裸体,甚至还有一些轻微的动画图像,显示完全由人工智能生成的令人信服的色情作品并不是不可能的。

全科医生在给母板的一封电子邮件中说,这一切一开始都是为了让我了解所有这些很酷的技术是如何工作的,但后来我转而投身于色情世代,因为我认为这是一个很酷的概念,特别是在看了电影《她》(Her)之后,全科医生在给母板的电子邮件中说。

GP通过电子邮件向Motherboard解释了他的过程,并在Reddit上详细解释了他的过程,Reddit发布在广受欢迎的r/MachineLearning社区中。他使用了一个Stylegan2模型,这个模型可以在Github上买到,作为开源代码,但它加载了色情数据集。这与其他任何脸部交换深度假像的制作方法类似,但他没有使用由一个人的多个表情组成的数据集,而是从网上找到的多个数据集中提取数据。

为了制作视频,GP使用来自网络各地的数据集来训练算法,其中包括一个主要由捷克演员阵容中的图像组成的数据集。这些数据集是托管的,可以从流行的文件共享网站免费下载,由用户在深度假冒和其他形式的算法生成的图像中进行实验后汇编而成。全科医生在其中一个文件共享网站上找到了捷克铸件的数据集,但他说,如果他没有,他会写一个网络刮刀来收集捷克铸件的图像。

这是因为捷克演员制作的色情电影的范围和统一性。

制作由算法生成的全身裸体视频需要很多裸体真人的图片和视频,很难想象还有比捷克选角更适合这项任务的资源了。

捷克选角,就像《女孩做色情》一样,专门选角沙发风格的色情片,多年来已经发布了数千个女性视频。它的制作风格从一开始就几乎是算法设计的:每个女人的视频都有一套统一的照片。每一套都包括一张这名女子手持黄色牌子的照片,上面写着一个数字,上面写着她的剧集编号,就像一个面部照相板。每组照片还包括女性在一系列穿着和不穿衣服的白色背景下摆姿势的照片:右侧、左侧、正面、背面,以及面部、乳头和生殖器的极致特写。近年来,捷克的选角也开始包括这些女性的360度照片,她们在这些照片中摆出互动的VR风格的内容。

GP说,人们之所以选择这样的数据来源,主要是因为人们使用的生成性对抗性模型(GAN)试图了解你试图生成的这类对象的图像的一般结构。如果你的照片在结构上相似,模特可以了解更多关于物品类别的细节,比如脸上的酒窝或雀斑。这会带来更高质量的结果。

GP给Motherboard发了一份他正在使用的数据集的样本,其中还包括女孩做色情视频的图片。GP正在使用的其他数据集(Motherboard已经查看过),包括似乎是从互联网上抓取的图片,包括其他色情网站、社交媒体,以及用户发布自拍的Subreddit,比如r/RoastMe,人们在Subreddit上发布自己的照片,供其他人判断。

在给r/MachineLearning子编辑网站的一篇帖子中,GP解释了他的算法生成的色情作品是如何工作的,在解释过程中中途停顿了一下,以解决一个潜在的道德问题。

我不知道该怎么处理它,除了它是我创建的…这个很酷的东西。他写道,我曾考虑制作一台OnlyFans,并提供个性化的人工智能生成的裸体,与人交谈。但我认识的一个人对这个想法不以为然,说这是对可能需要陪伴的男性的剥削。所以我决定不走这条路,以避免道德问题。

他还在那篇帖子中指出,训练数据集伦理是他关心的问题。他写道,我们正在培训的这些形象是否符合伦理道德,或者这些形象中的人物在某种程度上被利用了。我再一次无法证实数十万张图片背后的故事,但我可以推测,数据集中的一些图片背后可能有剥削力量的动力,并指出其中一些图片来自《女孩做色情》(Girls Do Porn)。如果剥削性数据是从网络上删除的,我甚至不确定是否有可能将其列入黑名单。我需要再考虑一下这件事。

这些问题并没有阻止GP在社交媒体平台上公开建造这个项目,这意味着无论他说自己可能面临什么道德困境,他都是在进行伤害。许多最具危害性的非自愿内容都是通过Twitter、Facebook、Reddit、OnlyFans等表层平台以及XVideos和PornHub等Tube网站在互联网上传播的。

Červenka说,许多主流色情网站都有儿童色情和非自愿色情内容,而且确实描绘了强奸,并通过广告销售获利。

当Motherboard联系Reddit请其置评时,一位发言人表示,Reddit的全站政策禁止非自愿色情内容,这适用于所有内容,包括深度假冒。Reddit在2017年禁止深度假冒。在主板发出置评请求后,r/GeneratedPorn和r/AIGeneratedPorn都被关闭。

在母板与PornHub联系后,Generated Porn';在PornHub上的用户档案也被删除。PornHub的发言人拒绝置评。

色情网站xHamster的一位发言人表示:xHamster删除了GP的用户资料,等待进一步审查:这些新类型的内容确实是灰色地带,我们需要与我们自己的机器学习团队和TOS团队一起审查,以确定如何进行评估,并在必要时进行预防。

OnlyFans没有回复记者的置评请求。Patreon曾请求人们资助他的项目,但收效甚微。他告诉Motherboard,虽然平台上不允许资助非双方同意的色情内容,但如果一个账户确实包含非双方同意的色情内容,平台会与创作者合作,将该账户限制在其使用条款范围内。自周一起,该项目已从Patreon下架。

在给Motherboard的一封电子邮件中,GP表达了另一种伦理担忧:这种算法可能会产生一些可以被识别为真人的东西--这一结果会否定他项目的全部意义:匿名性。

他说,该算法很有可能复制出与真人相似的假人,但它不会是它训练过的数据的1对1复制。这带来了一个伦理问题,我正试图解决这个问题,那就是从它正在学习的~7500张图片中识别出极少数情况下它确实复制了一个人。这是一件困扰着产生式网络…的事情。这是可能的,但我不太确定如何100%避免这种可能性发生。但我真的很想避免这种情况。我对深度欺骗任何人都不感兴趣,即使是偶然的,这也有点卑鄙无耻!。

在这类项目中,GP远非孤军奋战。2017年,第一个深渊游戏的发明者告诉Motherboard几乎同样的事情:他不是一名专业研究人员,只是一个对机器学习感兴趣的程序员,他说,他“刚刚找到了一种做脸部交换的聪明方法”。

这些裸体并不存在,随后的一个项目很可能是从捷克的铸件中提取数据的,该项目名为“哈雷姆”(Harem&34;34;Harem;),这些图像看起来无疑是相似的,但该项目的创建者没有回复记者的置评请求,即他们的数据集中的图像是从哪里来的。R/AIGeneratedPorn的另一个被放弃的项目也做了同样的事情。

困扰这个项目的真正伦理问题并不是让孤独的男人和他们的钱分开的风险。只要在网上搜索一下捷克的选角,并对盗版内容对创作者有害的概念有一些基本的认识,就会意识到这些不存在的女性所依据的数据集是由千兆字节的可疑来源色情内容组成的,其中一些可能描绘了性侵犯。

周一,在这篇报道发表的前一天晚上,在他的Patreon账户被暂停后,GP告诉Motherboard,他“决定关闭这个项目”。

简告诉主板记者,她希望自己的视频能在众多网上视频中消失,没有人会找到它。但总会有人设法从互联网深处把它捞出来,她说。

麦卡利斯特·奥利瓦利斯律师事务所(McAllister Olivarius)的律师ČErvenka专门研究复仇色情和技术,他告诉Motherboard,因为据称捷克的一些选角视频从一开始就经过编辑,看起来是双方自愿的,所以它们一直具有欺骗性和危害性--通过机器学习算法的绞肉机搅动它们并不会减少它们的欺骗性和危害性。

现在有人走上前去,用这些图像为计算机创建一个基线,可能在未来几十年里,用于计算机生成的图像?Červenka说,从个人角度来看,这很糟糕,而且肯定应该是非法的。

即使对于专业色情演员来说,内容被盗也是困扰该行业的一个问题。成年表演者莉亚·戈蒂(Leah Gotti)的照片是全科医生未经她同意而使用的数据集的一部分。她告诉我,内容被盗的问题不仅仅是不尊重,而且很危险。她目前正在努力阻止一名跟踪狂创建她的虚假Instagram账户,并通过窃取她的内容并转发来攻击她的家人。

戈蒂告诉我,这只是回到了没有人真正尊重性工作者的问题上。所有这些东西都是盗版的,这本应是违反所有规定的,但因为我们在镜头前做爱,所以他们会觉得,嗯,这是她自找的。

今年早些时候,有传言称OnlyFans泄露了一个被盗色情作品数据库,这可能会使该平台上的性工作者面临被骚扰或被迷惑的危险。

演员黛西·李在18岁时开始在捷克选角,但之后继续在成人行业工作,她告诉主板记者,她责怪自己认为这些视频不会在全球疯传。

他们不会把它放在捷克的服务器上,但人们会把它下载下来,然后重新上传到任何地方,李说。每个走进去的女孩都认为她们的朋友和家人不会看到它的…。14天后,[我的]视频到处都是。它毁了我的名声,几个小时内就传遍了我的家乡。但没有人强迫我做任何事,没有毒品,没有类似的事情。

许多被《女孩做色情》盯上的女性也将此归咎于。

.