愤怒的AI研究人员创造了Site Shaming不可重复的机器学习论文

2021-03-08 14:09:05

2月14日,一名沮丧的研究员,他们沮丧的是机器学习研究论文的结果在用户名贡献中开设了一个红地账户,并发布了r / machinelearning supreddit:“我只是花了一周的实施纸作为基线并失败重现结果。我今天在谷歌岭后意识到了一些其他人也无法重现结果。有这样的论文列表吗?它将拯救人们很多时间和努力。“

该职位与R / Machinelearning上的其他用户击中了一个神经,这是机器学习中最大的红线社区。

“更容易编译一个可重复的文件列表......,一个用户响应。

“可能50%-75%的所有文件都是不可制剂的。这是悲伤的,但这是真的,“另一个用户写道。 “想一想,大多数论文都是”优化“进入会议。更常见的是作者知道他们试图进入会议的论文不是很好!所以他们不必担心再现性,因为没有人会尝试重现它们。“

一些其他用户发布了他们未能实施的机器学习论文的链接,并通过代码实施来令人沮丧,这不是ML会议的要求。

第二天,贡献建议14创建了“没有代码的论文”,一个网站,旨在创建不可实现的机器学习论文的集中列表。

“我不确定这是有史以来最好的还是最糟糕的想法,但我认为这将是收集人们试图复制和失败的论文清单是有用的,”贡献建议14在R / Machinelearning上写道。 “这将使作者有机会释放其代码,提供指针或取消纸张。我的希望是,这激励了一个健康的ML研究文化,而不是出版不可制服的工作。“

机器学习研究人员定期在arxiv和OpenReview等在线平台上发布论文。这些论文描述了在机器学习系统中突出新挑战的概念和技术,或者引入了解已知问题的新方法。这些论文中的许多文件都可以进入主流人工智能会议,例如Neurips,ICML,ICLR和CVPR。

有源代码与研究文件一起帮助很多,在验证机器学习技术的有效性和建筑物的顶部有很大帮助。但这不是机器学习会议的要求。因此,许多学生和研究人员阅读这些论文的斗争再现他们的结果。

“无偿的工作浪费了富裕的研究人员的时间和努力,作者应该努力确保至少有一个公开实施的工作,”福利14,他们愿意保持匿名,告诉TechTalks在书面评论中。 “如果其他人无法摆脱纸张或将其用作基线,则在公共领域与实证结果发布案例是毫无意义的。”

但是贡献建议也承认,有时有时是机器学习研究人员没有发布代码的合法原因。例如,一些作者可以在内部基础架构上培训他们的模型或使用大型内部数据集进行预磨损。在这种情况下,由于公司政策,研究人员并非自由于与他们的论文一起发布代码或数据。

“如果提交人由于这种情况而没有代码发布一份文件,我个人认为他们有学术责任与试图复制论文的其他研究人员密切合作,”贡献14表示。 “如果其他人无法建立它,则没有任何意义在公共领域中发布纸张。其他人应该至少有一个公开的参考实施,以便从基线上建立或使用。“

在某些情况下,即使作者将源代码和数据释放到其纸张,其他机器学习研究人员仍然难以再现结果。这可能是由于各种原因。例如,作者可能会樱桃 - 从几个实验中选择最佳结果,并将其作为最先进的成就。在其他情况下,研究人员可能使用诸如将机器学习模型的参数调整为测试数据集以推动结果以提高结果。在这种情况下,即使结果是可重复的,它们也不相关,因为机器学习模型已经过度接收到特定条件,并且在以前的未见数据上不会良好地表现良好。

“我认为有必要将可重复的代码作为先决条件,以便独立验证文件所声称的结果的有效性,但[单独的代码是]不够,”贡献14表示。

重复性问题不仅限于小型机器学习研究团队。即使是每年花费数百万美元的AI研究的大型科技公司也经常未能验证其论文的结果。 2020年10月,一组31家科学家们本质上写了一篇联合文章,批评了一篇关于使用AI在医学成像的论文中缺乏透明度和可重复性,由谷歌一群AI研究人员出版。 “[该研究的缺乏有充分记录的方法和计算机代码,研究有效地破坏了其科学价值。这位作者写道,这种缺点限制了其他人前瞻性地验证和临床实施这些技术所需的证据。“ “科学进步取决于独立研究人员审查研究研究结果的能力,通过其材料重现研究的主要结果,并在未来的研究中建立在他们身上。”

近年来,越来越关注AI的再现性危机。这方面的显着工作包括蒙特利尔麦吉尔大学和Facebook艾的机器学习科学家的努力,他们一直推进机器学习研究的透明度和再现性,如神经潜航。

“更好的再现性意味着在纸上更容易建立。通常,审查过程短缺,有限,纸张的真正影响是我们稍后看到的东西。本文生活在一起,作为一个社区,我们有机会建立工作,审查代码,对贡献有关,“Pineau在2019年的采访中告诉大自然。

在Neurips,Pineau帮助开发了能够帮助研究人员和审阅者评估机器学习论文的可重复性的标准和流程。她的努力导致了神经潮端的代码和数据提交增加。

另一个有趣的项目是关于代码的论文(没有代码获取其名称的论文),一个网站,为在不同场地发布和呈现的科学研究论文的实施。守则目前的论文目前主持了40,000多种机器学习研究论文。

“论文在突出显示可重复的论文方面发挥着重要作用。然而,它没有解决不可递销的论文的问题,“贡献14说。

当机器学习研究论文不包括实施代码时,阅读它必须尝试自己实施的其他研究人员,这是一个可能需要几周的非琐碎过程,最终导致失败。

“如果他们未能成功实施,他们可能会与作者(可能没有回应)或只是放弃,”贡献14表示。 “这可能发生在不了解之前或正在进行的复制论文的多个研究人员身上,导致多周的生产力集体浪费了。”

没有代码的论文包括提交页面,研究人员可以提交不可递销的机器学习文件以及他们的努力的细节,例如他们花费多少时间复制结果。如果提交有效,则没有代码的文件将联系本文的原作者并要求澄清或出版实施细节。如果作者不及时回复,本文将被添加到未经转卖机器学习文件列表中。

“论文解决了关于先前或持续尝试复制论文并允许研究人员(包括原作者)聚集在一起并实施公共实施的问题,”贡献建议书表示。 “一旦纸张成功复制,它可以在论文WithCode或GitHub上发表,其中其他研究人员可以使用它。从这个意义上说,我会说,论文的目标是与此或论文的协同作用,而且大的箴言社区。“

希望没有代码的文件将有助于建立一种在机器学习研究中激励可重复性的文化。到目前为止,该网站已收到10多个请求,一个作者已经承诺上传其代码。

“我意识到这可能是学术界有争议的主题,首要任务是保护作者的声誉在为更广泛的ML社区服务时,”贡献14表示。

没有代码的论文可以成为创建机器学习论文和研究人员的原始作者之间的对话的集线器,他们试图重现他们的工作。

“希望建立一个环境,而不是成为一个不经产的工作的静态清单,而​​是创建研究人员可以合作以重现纸张的环境,”贡献14表示。

例如,如果您正在在另一篇论文中完成的工作上工作,您应该自己尝试代码或机器学习模型。

“不要从索赔或”见解“或”见解“,这可能是可能被毫无根据的只是因为这篇论文所说,”贡献,“贡献”如此称,这包括来自良好的会议的大型实验室或工作的论文。

另一个好的资源是Pineau教授的“机器学习再现性清单”。清单提供了明确的指导方针,了解如何为其他研究人员清除和可重复的机器学习纸的描述,代码和数据。

贡献建议14认为,机器学习研究人员可以在促进重现性文化方面发挥至关重要的作用。

“以学术深度和可重复性为代价发布了很多压力,并且没有许多支票和平衡来防止这种行为,”贡献14表示。 “这将改变的唯一方法是,如果目前和未来的ML研究人员在自己的研究中优先考虑质量超过质量。”

本文最初由TechTalk出版,这是一项审查技术趋势的出版物,它们如何影响我们生活和做生意的方式以及他们解决的问题。但我们还讨论了技术的邪恶方面,新技术的暗示暗示以及我们需要注意的内容。您可以在此处阅读原始文章。