机器学习应该比这更好

2021-06-03 23:36:44

这是在医疗保健机器学习当前问题上的统计数据概述。这确实是一个非常热门的话题,已经有一段时间了。在大流行期间,普遍一直在洪水,将ML / AI技术应用于各种相关的冠状病毒相关问题。其中一些已经非常远,但其他人在各地工作,每个人都同意机器学习可以真正有用,例如图像分析。

Coronavirus病理学如何揭示肺X射线数据?这篇新的论文(开放式访问)审查了数百个此类报告,并专注于62篇论文和本准确主题的预先印刷品。在仔细检查时,这些都没有任何临床使用。每种研究中的每一项都属于明确的方法论误差,使他们的结论无效。这些范围从故障揭示有关培训和实验数据集的关键细节,而不是对其模型的稳健性或敏感性分析,而不是执行任何外部验证工作,而不是在最终结果周围显示任何置信区间(或不透露统计方法用于计算任何此类),还有更多。

一个非常常见的问题是(未被承认)偏向前方的风险。这些论文中的许多文件依赖于公共收集放射数据,但尚未检查这些扫描是否标记为Covid-19阳性患者的扫描真正是(或者如果标记为负面的患者也是如此)。还需要注意的是,与整个数据库相比,许多这些系列在实际的Covid扫描上非常轻,这也不是一个良好的工作基础,即使一切都是由一些奇迹正确标记的。有些论文在这种情况下使用了整个数据集,而其他文件则使用未透露的标准排除图像,这是自然是未审查偏见的进一步源。

在所有AI / ML方法中,数据质量绝对是至关重要的。 “垃圾进入,垃​​圾出局”是在这些条件下涡轮增压到惊人的程度,你必须真的,真的肯定你铲入料斗。 “我们从这个公共数据库中拍摄了所有图像,任何人都可以为其提供贡献并占据所有人的话”,可悲的是,不够。例如,一个常用的肺炎数据集被证明是一到五个患者的儿科收集,因此将其与冠状病毒感染的成年人相比是有问题的,可以说是有问题的。你更有可能训练模型来承认孩子与成年人。

这一点是在这个最近的预印刷品中解决了这种放射学分析系统如何容易受到这种短切口的影响。这是一般机器学习的问题,当然:如果您的数据包括系统建立模型的一些实际无用但高度相关的因素,那么它将乐于愉快。为什么不是吗?如果我们没有密切关注它们,我们自己的大脑就像那样的话。那篇论文显示,如果控制装置来自一个源或机器类型,并且疾病集中来自另一个源,则毫无于挑选,ML方法常常拾取实际CT和X射线图像周围的标记。

要返回原来的自然纸张,请记住,所有这些麻烦都是在作者被淘汰(字面上)关于该主题的数百个报告之后,因为文件不足。他们甚至无法到达足够的东西,看看是否出错了,或者如何,因为这些其他论文没有提供了如何预处理的成像数据的细节,如何完成模型的培训,模型是如何完成的验证,或者如何选择最终的“最佳”模型。这些落入Pauli的“甚至是假”的类别。对于所有真实的目的,没有进入这些细节的机器学习纸就是无用的。除非你将“在CV上发表出版”作为真实世界的目的,我想这是。

但是,如果我们想使用这些系统,稍微举起一些稍微崇高的目的,我们必须比大多数当前的论文所做的更多轮胎踢。我有一个不太争议的预测:在未来几年内,几乎所有正在发布的这些系统都会出版的工作将被故意忽略和遗忘,因为它具有如此低的品质。数百个,数千篇论文将被推入数字废料堆,他们肯定属于,因为他们从未在他们进入的状态下发表过。究竟谁这一切都是所有这项活动的利益,而不是CV脚垫和科学出版商?

您完全误解了学术界机器学习的目的(根据我在软件工程中的经验)。机器学习为人们提供了一个关于在田间发布论文的主题的人的人的手段。所需要的只是一些数据(它不必很多,见下面的第二个链接),一些按钮按下,能够令人信服地宣传Techno-Babble,并与审稿人幸运。

我努力改善我所雇用的癌症中心内的这种情况。我经常使用此PubMed查询的结果来说明这篇文章和统计文章的重点。

((“机器学习”[标题/摘要]或“人工智能”[标题/摘要]或AI [标题/摘要]或NLP [标题/摘要])和(癌症[标题/摘要]或肿瘤学[标题/抽象的])

今天它返回了8661个结果,其中包括在2021年发布的1336年!但由于引用的所有原因,癌症中每日临床用途具有令人难以置信的少数毫升算法。

Dicom Info对于AI忽略了太诱人了。想想它为Covid-19,AI会变得年龄和性,这是一个很好的开始,我不希望我的图像处理ai利用。为防止,所有图像必须转换为相同的格式(PNG将是我的选择,但每个通道格式的任何无损16位都可以工作)。确保DICOM文件中没有元数据,使其到PNG文件。

对于第一次通过,我只会使用来自X射线,CT或MRI设备的相同模型的数据。这样的方式,AI不仅仅是看决议,并确定Covid-19病房中使用的设备是Covid-19患者的图像来自的地方。

事情如何出错的例子。我工作的诊所有两个OCT设备(Zeiss Cirrus 5000和6000),产生看起来与我相同的图像,但输出略有不同。一个接近视网膜诊所,一个是不是。如果我们将图像从两者送入AI培训会议以查找AMD的早期迹象,它会发现设备之间的微妙差异来帮助它确定谁注定要诊断为AMD。

我认为,许多诊断设备的AI将来会很重要,但我们将不得不非常小心他们是如何训练的。

通常我在这个博客上脱离了我的联盟。这次不是很多。我一直在使用计算机图像处理,几十年来返回到80年代中期重新编程Kontron Systems。我只与AI一起玩了几个项目,所以我不是AI图像处理专家。

隐藏ML模型中的信息非常困难,但您可以做的一件事是为了避免偏见是在训练期间提供所有这些类别,然后培训它来忽略它们 - 例如,而不是为培训集生产最准确的分类,而不是为培训集生产对于年龄/性别字段的所有值,分类必须相同的目标。

这样,即使它找到了一种方法来检测图像中的方法,它也不会用于任何东西。

当您是制药行业的研究员时,很容易隐藏。如果只有期刊做了工作并执行重现性,我们就不会得到那么多的势利来自那个方向,我相信。

是的,藏起作为企业研究员非常容易 - 特别是从您工作的所有下游用户的所有下游用户。

假冒测定结果?没问题 - 没有其他人使用化学家制造的东西。生物学家不会注意到该化合物不会结合,并且当然大鼠不会。

严酷的事实是,在学术界隐藏着持续的欺诈或无能的情况下,由于大量工作而没有真正的世界下游用户,因此更容易。它只是进入空白,并继续资助。 (对此有很多原因,很多人都没有糟糕 - 这是不可能的事先提前有用。)

但在工业中?这是一个难以持续的工作,没有其他人使用。如果你撒谎或只是做狗屎工作,你通常会被发现。

脱掉你的高马,承认学术研究中的真正问题,而不是侮辱工业研究人员。它不会使企业识别它具有缺陷。

菲利普,我相信,在未来的某些时候,AI将能够回答各种问题。但是,我认为这是未来多年的。

目前的AI成功一直是用信用卡的任何人提供大规模计算能力的结果,具有合适的支出限制(以前建立必要系统的前期成本威慑了最多),以及许多域特定数据的可用性(例如,猫图片)。

Piekniewski的博客在AI Field中提供了令人耳目一新的现实:https://blog.piekniewski.info/

您每天使用Google搜索,但谷歌也“[失败]揭示有关培训和实验数据集的关键细节,而不是对其模型的鲁棒性或敏感性分析,而不是执行任何外部验证工作,而不是展示周围的任何置信区间最终结果(或者没有透露用于计算任何此类的统计方法),还有更多。“。即使是医生,它仍然是一个有用的工具。我错过了什么?为什么双重标准?

谷歌是一个搜索工具。当然,它的结果是(或应该是)判断到比同行评审期刊中发表的结果更高的标准。如果他们不是同行评审期刊的那一点?

我得到了错误的方式。结果在同行评审期刊上应显然应该被判断到比谷歌更高的标准。

它一直郁闷我,我看到了更严格的工作,以确保在卡内基梅隆在许多发表的科学论文中看到的Carnegie Mellon在Carnegie Mellon的良好编码标准和达到良好的帧间间可靠性。当您尝试进行META分析并意识到84个对现象的研究中,只有4个实际上涵盖了理性评估所需的所有常见基础,...... .AAAAAGH。

这真的开始听起来像25年前在90年代后期之前的先前ml / ai炒作的结果逐字副本。就像数据科学的任何炒作一样,这取决于数据的质量,这通常是一个真正的问题。是的,“在CV上发表出版物”作为真实世界的目的:-)。

我最近的一位朋友在线参加了ML / AI会议。我问她想到了什么。暂停后,她说,“这一切似乎都是绝望的。”

不要让我错了,因为科学家们肯定应该做这种工作。它似乎尚不重要,但这会改变。

鉴于所有现实世界应用专家系统已经用于(求职评估和假释决定作为现有的可怕例子)真正的悲剧是在人们对这些事情上真正的句柄之前完成了多少伤害(假设我们曾经得到过在所有...上处理它......)

Derek - 感谢您从Covid-19主题枢转到“闻到的东西”🙂

例如,一个常用的肺炎数据集被证明是一到五个患者的儿科收集,因此将其与冠状病毒感染的成年人相比是有问题的,可以说是有问题的。你更有可能训练模型来承认孩子与成年人。

FWIW,甚至通常是艾都是脱离我的联盟,但有一件事似乎直观地明显:没有基准标记图像,使用AI识别任何事情都不会好转。面部识别AI部分原因是面部图像中存在自然发生的基准标记。例如,眼睛瞳孔中心之间的距离。

我没有第一个Clue在胸部X射线图像中可能存在自然发生的基准标记。但我期待有一些生理学家可以定义。

至少存在自然标记的存在允许缩放,从而可以消除对象的实际大小,并且AI可以培训与其寻找相关的图像特征。

但是,正如我所说,临床图像的AI诊断是我联盟的轻微青年。

更多会随着时间而来的。我怀疑AI诊断将来自设备制造商。正如我在早期的帖子中所述,对一个设备的限制培训使事情变得更加容易。

我认为有很多参数您可以从胸部X射线提取到猜测年龄,性别等,只要成像设置标准化,就像肱骨头之间的距离一样是在面部材料中使用瞳孔的良好类似物认出。

主要问题似乎是这些论文的作者甚至懒得做,即使最基本的理智检查他们的数据。正如德里克所说,获得一些数据(来自上帝的任何数据知道在哪里)并通过算法运行它很容易。硬移植物首先生成一个值得信赖的数据集......

当其中一个人分析他人并得出他们都是Hokum,我会相信AI力量。然后推特。

那个鼠标上的那个是(像往常一样)锦上添花......这个家伙是一个全球珍宝......!

在文献中描述机器学习模型以及制造索赔的声明是有很多错误。我最大的宠物Peeve是对实验错误的忽略,例如使用具有一个或两个SIG图(如IC50)的数据报告为4个重要数字的模型度量。机器学习人员通常不会在它们本身生成数据的背景下,因此对该数据的局限性和陷阱没有欣赏。

所说,学术机器学习论文通常不是关于工业上有用模型的生产。他们是关于提供有关应用方法的潜力的证据。如果一个成像公司想要利用该技术,他们责有所有尽职调查,以便将该方法嵌入其产品中。

我不是懒惰或不完整的纸质写作和裁判。期刊是充满了琐碎的论文的陪成。但是,丁论文没有特别分析的文件太容易,或者没有你认为是必要的所有质量控制。例如,置信范围与图像分类没有真正有关,您只需尝试分配图像所属的概率或负桶。例如,合理的交叉验证更为重要。

所有型号都是错误的。有些是有用的。谷歌没有正确识别你的大多数图片吗?你认为他们审查了蓬松的猫照片吗?

我们以前一直在这里......如何没有发展定量的结构 - 活动或结构 - 财产关系(QSAR / QSPR)JC Dealden,MTD Cronin,Kle Kaiser Doi:10.1080 / 10629360902949567 ..如果你正在做一些,那么同样的积分花哨的施密ml或只是线性回归。 Leeh关于数据的点很好。似乎很多跳过了精确VS准确度的课程,并且软件供应商是其中的。

这听起来像是一个可怕的话说,但我认为部分问题是社区已经开发了如此多强大的开源软件包for ml(keras,sklearn,pytorch,tensoRflow,张图书),即它变得太容易了对于不知道他们正在做什么的人来说,“火车”模型。

我看到了一些在生物期刊中发表的一些非常可怕的ml文件 - 用p>>> n并没有采取甚至基本的预防措施来确保他们的模型会概括 - 它绝对是一点点令人沮丧。也许这只是虽然是更广泛的科学出版状态的症状,但我不知道。

ML绝对是生物信息学的强大工具,DeepMind与AlphaFold的成功表明这一点。但是你必须花时间和精力妥善评估模型,就像你说仔细考虑你正在使用的东西训练它。显然,人数令人震惊的人要么没有意识到这一点是重要的,或者不在乎,因为它们太专注于获得快速纸张来垫上他们的简历(不确定哪个更糟糕)。

发布巨大的经济动力。在薪水中的队列前面有几个ml纸,在薪水的前面投入新的博士学位。特别是如果论文将其成为一个着名的ML会议之一。已经研究过,得出结论,由于提交的数量和缺乏审阅者这些会议的接受是随机的(http://blog.mrtz.org/2014 /12/15/the-nips-experiment.html)。它纯粹是一个数字游戏。

下次评论下,在此浏览器中保存我的姓名,电子邮件和网站。