中观计算和中观数据:被遗忘的中间

2020-12-09 22:03:50

我多年来一直在英国的大学担任研究软件工程师(RSE),涉及多个研究领域(粒子物理学,合成生物学,心脏病学等),都是计算机的用户服务和提供者。我反复看到的一件事是想要追逐最新潮流的趋势。现在,在学术界,最新潮流通常要比最新状态落后十年。因此,例如,仅在最近几年中我们才看到了深度学习。我在工作中要做的一件事就是尝试教育研究人员有关这些技术的知识,以使他们知道他们的实际要求,并确保研究人员是否在谈论进行这项工作。 ;大数据"因为它们具有兆字节的数据"他们不会被知道他们的东西的拨款审查者所困扰。

完全可以理解朝这个方向的推动。拨款申请业务极具竞争力,您可以在提案中提出的任何引起评论者注意的东西都将对您有利。

这在谈论数据时特别明显。研究资金用于最有价值的问题,并且假设问题越难解决,就越有价值。此外,还有一个假设一个人拥有的数据越多,研究问题就越大,也就越困难。这自然就形成了一个想法,即如果您的问题是“大数据”。问题,那么它更有可能获得资助。因此,您会看到拨款申请试图说服审阅者他们正在做大数据。实际上,当他们处理的也许是千兆字节到TB的线性或空间数据集时,那肯定是很多数据,但是它通常缺乏复杂性,而这正是人们真正考虑大数据解决方案所需要的。

现在,我不是要淡化这些研究领域,而是要争辩说,这里解决的问题同样值得研究,即使不以大问题来解决也是如此。数据"。我在大学看到的大多数研究问题都不是大数据,它们都是有趣的问题。我认为减少大数据的吸引力是有益的,并让人们知道不属于该类别是可以的。问题的一部分是,这种规模的数据问题没有一个好名字:它太大了,无法在单个笔记本电脑或台式机上实际完成,但远低于要求大数据机的大小或复杂性或Hadoop集群。

在尝试教授如何解决这种规模的问题时,我戏弄了很多名字:大数据,大数据,中数据。直到现在,还没有人抓住我,所以我决定创造一个新名词,中观数据。中观在这里是指“中间”。或"中级" cf.美索不达米亚(河流之间)。

除了数据领域的问题(主要来自于流行语追赶)之外,在计算能力领域也存在类似的问题。大多数研究遵循一条共同的道路,即从对研究人员的小型调查开始直到有太多的模拟要运行,或者它们花费的时间超过工作日,因此无法及时完成。这时,大多数研究机构都会鼓励使用他们拥有的任何中央计算资源,通常是一个大型HPC集群。

大学等研究机构面临着压力,他们要通过夸大他们正在解决的所有重大问题来证明自己在计算资源上的支出是合理的:他们在推动理论发展或分子粒度方面发展了几纳秒的分子动力学他们鼓励他们模拟的气象网格。这鼓励创建一种系统,以迎合大学中能够真正很好地利用超级计算机的少数群体,即可以运行具有特定代码的优化代码的大型多节点MPI作业的系统。硬件以及团队中的专家,他们了解高性能计算。

这样做的问题是,它进一步增加了在笔记本电脑上运行和使用中央设备之间的功能和复杂性。类似于中观数据,有大量研究人员-我认为大多数研究人员-他们的需求恰好位于中间。他们不是在进行超级计算,而是在进行中观计算。

这些研究人员在特定领域的小型批处理群集,云计算(也许在云中使用群集),软件即服务或RSE的一些动手帮助下得到最好的支持,以使他们的代码更多地运行有效地在他们的笔记本电脑上。

也许Pandas足够了,或者他们需要使用Dask。也许有关于并发的课程。未来神奇地使代码在四分之一的时间内完成是正确的解决方案。无论如何,该解决方案可能不是在Fortran中使用MPI可在64个节点上扩展或租用Hadoop集群。

会有那些读这篇文章的人以为我说的很明显,那些认为我已经在这一领域工作了多年的新内容了。 39来说,很多研究人员坐在这里,但事实是他们的服务不足。大多数不是计算机专家,他们会使用可用的任何工具,向他们宣传的工具以及易于使用的工具。这不可避免地意味着,他们使用可能带有硬编码路径的某些R或Python脚本通过电子邮件将电子邮件发送到另一Excel电子表格。这些研究人员被困为"专家初学者。非常了解入门级工具的人,短期学习如何正确使用它们或使用更好的工具来完成工作的障碍比似乎值得的高。

他们想扩大研究范围,但是当他们环顾四周以了解大学可以提供的服务时,他们会被告知要访问超级计算机或如何将数据放入Elasticsearch数据库中会更好。太大了,我们需要解决社会问题,让他们在中间数据划分中仅采取所需的尽可能多的步骤。在扩展的每个阶段,我们都需要易于解释且易于使用的工具过程,而不仅仅是高端。

这些术语,即中观计算和中观数据,是刻意谦虚的。它们显然不是要成为最大的术语,而是要深思熟虑地考虑眼前的问题并选择正确的锤子。与大数据不同,人们不应该这样做。不必问这个问题是否是介观数据问题?因为如果他们问这个问题,答案是“是”。我希望人们在赠款申请中放心说&"因为这是中观数据挑战,所以我们要求为解决该问题所需的技能和资源"并要求全职RSE,而不必假装他们正在做大数据或需要专用的超级计算机。标签很有帮助,我认为这些标签非常适用于很多研究社区。

中观数据带有自己的一套工具和解决方案,它们与大数据部分不同,因为我还没有发明一个全新的尝试领域,许多人在这里致力于解决方案已有数十年的历史,但是它39; s当然不是一个应该吸引兴奋或研究经费的领域。

这些仍然是棘手的问题,以我的经验,它们正在解决现实世界中的挑战或加深我们对宇宙的理解。中观计算和中观数据项目仍需要RSE或数据科学家的专业知识,以确保研究仍然可靠 ,可复制,经过测试和可以理解。