Pachyderm Hub：没有管理基础设施的麻烦的数据科学

2020-09-04 07:29:26

今天，我们宣布推出Pachyderm Hub，这是我们在云中强大的端到端机器学习和数据传承平台。Hub提供Pachyderm套件的所有关键功能，但它是在完全托管的云本地环境中提供的。您不再需要拥有内部Kubernetes和云基础架构专业知识，Pachyderm Hub让您在几分钟内无缝启动群集。

虽然Pachyderm总是提供进行大规模数据科学所需的强大团队，但您还需要一个强大的系统管理和架构团队来将Kubernetes和Containers投入生产。Kuberenetes不仅仅是您下载和安装的软件。它需要监控和管理、备份、冗余、容量和升级规划，仅举几例。这对一些组织来说是一个真正的挑战。现在，我们已经消除了进入的门槛，这使得规模较小的团队能够更快地开始进行数据科学研究。

Pachyderm Hub包括团队设置起来很有挑战性的所有功能，比如使用GPU自动缩放、安全和隔离、备份和自动化。现在，您可以依靠Pachyderm训练有素的Kubernetes专家团队为您处理基础设施，并专注于数据科学，而不是系统管理。Kubernetes功能强大，但真正的功能来自您可以在其上运行的应用程序。

最重要的是，Pachyderm Hub实现了我们的终极愿景，即建立一个完全协作、可共享和可复制的数据科学平台。它做了Git对数据所做的事情，为您的AI应用程序开发带来了强大的版本控制和协作。Pachyderm Hub使团队协作和共享数据、代码和基础设施完全无缝。团队成员可以创建和共享工作区，邀请其他团队成员进行协作，并且在幕后，平台可以随着您添加的工作负载透明地进行扩展。

自我们2014年推出以来，Pachyderm的数据科学平台迅速成为机器学习领域新兴的规范堆栈(CS)的基础。因为其他平台只允许您跟踪元数据，所以它们缺乏健壮的版本控制文件系统的真正铁板一块的不变性。如果您的数据在您记录元数据之后可以更改，那么您就不能复制关键的数据科学结果。我们的客户了解对真正的数据沿袭和数据版本控制的需求。这就是为什么在过去的一年里，Pachyderm吸引了大量的新企业客户，如壳牌、LogMeIn、Battelle Ecology和AgBiome，以及多个政府机构、制药和生物信息公司、两家主要的北美银行和其他财富500强企业。

除了数据版本控制之外，客户选择Pachyderm是因为他们需要一个干净、简单和优雅的数据科学管道系统，能够大规模提供数据科学。Pachyderm平台允许团队轻松地将任何框架、语言或库整合到一个流畅的自动化工作流程中。如果它可以在Docker容器中运行，它就可以在Pachyderm上运行，客户不会局限于Spark、R或Python这样的工具，也不会局限于一个机器学习框架，比如Pytorch或TensorFlow。他们可以在一个完整的系统上使用所有这些功能。

如果您准备好处理生产工作负载，您可以轻松升级以受益于GPU和企业团队协作，只需与我们的专家交谈，或加入我们在Slake上的开源社区并查看Github上的Pachyderm代码库。

https://www.pachyderm.com/blog/pachyderm-hub-is-now-in-production/

tags users