今天,我们宣布推出Pachyderm Hub,这是我们在云中强大的端到端机器学习和数据传承平台。Hub提供Pachyderm套件的所有关键功能,但它是在完全托管的云本地环境中提供的。您不再需要拥有内部Kubernetes和云基础架构专业知识,Pachyderm Hub让您在几分钟内无缝启动群集。
虽然Pachyderm总是提供进行大规模数据科学所需的强大团队,但您还需要一个强大的系统管理和架构团队来将Kubernetes和Containers投入生产。Kuberenetes不仅仅是您下载和安装的软件。它需要监控和管理、备份、冗余、容量和升级规划,仅举几例。这对一些组织来说是一个真正的挑战。现在,我们已经消除了进入的门槛,这使得规模较小的团队能够更快地开始进行数据科学研究。
Pachyderm Hub包括团队设置起来很有挑战性的所有功能,比如使用GPU自动缩放、安全和隔离、备份和自动化。现在,您可以依靠Pachyderm训练有素的Kubernetes专家团队为您处理基础设施,并专注于数据科学,而不是系统管理。Kubernetes功能强大,但真正的功能来自您可以在其上运行的应用程序。
最重要的是,Pachyderm Hub实现了我们的终极愿景,即建立一个完全协作、可共享和可复制的数据科学平台。它做了Git对数据所做的事情,为您的AI应用程序开发带来了强大的版本控制和协作。Pachyderm Hub使团队协作和共享数据、代码和基础设施完全无缝。团队成员可以创建和共享工作区,邀请其他团队成员进行协作,并且在幕后,平台可以随着您添加的工作负载透明地进行扩展。
自我们2014年推出以来,Pachyderm的数据科学平台迅速成为机器学习领域新兴的规范堆栈(CS)的基础。因为其他平台只允许您跟踪元数据,所以它们缺乏健壮的版本控制文件系统的真正铁板一块的不变性。如果您的数据在您记录元数据之后可以更改,那么您就不能复制关键的数据科学结果。我们的客户了解对真正的数据沿袭和数据版本控制的需求。这就是为什么在过去的一年里,Pachyderm吸引了大量的新企业客户,如壳牌、LogMeIn、Battelle Ecology和AgBiome,以及多个政府机构、制药和生物信息公司、两家主要的北美银行和其他财富500强企业。
除了数据版本控制之外,客户选择Pachyderm是因为他们需要一个干净、简单和优雅的数据科学管道系统,能够大规模提供数据科学。Pachyderm平台允许团队轻松地将任何框架、语言或库整合到一个流畅的自动化工作流程中。如果它可以在Docker容器中运行,它就可以在Pachyderm上运行,客户不会局限于Spark、R或Python这样的工具,也不会局限于一个机器学习框架,比如Pytorch或TensorFlow。他们可以在一个完整的系统上使用所有这些功能。
如果您准备好处理生产工作负载,您可以轻松升级以受益于GPU和企业团队协作,只需与我们的专家交谈,或加入我们在Slake上的开源社区并查看Github上的Pachyderm代码库。