UnSplash的数据集现在是开源的

2020-09-22 03:39:23

当我们在2016年第一次发布Unspash API时,我们做梦也没有想到它会变得如此流行和有用。

20万名开发人员。每月50亿次API请求。在Squaspace、Dropbox、Buzzfeed、Medium、Adobe、Wix、Figma、Concept、Trello和Facebook以及成千上万的其他应用中进行本地集成。

一开始是一次低调的深夜闲聊信息交流--如果我们做一个API不是很酷吗?&&后来变成了世界上使用最多的API之一,将来自UnSplash社区的200万张开放图片直接带入了创作者的工作流程,促进了超过10亿的创作。

今年早些时候,我们的团队Slake也有过类似的时刻:如果我们将我们用来运行Unspash的数据开放给任何人使用,那不是很酷吗?

我们将发布有史以来最完整、最高质量的开放图像数据集,任何人都可以免费用于机器学习、图像质量、搜索引擎等方面的进一步研究。

虽然存在其他开源图像数据集,但它们通常大小有限,图像质量低,图像数据缺乏可变性,或者依赖于第三方服务的批量标记。

UnSplash数据集中包含了20多万名全球摄影师,数据来自几乎无限数量的使用和上下文中的数亿次搜索,其包含的意图和语义的广度开启了全新的使用案例。

该数据集总共包含200多万张高质量图像,随附的16 GB数据涵盖:

当然,所有数据都是完全匿名和私有的(除了归属于原始贡献者之外)。

我们将以两个版本发布数据:一个是可用于商业和非商业用途的精简数据集,另一个是可用于非商业用途的完整数据集。随着Unspash库每年继续增加一倍大小,我们将继续使用新字段和新图像更新数据集。

就像我们第一次发布API时,我们对社区可能如何使用这些数据有一些想法,但我们很兴奋地看到研究人员和开发人员在构思新用途时的创造力。

访问UnSplash数据集以访问数据集,参见Github获取文档,我们将感谢您的帮助,尽可能广泛地分享这一消息,以便每个研究人员和开发人员都可以使用该数据集。