使用Data Catalog发现、了解和管理您的数据,GCP现已正式上市

2020-05-02 17:58:54

Google Cloud Data Catalog是一个完全托管且可伸缩的元数据管理服务。它可以帮助您的组织从一个简单的界面快速发现、了解和管理您的所有数据。Data Catalog可从Google Cloud控制台内访问,无需任何前期设置即可立即访问数据发现。

Data Catalog服务现已全面推出,在全球23个不同地区提供区域化服务。除了针对潜在中断提供更高的恢复能力外,区域化服务还在每个支持的区域提供静态元数据驻留,同时提供分布在多个区域的所有数据资产的统一视图。

如今,大多数组织都在处理数量庞大且数量不断增加的数据资产,并且希望开放对这些数据的访问,以便业务用户可以通过自助服务找到合适的数据资产。过去的方法无法扩展,需要繁琐的设置,并且不能为所有人提供轻松的数据发现。

在Google,我们也面临着针对大型且不断增长的数据资产的挑战,并构建了一个内部数据目录服务,以帮助为所有数据用户带来全面的元数据管理。您可以看到更多用于在商品中构建有效数据目录的技术:组织Google的数据集。data Catalog建立在此基础上,为所有Google Cloud用户提供可伸缩的托管服务,用于BigQuery、Pub/Sub和Cloud Storage中的数据。以下是有关Data Catalog如何.。

自动同步技术元数据技术所有Google BigQuery数据资产(如数据集、表和视图)的技术元数据将持续同步到data Catalog中。这意味着您可以立即开始使用Data Catalog,不需要处理任何繁琐的设置。Data Catalog还自动同步来自发布/订阅的技术元数据和来自云存储的用户创建的文件集。这些文件集很容易创建-您只需指定一个带有通配符的模式,并将其应用于存储桶。一个文件集..。

技术元数据与业务元数据技术元数据指源系统中可用的元数据。BigQuery表的技术元数据包括表名、表描述、列名、列类型、列描述、创建日期、最后修改日期等。对于发布/订阅,技术元数据指的是发布/订阅主题名称和创建日期。对于云存储文件集,技术元数据是指文件集名称、用于创建文件集的模式、创建.。

业务元数据是指对业务和运营目的至关重要但在技术元数据中不可用的元数据的集合。业务元数据可能包括特定数据资产的负责人、数据资产是否包含个人身份信息(PII)、数据是否被批准用于官方用途、数据资产的数据保留策略、数据资产的生命周期阶段、数据质量分数、任何已知的数据质量问题,或者.。

只需在Google Cloud项目中启用data Discovery data Catalog,就可以从该项目中使用它。data Catalog不仅发现启用API的项目中的数据资产,而且发现跨所有项目和所有地区的数据资产。对BigQuery、Pub/Sub和Cloud Storage之外的数据资产的支持在data Catalog路线图中,而对非Google Cloud数据源的支持则通过开源连接器提供(见下文)。

只需键入关键字并查找所有匹配的数据资产,即可使用Data Catalog搜索所有数据资产。您还可以缩小搜索范围,以在特定项目、系统、数据资产类型或在特定时间段创建的数据资产中查找数据资产。

对于Google业务元数据的结构化标记,我们认为,简单的字符串标记一旦广泛使用,就不足以捕捉丰富的业务元数据。使用Data Catalog,您可以创建具有如下结构的标记:每个标记包含多个属性,并且每个属性属于String、Double、Boolean、Enumerated和DateTime类型之一。创建结构化标签是一个分两步进行的过程。首先,在标记模板中定义标记的结构,然后使用.创建标记。

如下所示,数据资产上的结构化标签为所有数据用户提供了丰富的业务元数据。作为数据分析师或数据科学家,您可以搜索特定的标记,并通过标记集合提供的业务上下文更好地理解您的数据资产。作为数据管理员或数据调控者,您可以通过使用有关数据质量和数据治理的元数据来更好地管理数据资产。

元数据目录访问控制与云身份与访问管理(Cloud IAM)集成。所有操作(包括搜索数据发现)都根据适用的访问控制规范提供服务。如果用户A已读取