AWS Clean Rooms 常见问题

一般性问题

AWS Clean Rooms 可以让您和您的合作伙伴更轻松地分析和协作处理集体数据集,从而获得见解,而不泄露基础数据。您可以在几分钟内创建自己的洁净室,然后只需几个步骤即可开始与您的合作伙伴分析您的集体数据集。借助 AWS Clean Rooms,您可以轻松地与已经在使用 AWS 的数十万家公司协作,而无需将数据移出 AWS 或将其加载到另一个平台。

在 AWS 管理控制台中,您可以选择要执行的分析类型、要与之协作的合作伙伴以及想要为协作提供数据的数据集。使用 AWS Clean Rooms,您可以执行两种类型的分析:SQL 查询和机器学习。

当您运行 SQL 查询时,AWS Clean Rooms 会在数据所在的位置读取数据,并应用灵活的内置分析规则来帮助您保持对数据的控制。AWS Clean Rooms 提供了一套广泛的隐私增强 SQL 控制,包括查询控制、查询输出限制和查询日志记录,允许您自定义对每个洁净室参与者运行的查询的限制。您可以通过选择自定义分析规则,然后配置差异化隐私参数来使用 AWS Clean Rooms 差异化隐私。只需单击几下,差别隐私即可通过数学上的支持和直观控件来帮助您保护用户的隐私。而且,Clean Rooms 加密计算(C3R)可帮助您在执行 SQL 分析期间对敏感数据进行加密。

借助 AWS Clean Rooms ML,您和合作伙伴能够应用增强隐私的机器学习(ML)来生成预测性见解,而无需彼此共享原始数据。借助 AWS Clean Rooms ML 相似建模,您可以使用您的数据训练自己的自定义模型,并邀请合作伙伴将其记录的一小部分样本用于协作,以生成一组扩展的相似记录,同时仍可以保护您和合作伙伴的基础数据。医疗保健建模将在未来几个月内发布。

AWS Clean Rooms ML 的构建和测试基于电子商务和流媒体视频等领域的各种数据集,与具有代表性的行业基准相比,它可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。

AWS Clean Rooms 协作是安全的逻辑边界,允许协作成员运行 SQL 查询和执行 ML 建模,而无需与合作伙伴共享原始数据。只有受邀加入协作的公司才能加入协作。多个参与者可以向协作提供数据,一个成员可以接收结果。只有受邀的公司才能加入 AWS Clean Rooms 协作。

使用 AWS 管理控制台或 API 操作,您将创建洁净室协作,邀请要与之协作的公司,并选择协作中每位参与者都拥有的能力。然后,参与者可以设置如何查询结构化数据的规则,并根据自己的数据训练 ML 模型。不会从参与者账户复制数据集,而是只能在需要时进行访问。使用 AWS Clean Rooms,您可以选择要执行的分析类型:SQL 查询和使用 AWS Clean Rooms ML 进行 ML 建模。使用 SQL 查询时,您还可以使用其他功能,例如无代码分析生成器、AWS Clean Rooms 差别隐私和加密计算。协作参与者将数据或模型关联到协作并运行分析后,协作输出将存储在指定的 Amazon Simple Storage Service(Amazon S3)存储桶中。

每次协作 AWS Clean Rooms 最多支持五名参与者。

您可以控制谁可以参与您的 AWS Clean Rooms 协作,并可以创建协作或加入协作邀请。参与对协作中的每一方都是透明的,并且在创建协作后无法添加新帐户。但是,如果需要,您可以与不同的客户或合作伙伴建立新的协作。您可以建立和管理对内容的访问权限,还可以通过自己控制的用户、组、权限和凭证设置对 AWS 服务和资源的访问权限。

客户可以使用 SQL 或 AWS Clean Rooms ML 建模对其与合作伙伴的集体数据集生成见解,而无需共享或泄露基础数据。

借助 SQL,多个协作者可以提供数据,但只有一个协作者可以运行 SQL 查询,只有一个协作者可以接收结果。加入协作后,协作者就哪一方将运行查询、哪一方将收到结果以及哪一方将负责计算费用达成一致。只有您邀请参加该协作的受邀人才能根据您制定的分析规则获得见解。在设置 AWS Clean Rooms 协作时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例需求。例如,如果要将查询输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员无权访问查询结果。

使用 AWS Clean Rooms ML,协作者带来了记录样本集,他们希望基于此找到合作伙伴的相似分段;另一方的人口众多,我们可以根据他们与样本记录的相似度从中生成相似分段。AWS Clean Rooms ML 会将输出相似分段发送到一个目的地,该目的地由带来较大人口的一方指定,我们从中得出相似的分段。

AWS Entity Resolution 数据匹配服务已原生集成到 AWS Clean Rooms 中。在增强隐私的 AWS Clean Rooms 协作中,您可以使用基于规则或基于数据服务提供商的匹配,使用您选择使用的任何通用密钥(例如假名标识符)来准备、匹配您的用户数据并将其与合作伙伴的数据关联起来。

AWS Clean Rooms 现已在以下区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)和欧洲地区(斯德哥尔摩)。

借助 AWS Clean Rooms,您可以使用灵活的 SQL 分析规则和增强隐私的 ML 来满足您的业务需求。使用 SQL 分析时,您可以灵活地选择哪位协作者为协作中运行的 SQL 查询的计算容量付费,以洁净室处理单元(CRPU)小时为单位按秒计费(最低收费 60 秒)。使用 AWS Clean Rooms ML 时,您只需按每 1000 个配置文件的价格为所请求的模型训练和创建的相似分段付费。有关更多信息,请参阅 AWS Clean Rooms 定价

借助 AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务,您可以利用提供商数据集(例如 LiveRamp)使用基于规则或基于数据服务提供商的匹配。

使用基于规则的匹配时,协作中至少有一名成员需要在与合作伙伴的数据集进行匹配之前准备好自己的数据,除非他们在创建或加入协作之前已经使用 AWS Entity Resolution 数据匹配服务准备好数据。该成员仅在使用时才会为数据准备付费。任何参与协作的成员都可以为数据匹配付费。数据比对还需要为每次合作支付一次性费用,这笔费用分配给任何支付数据比对费用的合作者。

当您使用基于数据服务提供商的匹配时,所有协作成员都必须订阅提供商,才能使用提供商 ID 准备数据。所有合作成员在与合作伙伴的数据集进行匹配之前,都必须使用提供者 ID 准备数据,除非他们在创建或加入合作之前已经使用 AWS Entity Resolution 数据匹配服务准备了数据。任何参与合作的成员都可以使用提供方的 ID 支付数据比对费用。此外,支付数据比对费用的成员必须有提供商订阅。您可以使用 AWS Data Exchange(ADX)上列出的公共订阅,也可以直接通过所选的数据服务提供商购买私有订阅,然后使用 ADX 的自带订阅(BYOS) 

有关更多信息,请参阅 AWS Clean Rooms 定价的 AWS Entity Resolution 数据匹配服务。

AWS Clean Rooms ML

AWS Clean Rooms ML 可帮助您和您的合作伙伴对集体数据应用机器学习模型来解锁预测性见解,而无需彼此共享敏感信息。借助 AWS Clean Rooms 功能,您可以邀请合作伙伴加入洁净室,将经过训练的 AWS 托管、随时可用的 ML 模型应用于每次协作,只需几个步骤即可生成相似的数据集,从而节省数月的开发工作,以便构建、训练、调整和部署自己的模型。

AWS Clean Rooms ML 可帮助客户处理多种应用场景。例如,航空公司可以使用其客户数据,与在线预订服务协作,识别具有相似特征的潜在旅行者,汽车贷款机构和保险公司可以识别与一组现有租赁所有者具有相同特征的潜在汽车保险客户,品牌和发布者可以对市场内客户的相似细分进行建模并提供高度相关的广告体验,而无需任何一家公司与他人共享基础数据。医疗保健建模将在未来几个月内发布。

AWS Clean Rooms ML 是基于电子商务和直播视频等各种数据集构建和测试的,与具有代表性的行业基准相比,该服务可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。

借助 AWS Clean Rooms ML 相似建模,您可以使用您的数据训练自己的自定义模型,并邀请合作伙伴将其记录的一小部分样本用于协作,以生成一组扩展的相似记录,同时仍可以保护您和合作伙伴的基础数据。AWS Clean Rooms ML 从一方提取少量记录样本,然后从另一位协作者的数据集中找到一组更大的记录或相似的分段。AWS Clean Rooms ML 不与任何一方共享数据,各方可以随时删除其数据或删除自定义模型。您可以指定生成的相似分段的所需大小,AWS Clean Rooms ML 会私下将您的样本列表中的唯一配置文件与合作伙伴数据集中的配置文件进行匹配,然后训练一个 ML 模型,预测协作者数据集中的每个配置文件与样本中的配置文件的相似度。AWS Clean Rooms ML 将自动对与示例列表相似的配置文件进行分组,并输出生成的相似分段。AWS Clean Rooms ML 使得无需与合作伙伴共享数据,即可构建、训练和部署 ML 模型。使用 AWS Clean Rooms ML,您的数据仅用于训练自己的模型,不用于训练 AWS 模型。您可以使用直观的控件来帮助您和合作伙伴对模型的预测结果进行调优。

安全性和数据保护

数据保护始于 AWS 的安全基础,而 AWS Clean Rooms 建立在 AWS 安全服务的基础之上,包括 AWS Identity and Access Management(IAM)、AWS Key Management Service(AWS KMS)和 AWS CloudTrail。这便于您将现有的数据保护策略扩展到数据协作工作负载。借助 AWS Clean Rooms,您无需在 AWS 环境之外存储或维护数据副本并发送给另一方,即可开展使用者见解分析、营销衡量、预测或风险评估。

当您设置 AWS Clean Rooms 协作并使用 SQL 分析时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例。例如,如果要将查询的输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员无权访问查询结果。

AWS Clean Rooms 还配备 SQL 查询控件,允许您通过分析规则配置限制可在数据表上运行的查询类型或特定查询,从而帮助您保护数据。AWS Clean Rooms 支持三种类型的 SQL 分析规则:聚合、列表和自定义。借助聚合分析规则,您可以配置表,以便仅允许生成汇总统计信息的查询(例如活动衡量或归因)。借助列表分析规则,您可以配置控制,以便查询只能分析数据集与可查询成员的数据集的交集。使用自定义分析规则,您可以配置查询级别的控制,以允许在您的数据集中运行特定的账户或查询。使用自定义分析规则时,您可以选择使用差别隐私。借助 AWS Clean Rooms 差别隐私,只需几个步骤即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先获得差别隐私体验即可帮助您防止重新识别用户。另一种控制措施是聚合阈值,可以防止查询向下钻取到可能可重新识别的小型组。

使用 AWS Clean Rooms ML,您的数据仅用于训练自己的模型,不用于训练 AWS 模型。AWS Clean Rooms ML 不会将任何公司的训练或相似分段数据与其他公司一起使用,您可以随时删除模型和训练数据。

不需要。数据集存储在协作者的 AWS 账户中。AWS Clean Rooms 会临时从协作者账户读取数据,以运行查询、匹配记录、训练 ML 模型或扩展种子段。分析结果将发送到专为分析设计的 S3 地点。

AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务可为您生成一个数据集,映射协作中各方的标识符。映射数据集由 AWS Clean Rooms 管理。协作中的任何成员都不能查看或下载映射表。如果合作中的所有成员都同意放宽隐私保护,就可以针对特定用例查询映射表。任何一方都可以随时删除该表。

由 AWS Clean Rooms ML 生成的模型由服务存储,可以使用客户托管的 AWS KMS 密钥进行加密,并且可以由客户随时删除。

借助 AWS Clean Rooms 加密和分析规则,您可以精细控制要共享的信息类型。作为数据协作者,您有责任评测每次协作的风险,包括重新识别的风险,并进行额外的尽职调查,以确保遵守任何数据隐私法律。如果您共享的数据是敏感的或受监管的,我们建议您仍然使用适当的法律协议和审计机制,以进一步降低隐私风险。

符合。AWS 服务条款禁止在某些应用场景下在 AWS Clean Rooms 中进行协作。

符合。AWS HIPAA 合规性计划将 AWS Clean Rooms 作为一项符合 HIPAA 要求的服务包含在内。如果您与 AWS 签订了商业伙伴增订合约(BAA),现在可以使用 AWS Clean Rooms 建立符合 HIPAA 要求的协作。如果您未签订商业伙伴协议或者在对您的 HIPAA 合规应用程序使用 AWS 的方面有其他问题,请联系我们,以获取详细信息。要了解更多信息,请参阅 AWS HIPAA 合规性AWS 医疗保健与生命科学行业解决方案

SQL 分析

在 SQL 分析规则中,您可以配置列级控制,以帮助您定义如何在查询中使用每一列。例如,您可以指定哪些列可用于计算聚合统计数据 [例如 SUM(price)],以及哪些列可用于将表与其他协作成员连接起来。在聚合分析规则中,您还可以定义每个输出行必须满足的最小聚合阈值。未达到最低阈值的行将由 AWS Clean Rooms 自动筛选出。

符合。您将能够配置 AWS Clean Rooms 以在 Amazon CloudWatch Logs 中发布查询日志。使用自定义分析规则,您还可以在协作运行查询(存储在分析模板中)之前对其进行审查。 

AWS Clean Rooms 差异化隐私

差别隐私是一个经过数学验证的框架,用于帮助保护数据隐私。差别隐私背后的主要好处是通过添加受控的随机性(噪声)来掩盖正在分析的数据集中存在或不存在任何单个个体,从而帮助保护个人层面的数据。

借助 AWS Clean Rooms 差别隐私,只需几个步骤即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先获得差别隐私体验即可帮助您防止重新识别用户。AWS Clean Rooms 差别隐私可模糊处理任何个人数据在协作中生成聚合见解的贡献,以便您可以运行广泛的 SQL 查询,以生成有关广告活动、投资决策、临床研究等领域的见解。

作为具有提供数据能力的成员开始或加入 AWS Clean Rooms 协作后,您只需几个步骤即可开始使用 AWS Clean Rooms 差别隐私。创建配置表格(该表是对您在 AWS Glue Data Catalog 中的表格的引用)后,您只需选择在向配置的表格中添加自定义分析规则时开启差别隐私即可。接下来,将配置的表格关联到您的 AWS Clean Rooms 协作,并在协作中配置差别隐私策略以使您的表格可供查询。您可以使用默认策略来快速完成设置,也可以对其进行自定义以满足您的特定要求。

设置 AWS Clean Rooms 差别隐私后,您与之协作的合作伙伴可以开始在您的表格上运行查询,合作伙伴无需具备任何差别隐私概念方面的专业知识或进行额外设置。借助 AWS Clean Rooms 差别隐私,查询运行者可以运行自定义和灵活的分析,包括使用常用表格表达式(CTE)以及 COUNT 和 SUM 等常用聚合函数的复杂查询模式。

加密计算

加密计算是一种在使用敏感数据时对其进行保护和加密的方法。数据可以在存储时、传输时和使用时进行静态加密。加密意味着将纯文本数据转换为编码数据,如果没有特定的“密钥”就无法破译。 私有集交集(PSI)是一种加密计算类型,它允许持有数据集的两方或多方比较加密版本以执行计算。加密在本地使用共享协作者的密钥进行。

AWS Clean Rooms 包括 C3R,该服务提供了使用客户端加密工具 [SDK 或命令行界面(CLI)] 预加密数据的选项,该工具使用与 AWS Clean Rooms 协作中的其他参与者共享的密钥。这会在运行查询时加密数据。