为了缩短流水线的启动时间,Cloud Data Fusion 6.8.0 版和
6.8.1 实例缓存启动流水线所需的工件,
位于 Cloud Storage 存储桶区内的 Dataproc 集群。
其中一个缓存工件是 application.jar
。根据
但某些流水线可能会因以下原因失败
错误:
Unsupported program type: Spark
例如,在创建新的 6.8.1 实例(或升级到 6.8.1)后, 首次运行仅包含操作的流水线时,它会成功。 但是,接下来运行的流水线(包括来源或接收器)可能会失败, 出错。
建议
要解决此问题,请执行以下任一操作:
- 建议:升级实例 Cloud Data Fusion 6.8.2 版或更高版本。
- 停用 Cloud Storage 缓存, 偏好设置或运行时参数。
您可以为以下任一项停用缓存:
- 针对实例中的所有流水线。
- 针对给定命名空间。
- 对于需要执行特定 Dataproc 的特定 包含失败的流水线
- 仅适用于失败的流水线。
为实例中的所有流水线停用 Cloud Storage 缓存
要为实例中的所有流水线停用 Cloud Storage 缓存,请执行以下操作: 请按以下步骤操作:
控制台
- 转到您的实例:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开该实例,请执行以下操作: 点击实例,然后点击查看实例。
点击系统管理员 >系统偏好设置,并为
system.profile.properties.gcsCacheEnabled
到false.
REST API
如需将 system.profile.properties.gcsCacheEnabled
设置为 false
,请参阅
设定偏好设置。
为给定命名空间停用 Cloud Storage 缓存
如需为给定命名空间停用 Cloud Storage 缓存,请按照下列步骤操作: 步骤:
控制台
- 转到您的实例:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开该实例,请执行以下操作: 点击实例,然后点击查看实例。
- 依次点击系统管理员 > 命名空间,然后选择您的 命名空间。
依次点击偏好设置 > 修改,然后设置
system.profile.properties.gcsCacheEnabled
到false
。
REST API
如需通过 REST API 进行设置,请参阅 设定偏好设置。
为 Dataproc 配置文件停用 Cloud Storage 缓存
要针对特定实例停用 Cloud Storage 缓存, 包含失败流水线的 Dataproc 配置文件,请遵循 具体步骤:
控制台
- 在 Dataproc 配置文件中将
gcsCacheEnabled
设置为false
。
仅为失败的流水线停用 Cloud Storage 缓存
如需仅为失败的流水线停用 Cloud Storage 缓存,请按照下列步骤操作: 具体步骤:
控制台
- 转到您的实例:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开该实例,请执行以下操作: 点击实例,然后点击查看实例。
- 点击列表,然后选择失败的流水线。
- 点击
system.profile.properties.gcsCacheEnabled
更改为false
。
点击运行旁边的展开,然后设置运行时参数
从 - 对任何其他失败的流水线重复上述操作。
REST API
通过 REST 启动流水线时,可以停用 Cloud Storage 缓存 API 同时选择性地将运行时参数指定为 JSON 映射, 请求正文。如需了解详情,请参阅 启动程序。