向复制作业添加表

部署复制作业后,您便无法修改或添加表 。请改为将这些表添加到新的或重复的复制作业。

方法 1:创建新的复制作业

为新作业添加表是最简单的方法。它可以防止 重新加载所有表,防止数据不一致问题。

但其缺点是管理多个 复制作业和更多计算资源的消耗, 每个作业在单独的临时 Dataproc 集群上运行 默认值。后者可以在一定程度上缓解,方法是使用共享静态 Dataproc 集群创建两个作业。

如需详细了解如何创建新作业,请参阅 复制教程

如需详细了解如何在以下位置使用静态 Dataproc 集群: Cloud Data Fusion,请参阅 针对现有 Dataproc 集群运行流水线

方法 2:停止当前复制作业并创建副本

如果您通过复制复制作业来添加表,请考虑使用 以下:

  • 为复制作业启用快照会导致 从零开始创建所有表如果您无法使用 即运行不同的作业。

  • 停用快照以防止历史负载会导致数据 因为在旧流水线停止与当前流水线之间可能会错过 新活动就会开始通过创建重叠设置来缓解这一问题 因为这也会导致数据丢失,即新 不会复制

如需创建重复的复制作业,请按以下步骤操作:

  1. 停止现有流水线。

  2. 在“复制作业”页面中,找到您要复制的作业, 点击“”并 复制

  3. 启用快照:

    1. 前往配置来源
    2. 复制现有数据字段中,选择
  4. 选择表和转换窗口中添加表,然后按照 向导来部署复制流水线。

后续步骤