レプリケーション ジョブにテーブルを追加する

レプリケーション ジョブをデプロイした後で、テーブルを編集または追加することはできません。代わりに、新しいレプリケーション ジョブまたは重複するレプリケーション ジョブにテーブルを追加します。

オプション 1: 新しいレプリケーション ジョブを作成する

新しいジョブにテーブルを追加するのが最も簡単な方法です。これにより、過去のすべてのテーブルの再読み込みを防ぎ、データに不整合が生じる問題を防ぎます。

欠点は、複数のレプリケーション ジョブを管理する際に生じるオーバーヘッドが増え、消費されるコンピューティング リソースが増加することです。これは、デフォルトで、各ジョブが個別のエフェメラル Dataproc クラスタで実行されるためです。消費されるコンピューティング リソースの増加は、両方のジョブで共有される静的 Dataproc クラスタを使用することである程度軽減できます。

新しいジョブの作成の詳細については、レプリケーションのチュートリアルをご覧ください。

Cloud Data Fusion で静的 Dataproc クラスタを使用する方法については、既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。

オプション 2: 現在のレプリケーション ジョブを停止して複製を作成する

レプリケーション ジョブを複製してテーブルを追加する場合は、次の点を考慮してください。

  • 重複するジョブのスナップショットを有効にすると、すべてのテーブルがゼロから読み込まれます。この方法は、別のジョブを実行する上記のオプションを使用できない場合におすすめします。

  • スナップショットを無効にすると、履歴読み込みを回避するためにデータが失われる可能性があります。これは、古いパイプラインが停止してから新しいパイプラインが開始されるまでの間に、イベントが欠落する可能性があるためです。この問題を軽減するために重複を作成することはおすすめしません。データが失われる可能性があるためで、新しいテーブルの履歴データは複製されません。

重複するレプリケーション ジョブを作成するには、次の手順に沿って操作します。

  1. 既存のパイプラインを停止します。

  2. [レプリケーション ジョブ] ページで、複製するジョブを見つけて、[]、[複製] をクリックします。

  3. スナップショットを有効にします。

    1. [Configure source] に移動します。
    2. [Replicate existing data] フィールドで [Yes] を選択します。
  4. [テーブルと変換の選択] ウィンドウでテーブルを追加し、ウィザードに従ってレプリケーション パイプラインをデプロイします。

次のステップ