복제 작업에 테이블 추가

복제 작업을 배포한 후에는 테이블을 수정하거나 추가할 수 없습니다. 대신 새 복제 작업에 테이블을 추가하거나 복제 작업을 복사합니다.

옵션 1: 새 복제 작업 만들기

새 작업에 테이블을 추가하는 것이 가장 간단한 방법입니다. 모든 과거 테이블을 리로드하거나 데이터 불일치 문제가 발생하는 것을 방지합니다.

단점은 각 작업이 기본적으로 별도의 임시 Dataproc 클러스터에서 실행되면서 다중 복제 작업 관리 오버헤드가 증가하고 더 많은 컴퓨팅 리소스를 소비한다는 것입니다. 후자의 경우 두 작업 모두 공유 정적 Dataproc 클러스터를 사용하여 어느 정도 완화할 수 있습니다.

새 작업 만들기에 대한 자세한 내용은 복제 튜토리얼을 참조하세요.

Cloud Data Fusion에서 정적 Dataproc 클러스터를 사용하는 방법에 대한 자세한 내용은 기존 Dataproc 클러스터에 대해 파이프라인 실행을 참조하세요.

옵션 2: 현재 복제 작업 중지 및 복제 만들기

복제 작업을 복사하여 테이블을 추가할 경우 다음 사항을 고려하세요.

  • 복사한 작업에 스냅샷을 사용 설정하면 과거의 모든 테이블을 처음부터 로드합니다. 이전 옵션(별도 작업 실행)을 사용할 수 없는 경우에 권장됩니다.

  • 과거 테이블을 로드하는 것을 방지하기 위해 스냅샷을 사용 중지하면 이전 파이프라인이 중지되고 새 파이프라인이 시작되기 전까지 이벤트가 누락될 수 있으므로 데이터 손실이 발생할 수 있습니다. 이 문제를 완화하기 위해 중복을 만드는 것 역시 새 테이블의 과거 데이터가 복제되지 않아 데이터 손실이 발생할 수 있으므로 권장되지 않습니다.

중복 복제 작업을 만들려면 다음 단계를 따르세요.

  1. 기존 파이프라인을 중지합니다.

  2. 복제 작업 페이지에서 복사할 작업을 찾고 복제를 클릭합니다.

  3. 스냅샷을 사용 설정합니다.

    1. 소스 구성으로 이동합니다.
    2. 기존 데이터 복제 필드에서 를 선택합니다.
  4. 테이블 및 변환 선택 창에서 테이블을 추가하고 마법사를 따라 복제 파이프라인을 배포합니다.

다음 단계

  • 복제 자세히 알아보기