Membaca dari sumber streaming Pub/Sub

Cloud Data Fusion mendukung sumber Pub/Sub dalam pipeline data streaming.

Sebelum memulai

Peran dan izin

Untuk mendapatkan izin yang perlu Anda baca dari sumber streaming Pub/Sub, minta administrator untuk memberi Anda peran IAM Pub/Sub Editor (roles/pubsub.editor) pada akun layanan yang digunakan untuk mengakses langganan Pub/Sub. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.

Peran yang telah ditentukan ini berisi izin yang diperlukan untuk membaca dari sumber streaming Pub/Sub. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membaca dari sumber streaming Pub/Sub:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Anda mung juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaanlainnya.

Anda memberikan peran pada akun layanan yang Anda tentukan di properti plugin untuk mengakses Pub/Sub. Jika tidak ada yang ditentukan, berikan peran tersebut di akun layanan Dataproc.

Untuk mengetahui informasi lebih lanjut tentang cara memberikan peran, lihat Mengelola akses.

Menambahkan sumber Pub/Sub ke pipeline data streaming

  1. Buka instance Anda:

    1. Di konsol Google Cloud, buka halaman Cloud Data Fusion.

    2. Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.

      Buka Instance

  2. Di antarmuka web Cloud Data Fusion, klik Studio.

  3. Pilih Pipeline Data - Realtime.

  4. Di menu Source, pilih Pub/Sub. Node sumber streaming Pub/Sub akan muncul di pipeline.

  5. Di node Pub/Sub, klik Properties untuk mengonfigurasi sumber. Untuk informasi selengkapnya, lihat Sumber Streaming Pub/Sub.

Dukungan untuk sumber Pub/Sub tunggal tanpa plugin Windower

Cloud Data Fusion versi 6.9.1 mendukung pipeline real-time dengan satu sumber streaming Pub/Sub dan tanpa plugin Windower.

  • Sumber streaming Pub/Sub memiliki dukungan bawaan dan data diproses setidaknya satu kali. Mengaktifkan checkpointing Spark tidak diperlukan.
  • Sumber streaming Pub/Sub membuat snapshot Pub/Sub di awal setiap batch dan menghapusnya di akhir setiap batch.
  • Ada biaya yang terkait dengan pembuatan snapshot Pub/Sub. Untuk mengetahui informasi selengkapnya, lihat Harga Pub/Sub.
  • Anda dapat memantau pembuatan snapshot di Cloud Audit Logs.

Mengupgrade pipeline dengan sumber streaming Pub/Sub

Cloud Data Fusion mendukung upgrade aplikasi langsung untuk pipeline streaming dengan sumber streaming Pub/Sub yang dibuat di 6.9.1 atau yang lebih baru.

Cloud Data Fusion tidak mendukung upgrade untuk pipeline data dengan sumber streaming Pub/Sub di versi 6.9.0 atau yang lebih lama. Sebagai gantinya, upgrade pipeline tersebut ke versi 6.9.1:

  1. Berhenti memublikasikan data ke topik saat upgrade instance direncanakan.
  2. Tunggu hingga pipeline selesai memproses data yang dipublikasikan.
  3. Setelah data diproses sepenuhnya, hentikan pipeline.
  4. Mengupgrade instance.
  5. Buat duplikat pipeline yang ada dan perbarui ke plugin terbaru.
  6. Deploy pipeline.
  7. Jalankan pipeline baru untuk membaca data.

    Versi baru ini otomatis menggunakan snapshot, bukan checkpointing Spark.

  8. Menghapus pipeline lama.

Langkah selanjutnya