통합 슈퍼컴퓨팅 아키텍처

AI Hypercomputer

AI에 최적화된 하드웨어, 소프트웨어, 소비를 결합하여 생산성과 효율성을 개선합니다.

개요

성능 최적화 하드웨어

Google Cloud TPU, Google Cloud GPU, Google Cloud Storage, 기본 Jupiter 네트워크 등 성능에 최적화된 Google 인프라는 아키텍처의 강력한 확장 특성으로 인해 대규모 모델 서빙에 최고의 가격 대비 성능을 제공하므로 대규모 최신 모델에 가장 빠른 학습 시간을 제공합니다.

개방형 소프트웨어

Google의 아키텍처는 Tensorflow, Pytorch, JAX와 같은 가장 일반적인 도구와 라이브러리를 지원하도록 최적화되어 있습니다. 또한 고객은 Cloud TPU 멀티슬라이스 및 멀티호스트 구성과 같은 기술과 Google Kubernetes Engine과 같은 관리형 서비스를 활용할 수 있습니다. 이를 통해 고객은 SLURM으로 조정된 NVIDIA NeMO 프레임워크와 같은 일반적인 워크로드에 대해 턴키 방식의 배포를 제공할 수 있습니다.

유연한 소비

Google의 유연한 소비 모델을 통해 고객은 약정 사용 할인이 적용된 고정 비용 또는 동적 주문형 모델을 선택하여 비즈니스 니즈를 충족할 수 있습니다. 동적 워크로드 스케줄러는 고객이 과도한 할당 없이 필요한 용량을 확보하여 필요한 만큼만 지불할 수 있도록 도와줍니다. 또한 Google Cloud의 비용 최적화 도구는 리소스 사용을 자동화하여 엔지니어의 수동 작업을 줄여 줍니다.

작동 방식

Google은 TensorFlow와 같은 기술을 발명한 인공지능 분야의 리더입니다. 프로젝트에 Google 기술을 활용할 수 있다는 사실을 알고 계셨나요? AI 인프라를 혁신해 온 Google의 역사와 이를 워크로드에 활용하는 방법을 알아보세요.

Google Cloud 제품 관리자 Chelsie의 사진과 함께 표시된 Google Cloud AI Hypercomputer 아키텍처 다이어그램

일반적인 용도

대규모 AI 학습 실행

강력하고 확장 가능하며 효율적인 AI 학습

AI Hypercomputer 아키텍처는 학습 니즈가 충족되도록 최적의 확장성을 갖춘 기본 인프라를 사용할 수 있는 옵션을 제공합니다.

AI 워크로드를 위한 스토리지 인프라를 정의하는 방법
AI 성장 요인을 설명하는 차트 3개

강력하고 확장 가능하며 효율적인 AI 학습

AI Hypercomputer 아키텍처는 학습 니즈가 충족되도록 최적의 확장성을 갖춘 기본 인프라를 사용할 수 있는 옵션을 제공합니다.

AI 워크로드를 위한 스토리지 인프라를 정의하는 방법
AI 성장 요인을 설명하는 차트 3개

강력하고 확장 가능하며 효율적인 AI 학습

ML Productivity Goodput을 사용하여 Google에서 진행되는 대규모 학습의 효과를 측정합니다.

ML Productivity Goodput 도입: AI 시스템 효율성을 측정하기 위한 측정항목
TPUv4(bf16) 및 TPUv5(int8)의 학습 속도 비교

Google Cloud를 활용하여 확장하는 Character AI

"사용자 메시지에 대한 응답을 생성하려면 GPU가 필요합니다. 더 많은 사용자가 플랫폼을 이용함에 따라 서비스를 제공하려면 더 많은 GPU가 필요합니다. Google Cloud에서는 특정 워크로드에 적합한 플랫폼을 찾기 위한 실험을 진행할 수 있습니다. 가장 가치 있는 솔루션을 유연하게 선택할 수 있다는 것은 큰 장점입니다." 마일 오트, Character.AI 창립 엔지니어

지금 보기

AI 기반 애플리케이션 제공

개방형 프레임워크를 활용하여 AI 기반 환경 제공

Google Cloud는 개방형 프레임워크가 AI Hypercomputer 아키텍처 내에서 원활하게 작동하도록 하기 위해 최선을 다하고 있습니다.

Ray, LangChain, HuggingFace로 RAG를 프로덕션 환경에 더 빠르게 구현
대략적인 RAG 아키텍처

개방형 프레임워크를 활용하여 AI 기반 환경 제공

Google Cloud는 개방형 프레임워크가 AI Hypercomputer 아키텍처 내에서 원활하게 작동하도록 하기 위해 최선을 다하고 있습니다.

Ray, LangChain, HuggingFace로 RAG를 프로덕션 환경에 더 빠르게 구현
대략적인 RAG 아키텍처

개방형 프레임워크를 활용하여 AI 기반 환경 제공

Google Cloud의 오픈 소프트웨어 생태계를 사용하면 가장 익숙한 도구와 프레임워크로 애플리케이션을 빌드하는 동시에 AI Hypercomputer 아키텍처의 가격 대비 성능 이점을 활용할 수 있습니다.

Google Cloud AI 도구 및 프레임워크

Priceline: 여행자가 특별한 경험을 누릴 수 있도록 지원

"Google Cloud와 협력하여 생성형 AI를 통합함으로써 챗봇 내에 맞춤형 여행 컨시어지를 만들 수 있게 되었습니다. 저희는 고객이 여행 계획을 세우는 것을 넘어서 취향을 반영한 특별한 여행을 경험할 수 있도록 돕고 싶습니다." 마틴 브로드벡, Priceline CTO

자세히 알아보기
priceline 로고

규모에 맞게 모델을 비용 효율적으로 서빙

대규모로 AI를 서빙하기 위한 가격 대비 성능 극대화

Google Cloud는 모든 워크로드 니즈를 충족할 수 있도록 AI 모델에 가속기 옵션을 제공하는 업계 최고의 가격 대비 성능을 제공합니다.

커스텀 AI 인식 부하 분산으로 추론 지연 시간 최소화
큐 깊이에 따른 부하 분산 아키텍처 다이어그램

대규모로 AI를 서빙하기 위한 가격 대비 성능 극대화

Google Cloud는 모든 워크로드 니즈를 충족할 수 있도록 AI 모델에 가속기 옵션을 제공하는 업계 최고의 가격 대비 성능을 제공합니다.

커스텀 AI 인식 부하 분산으로 추론 지연 시간 최소화
큐 깊이에 따른 부하 분산 아키텍처 다이어그램

대규모로 AI를 서빙하기 위한 가격 대비 성능 극대화

NVIDIA L4 GPU를 제공하는 Cloud TPU v5e 및 G2 VM 인스턴스는 최신 LLM 및 생성형 AI 모델을 비롯한 다양한 AI 워크로드에 비용 효율적인 고성능 추론을 지원합니다. 두 가지 모두 이전 모델에 비해 현저히 개선된 가격 대비 성능을 제공하며 Google Cloud의 AI Hypercomputer 아키텍처를 통해 고객은 배포를 업계 최고의 수준으로 확장할 수 있습니다.

비용당 상대적 성능: Cloud TPU v4 및 v5e

비용 효율성을 위해 Google Cloud를 활용하는 Assembly AI

"실험 결과에 따르면 Cloud TPU v5e는 모델에 대규모 추론을 실행하기 위한 가장 비용 효율적인 가속기입니다. G2보다 달러당 성능이 2.7배, A2 인스턴스에 비해 달러당 성능이 4.2배 더 높습니다." 도메닉 도나토,

AssemblyAI 기술 부문 부사장


자세히 알아보기
AssemblyAI 로고

Google Cloud의 오픈소스 모델

단일 GPU에서 GKE로 모델 서빙

GPU를 사용한 일반 모델 학습

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud