Prova i modelli Gemini 1.5, i più recenti modelli multimodali in Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token. di Gemini Advanced. Prova i modelli Gemini 1.5, i più recenti modelli multimodali in Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token.

Questa pagina è stata tradotta dall'API Cloud Translation.

Limiti di frequenza di IA generativa su Vertex AI

Google Cloud utilizza le quote per garantire equità e ridurre dei picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità Risorsa Google Cloud utilizzabile dal progetto Google Cloud. Quote si applicano a una serie di tipi di risorse, tra cui hardware, software e componenti. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o di progetti che puoi creare. Le quote proteggono la community per gli utenti di Google Cloud evitando il sovraccarico dei servizi. Anche le quote sono utili per gestire le tue risorse Google Cloud.

Il sistema Cloud Quotas esegue le seguenti operazioni:

Monitora il tuo consumo dei prodotti e dei servizi Google Cloud
Limita il tuo consumo di queste risorse
Fornisce un mezzo per richiedere modifiche al valore della quota

Nella maggior parte dei casi, quando tenti di consumare una risorsa superiore alla sua quota lo consente, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire.

In genere le quote si applicano al progetto Google Cloud livello. L'utilizzo di una risorsa in un progetto non influisce la quota disponibile in un altro progetto. All'interno di un progetto Google Cloud, le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.

Quote per regione e modello

La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni. identificatori e versioni ottimizzate del modello. Ad esempio, una richiesta a gemini-1.0-pro e una richiesta a gemini-1.0-pro-001 vengono conteggiate come due richieste per la quota RPM del modello di base, gemini-1.0-pro. Analogamente, una richiesta a gemini-1.0-pro-001 e gemini-1.0-pro-002 vengono conteggiate come due richieste per la quota RPM del modello di base, gemini-1.0-pro. Lo stesso vale per i modelli ottimizzati, quindi una richiesta gemini-1.0-pro-001 e un modello ottimizzato basato su gemini-1.0-pro-001 denominate my-tuned-chat-model vengono conteggiate come due richieste verso il modello di base, gemini-1.0-pro.

Le quote si applicano alle richieste di IA generativa su Vertex AI per un determinato progetto Google Cloud e regione supportata.

Per visualizzare le quote nella console Google Cloud, segui questi passaggi:

Nella console Google Cloud, vai alla sezione IAM e Pagina Quote amministratore.

Visualizza le quote nella console
Nel campo Filtro, specifica la dimensione o la metrica.

Dimensione (identificatore modello)	Metrica (identificatore della quota per i modelli Gemini)
`base_model: gemini-1.5-flash` `base_model: gemini-1.5-pro`	Puoi richiedere aggiustamenti in quanto segue: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model` `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model`
Tutti gli altri modelli	Puoi modificare una sola quota: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model`

Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:

Limiti di frequenza

I seguenti limiti di frequenza si applicano ai modelli elencati in tutte le regioni per metrica, generate_content_input_tokens_per_minute_per_base_model:

Modello di base	Token al minuto
`base_model: gemini-1.5-flash`	4 milioni (4.000.000)
`base_model: gemini-1.5-pro`	4 milioni (4.000.000)

Richieste batch

Le quote e i limiti per le richieste batch sono gli stessi in tutte le regioni.

Richieste batch simultanee

La tabella seguente elenca le quote per il numero di richieste batch simultanee:

Quota	Valore
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4
`aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs`	1
`aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs`	1

Se il numero di attività inviate supera la quota allocata, le attività vengono inseriti in coda ed elaborati quando la capacità della quota diventa disponibile.

Limiti per le richieste batch

Nella tabella seguente sono elencati i limiti di dimensione di ciascun generazione di testo in batch richiesta.

Modello	Limite
`gemini-1.5-pro`	50.000 record
`gemini-1.5-flash`	150.000 record
`gemini-1.0-pro`	150.000 record
`gemini-1.0-pro-vision`	50.000 record

Quote dei modelli con addestramento personalizzato

Le seguenti quote si applicano ai modelli ottimizzati di Generative AI su Vertex AI per per un progetto e una regione specifici:

Quota	Valore
Core dei pod TPU V3 di addestramento delle immagini limitati per regione * Regione supportata - europe-west4	64
Addestramento delle immagini limitato per GPU Nvidia A100 da 80 GB per regione * Regione supportata - us-central1 * Regione supportata - us-east4	8 2

* Gli scenari di ottimizzazione prevedono prenotazioni degli acceleratori in regioni specifiche. Le quote per l'ottimizzazione sono supportate e devono essere richieste in regioni.

Quote di valutazione online

Il servizio online di valutazione utilizza il modello Gemini 1.5 come strumento di valutazione automatica con l'IP di Google di prompt e di meccanismi per garantire una valutazione coerente e obiettiva basate su modelli.

Una singola richiesta di valutazione per una metrica basata su modello può generare più le richieste sottostanti al servizio di previsione online. La quota di ogni modello calcolato in base al progetto, il che significa che tutte le richieste indirizzate Gemini 1.5 per l'inferenza del modello e la valutazione basata su modelli contribuiscono quota. Le quote dei modelli sono impostate in modo diverso. La quota per la valutazione e la quota per il modello di valutazione automatica sottostante sono visualizzate nella tabella.

Quota per le richieste	Quota predefinita
Richieste di servizio di valutazione online al minuto	1000 richieste per progetto per regione
Richieste di previsione online al minuto per `base_model: gemini-1.5-pro`	1600 richieste per progetto per regione

Se ricevi un errore relativo alle quote durante l'utilizzo della valutazione online potresti dover presentare una richiesta di aumento della quota. Consulta Visualizzare e gestire le quote per ulteriori informazioni.

Limite	Valore
Timeout della richiesta del servizio di valutazione online	60 secondi

I nuovi utenti del servizio di valutazione online all'interno di un nuovo progetto potrebbero la configurazione iniziale subisce un ritardo in genere di due minuti. Si tratta di un evento che deve essere eseguito una sola volta e il processo di sviluppo. Se la prima richiesta non va a buon fine, attendi qualche minuto e poi riprova. Le richieste di valutazione successive in genere vengono completate entro 60 secondi.

Il numero massimo di token di input e output è limitato per le metriche basate su modello in base al modello usato come classificatore automatico. Vedi Informazioni modello | IA generativa su Vertex AI | Google Cloud per i limiti per i modelli pertinenti.

Quote di LlamaIndex su Vertex AI per RAG

Le seguenti quote servono per eseguire RAG (Retrieval-Augmented Generation) utilizzando LlamaIndex su Vertex AI:

Servizio	Quota
LlamaIndex sulle API di gestione dei dati di Vertex AI	60 richieste al minuto (RPM)
`RetrievalContexts` API	1.500 rpm
base_model: `textembedding-gecko`	1.500 rpm
Richieste di previsione online¹	30.000 rpm
Importazione dati	1000 file

¹ Questa quota si applica solo agli endpoint pubblici. Gli endpoint privati di richieste illimitate al minuto.

Quote di valutazione della pipeline

Se ricevi un errore relativo alle quote mentre utilizzi le pipeline di valutazione , potresti dover inviare una quota richiesta di aumento. Vedi Visualizzare e gestire le quote per ulteriori informazioni.

Il servizio di pipeline di valutazione utilizza Vertex AI Pipelines per eseguire PipelineJobs. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni suggerimenti generali per le quote:

Servizio	Quota	Consiglio
API Vertex AI	Job di previsione batch LLM simultanei per regione	A punta: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines
API Vertex AI	Richieste di valutazione al minuto per regione	1000 * num_pipeline_concorrenti

Inoltre, quando si calcolano le metriche di valutazione basate su modello, potrebbero verificarsi problemi di quota. La quota pertinente dipende dallo strumento di valutazione automatica utilizzato:

Tasks	Quota	Modello di base	Consiglio
`summarization` `question_answering`	Richieste di previsione online per modello di base al minuto per regione per base_model	`text-bison`	60 * num_pipeline_concurrent

Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Quota condivisa dinamica

Per i servizi che supportano la quota dinamica condivisa, Google Cloud distribuisce di capacità on demand tra tutte le query in fase di elaborazione. Questa funzionalità elimina l'esigenza di inviare richieste di aumento della quota (QIR).

Se vuoi controllare i costi ed evitare sforamenti del budget, puoi configurare quota autoimpostata chiamata override della quota consumer. Per ulteriori informazioni, vedi Creazione di un override della quota consumer.

Se hai bisogno di traffico prioritario, utilizza la velocità effettiva sottoposta a provisioning.

Puoi anche monitorare l'utilizzo tramite Quote e Limiti di sistema nella console Google Cloud.

Per informazioni sui modelli che supportano la quota dinamica condivisa, consulta Utilizza i modelli di Claude di Anthropic.

Esempio di come funziona la quota condivisa dinamica

Google Cloud esamina la capacità disponibile in una regione specifica, ad esempio Nord America e poi guarda quanti clienti inviano le richieste. Consideriamo il cliente A, che invia 25 query al minuto, e il cliente B, che e invia 25 QPM. Il servizio può supportare 100 QPM. Se il cliente A aumenta la tariffa delle query a 75 QPM, la quota condivisa dinamica supporta l'aumento. Se il cliente A aumenta la frequenza delle query a 100 QPM, quindi la condivisione dinamica la quota limita il cliente A a 75 QPM per continuare a B alle 25 QPM.

Per risolvere gli errori che potrebbero verificarsi durante l'utilizzo di quota condivisa dinamica, consulta Risolvere gli errori di quota.

Aumenti di quota

Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.

Passaggi successivi

Scopri di più su quote e limiti di Vertex AI.
Scopri di più su quote e limiti di Google Cloud.