谷歌 Vertex AI API 调用与 429 问题

如果想调用市面上比较前沿的多模态模型制作一些东西，使用 GCP 中的 Vertex AI 是一个不错的选择。它提供谷歌最新的 Gemini 模型调用权限，一站式支持文本、图片、视频、语音模型。

如果是新注册的 GCP 账号，一般还可以配合 Free Trial 的 300 美元赠金来用。

大体步骤是：创建一个 Google 云服务账号 -> 在控制台启用 Vertex AI 的 API 功能 -> 开通一个服务账号并授予 Vertex AI User 角色。然后可以通过 ADC 调用；如果你是服务账号方式，也可以下载对应的 JSON 文件来配：

https://googleapis.github.io/python-genai

在使用过程中会发现有时候经常返回 429 报错：

1
2
3
4
5
6


{ "error": 
    { "code": 429,
      "message": "Resource exhausted. Please try again later. Please refer to https://cloud.google.com/vertex-ai/generative-ai/docs/error-code-429 for more details.",
      "status": "RESOURCE_EXHAUSTED"
      }
}

一些比较新的模型，我自己用下来会更容易碰到这种情况。不过这更多是个人观察，不算官方结论。

官方文档里提到，部分 Gemini 模型会使用 DSQ（Dynamic Shared Quota，动态共享配额）。DSQ 没有固定的预定义 quota，请求会在共享容量池里动态分配。所以 429 不一定表示你打到了一个固定 quota，也可能只是某个时段共享资源比较紧张。

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/quotas

官方建议是：

用 global endpoint；

做 truncated exponential backoff；

平滑流量，避免秒级尖峰；

需要更稳定容量时，改用 Provisioned Throughput（加钱买预订配额，这非常贵）

这非常难受。不过根据我的观察，在北京时间早上 9-12 点时会好很多

如果真的频繁 429，那么除了做重试和错峰，把对模型要求不高的业务先指向比较老、比较便宜或者更稳定的模型，也会缓解一些。