- RPM: Anfragen pro Minute (Requests per minute)
- RPD: Anfragen pro Tag (Requests per day)
- TPD: Tokens pro Tag (nur Free Tier)
- Eine Anfrage wird durch einen Aufruf unserer API definiert
- Sie können entweder die RPM- oder RPD-Grenze erreichen, je nachdem, welche Sie zuerst erreichen
- Sie werden in jeder Antwort über den Status Ihrer Ratenbegrenzungen informiert (siehe Ratenbegrenzungs-Response-Header für weitere Informationen)
- Wenn Sie eine Ratenbegrenzung erreichen, erhalten Sie eine Fehlermeldung in Ihrer Antwort (siehe API-Fehlercodes)
Infercom Cloud Ratenbegrenzungs-Stufen
Es gibt verschiedene Ratenbegrenzungs-Stufen, die wir anbieten:- Free Tier: Wird angewendet, wenn keine Zahlungsmethode mit Ihrem Konto verknüpft ist
- Developer Tier: Wird angewendet, wenn eine Zahlungsmethode mit Ihrem Konto verknüpft ist
- Enterprise Tier: Bitte kontaktieren Sie unser Vertriebsteam für unsere Enterprise-Tier-Ratenbegrenzungspläne
Besuchen Sie die Abrechnungsseite, um eine Zahlungsmethode mit Ihrem Konto zu verknüpfen.
Produktionsmodell-Ratenbegrenzungen
Produktionsmodelle sind für den Einsatz in Produktionsumgebungen vorgesehen und erfüllen unsere hohen Standards für Geschwindigkeit und Qualität.- Developer Tier
- Free Tier
| Entwickler | Modell-ID | Anfragen pro Minute (RPM) | Anfragen pro Tag (RPD) |
|---|---|---|---|
| DeepSeek | |||
DeepSeek-R1 | 60 | 12000 | |
DeepSeek-R1-Distill-Llama-70B | 240 | 48000 | |
DeepSeek-V3-0324 | 60 | 12000 | |
DeepSeek-V3.1 | 60 | 12000 | |
| Meta | |||
Meta-Llama-3.3-70B-Instruct | 240 | 48000 | |
Meta-Llama-3.1-8B-Instruct | 1440 | 288000 |
Vorschaumodell-Ratenbegrenzungen
Vorschaumodelle sind nur für Evaluierungszwecke und Entwicklerexperimente gedacht und sollten nicht in Produktionsumgebungen verwendet werden. Diese Modelle haben begrenzte Kapazität und können kurzfristig entfernt werden.- Developer Tier
- Free Tier
| Entwickler | Modell-ID | Anfragen pro Minute (RPM) | Anfragen pro Tag (RPD) |
|---|---|---|---|
| Meta | |||
Llama-4-Maverick-17B-128E-Instruct | 60 | 12000 | |
| OpenAI | |||
gpt-oss-120b | 60 | 12000 | |
Whisper-Large-v3 | 450 | 90000 | |
| Qwen | |||
Qwen3-32B | 30 | 6000 | |
| Tokyotech-llm | |||
Llama-3.3-Swallow-70B-Instruct-v0.4 | 60 | 12000 | |
| Other | |||
E5-Mistral-7B-Instruct | 60 | 12000 |
Ratenbegrenzungs-Response-Header
Diese Header sind in jeder Antwort enthalten und geben Informationen über den aktuellen Status der Ratenbegrenzungsnutzung. RPM (Anfragen pro Minute):x-ratelimit-limit-requests- Die maximale Anzahl an Anfragen, die pro Minute erlaubt sind.
x-ratelimit-remaining-requests- Die Anzahl der verbleibenden Anfragen in der aktuellen Minute, bevor die Ratenbegrenzung erreicht wird.
x-ratelimit-reset-requests- Zeit in Epoch-Zeit, bis das Minutenkontingent zurückgesetzt wird.
x-ratelimit-limit-requests-day- Die maximale Anzahl an Anfragen, die pro Tag erlaubt sind.
x-ratelimit-remaining-requests-day- Die Anzahl der verbleibenden Anfragen am aktuellen Tag, bevor die Ratenbegrenzung erreicht wird.
x-ratelimit-reset-requests-day- Zeit in Epoch-Zeit, bis das Tageskontingent zurückgesetzt wird.