Zum Hauptinhalt springen
Ratenbegrenzungen sind ein Mechanismus zur Verwaltung der Infercom API-Nutzung, um stabile Leistung und zuverlässigen Service zu gewährleisten. Sie begrenzen, wie oft jeder Benutzer die Infercom API innerhalb eines bestimmten Zeitraums aufrufen kann. Ratenbegrenzungen werden gemessen in:
  • RPM: Anfragen pro Minute (Requests per minute)
  • RPD: Anfragen pro Tag (Requests per day)
  • TPD: Tokens pro Tag (nur Free Tier)
Grundlagen

Infercom Cloud Ratenbegrenzungs-Stufen

Es gibt verschiedene Ratenbegrenzungs-Stufen, die wir anbieten:
  • Free Tier: Wird angewendet, wenn keine Zahlungsmethode mit Ihrem Konto verknüpft ist
  • Developer Tier: Wird angewendet, wenn eine Zahlungsmethode mit Ihrem Konto verknüpft ist
  • Enterprise Tier: Bitte kontaktieren Sie unser Vertriebsteam für unsere Enterprise-Tier-Ratenbegrenzungspläne
Besuchen Sie die Abrechnungsseite, um eine Zahlungsmethode mit Ihrem Konto zu verknüpfen.
Nachfolgend finden Sie unsere Developer Tier und Free Tier Ratenbegrenzungen.

Produktionsmodell-Ratenbegrenzungen

Produktionsmodelle sind für den Einsatz in Produktionsumgebungen vorgesehen und erfüllen unsere hohen Standards für Geschwindigkeit und Qualität.
EntwicklerModell-IDAnfragen pro Minute (RPM)Anfragen pro Tag (RPD)
DeepSeek
DeepSeek-R16012000
DeepSeek-R1-Distill-Llama-70B24048000
DeepSeek-V3-03246012000
DeepSeek-V3.16012000
Meta
Meta-Llama-3.3-70B-Instruct24048000
Meta-Llama-3.1-8B-Instruct1440288000

Vorschaumodell-Ratenbegrenzungen

Vorschaumodelle sind nur für Evaluierungszwecke und Entwicklerexperimente gedacht und sollten nicht in Produktionsumgebungen verwendet werden. Diese Modelle haben begrenzte Kapazität und können kurzfristig entfernt werden.
EntwicklerModell-IDAnfragen pro Minute (RPM)Anfragen pro Tag (RPD)
Meta
Llama-4-Maverick-17B-128E-Instruct6012000
OpenAI
gpt-oss-120b6012000
Whisper-Large-v345090000
Qwen
Qwen3-32B306000
Tokyotech-llm
Llama-3.3-Swallow-70B-Instruct-v0.46012000
Other
E5-Mistral-7B-Instruct6012000

Ratenbegrenzungs-Response-Header

Diese Header sind in jeder Antwort enthalten und geben Informationen über den aktuellen Status der Ratenbegrenzungsnutzung. RPM (Anfragen pro Minute):
  • x-ratelimit-limit-requests
    • Die maximale Anzahl an Anfragen, die pro Minute erlaubt sind.
  • x-ratelimit-remaining-requests
    • Die Anzahl der verbleibenden Anfragen in der aktuellen Minute, bevor die Ratenbegrenzung erreicht wird.
  • x-ratelimit-reset-requests
    • Zeit in Epoch-Zeit, bis das Minutenkontingent zurückgesetzt wird.
RPD (Anfragen pro Tag):
  • x-ratelimit-limit-requests-day
    • Die maximale Anzahl an Anfragen, die pro Tag erlaubt sind.
  • x-ratelimit-remaining-requests-day
    • Die Anzahl der verbleibenden Anfragen am aktuellen Tag, bevor die Ratenbegrenzung erreicht wird.
  • x-ratelimit-reset-requests-day
    • Zeit in Epoch-Zeit, bis das Tageskontingent zurückgesetzt wird.