Diese Anleitung beschreibt Best Practices zur Minimierung der Latenz und Maximierung des Durchsatzes bei der Nutzung des Infercom Inference Service.Documentation Index
Fetch the complete documentation index at: https://docs.infercom.ai/llms.txt
Use this file to discover all available pages before exploring further.
Connection Pooling
Die wirkungsvollste Optimierung ist die Wiederverwendung Ihrer Client-Instanz über mehrere Anfragen hinweg. Dies ermöglicht HTTP-Connection-Pooling, das den TCP- und TLS-Handshake bei nachfolgenden Aufrufen überspringt.Funktionsweise
Wenn Sie für jede Anfrage einen neuen Client erstellen, muss jeder Aufruf eine neue TCP-Verbindung aufbauen und TLS aushandeln — das verursacht je nach Standort und Netzwerkbedingungen mehrere zehn Millisekunden zusätzlichen Overhead. Bei Wiederverwendung des Clients bleibt die bestehende Verbindung offen und nachfolgende Anfragen überspringen diesen Aufbau.Empfohlenes Muster
Performance-Metadaten in der Antwort
Jede API-Antwort enthält detaillierte Performance-Metriken imusage-Objekt. Nutzen Sie diese, um Ihre Anwendung zu messen und zu optimieren.
Verfügbare Metriken
| Feld | Beschreibung |
|---|---|
time_to_first_token | Serverseitige Zeit bis zum ersten Token (Sekunden) |
total_latency | Serverseitige Gesamtverarbeitungszeit (Sekunden) |
completion_tokens_after_first_per_sec | Ausgabe-Durchsatz nach dem ersten Token (Tokens/Sek.) |
completion_tokens_per_sec | Gesamter Ausgabe-Durchsatz inkl. TTFT (Tokens/Sek.) |
total_tokens_per_sec | Kombinierter Ein-/Ausgabe-Durchsatz (Tokens/Sek.) |
prompt_tokens | Anzahl verarbeiteter Eingabe-Tokens |
completion_tokens | Anzahl generierter Ausgabe-Tokens |
Beispielantwort
Client- vs. Server-Latenz messen
Um zu verstehen, wie viel Zeit im Netzwerk vs. bei der Inferenz verbracht wird, vergleichen Sie Ihre clientseitige Gesamtzeit mit der serverseitig gemeldetentotal_latency:
Streaming für interaktive Anwendungen
Für Chatbots und interaktive Anwendungsfälle liefert Streaming das erste Token schneller an den Benutzer und sorgt für ein reaktionsschnelleres Erlebnis.Best Practices für Performance
| Praxis | Auswirkung | Details |
|---|---|---|
| Client-Instanzen wiederverwenden | Vermeidet wiederholten TCP/TLS-Handshake | Spart mehrere zehn ms pro Anfrage |
| Streaming für UI verwenden | Schnellere wahrgenommene Antwort | Erstes Token kommt früher an |
max_tokens angemessen setzen | Vermeidet unnötige Generierung | Nicht auf Standard belassen, wenn kurze Antworten benötigt werden |
| Passendes Modell wählen | Variiert | Kleinere Modelle haben niedrigere TTFT und höheren Durchsatz |
| Nahe am EU-Rechenzentrum deployen | Kürzere Netzwerk-Roundtrip-Zeit | Infercom läuft in Deutschland (Equinix München) |