Die wirkungsvollste Optimierung ist die Wiederverwendung Ihrer Client-Instanz über mehrere Anfragen hinweg. Dies ermöglicht HTTP-Connection-Pooling, das den TCP- und TLS-Handshake bei nachfolgenden Aufrufen überspringt.
Die Wiederverwendung Ihrer Client-Instanz kann den Netzwerk-Overhead bei aufeinanderfolgenden Anfragen um bis zu 50% reduzieren.
Wenn Sie für jede Anfrage einen neuen Client erstellen, muss jeder Aufruf eine neue TCP-Verbindung aufbauen und TLS aushandeln — das verursacht je nach Standort und Netzwerkbedingungen mehrere zehn Millisekunden zusätzlichen Overhead. Bei Wiederverwendung des Clients bleibt die bestehende Verbindung offen und nachfolgende Anfragen überspringen diesen Aufbau.
from sambanova import SambaNova# Client einmalig erstellenclient = SambaNova( base_url="https://api.infercom.ai/v1", api_key="your-infercom-api-key")# Für alle Anfragen wiederverwendenresponse_1 = client.chat.completions.create( model="MiniMax-M2.5", messages=[{"role": "user", "content": "Hallo"}])response_2 = client.chat.completions.create( model="MiniMax-M2.5", messages=[{"role": "user", "content": "Folgefrage"}])
Vermeiden Sie es, einen neuen Client in Schleifen oder Request-Handlern zu erstellen. Dies erzwingt einen neuen TCP+TLS-Handshake bei jedem Aufruf.
Kopieren
# Dieses Muster vermeidenfor message in messages: client = SambaNova(base_url="https://api.infercom.ai/v1", api_key="...") response = client.chat.completions.create(...) # Neue Verbindung bei jedem Aufruf
Sowohl das SambaNova SDK als auch das OpenAI SDK verwenden httpx unter der Haube, das automatisch einen Connection Pool verwaltet, wenn Sie den Client wiederverwenden. Der Standard-Pool hält bis zu 20 Keep-Alive-Verbindungen.
Um zu verstehen, wie viel Zeit im Netzwerk vs. bei der Inferenz verbracht wird, vergleichen Sie Ihre clientseitige Gesamtzeit mit der serverseitig gemeldeten total_latency:
Für Chatbots und interaktive Anwendungsfälle liefert Streaming das erste Token schneller an den Benutzer und sorgt für ein reaktionsschnelleres Erlebnis.
Kopieren
from sambanova import SambaNovaclient = SambaNova( base_url="https://api.infercom.ai/v1", api_key="your-infercom-api-key")stream = client.chat.completions.create( model="MiniMax-M2.5", messages=[{"role": "user", "content": "Erkläre Quantencomputing"}], stream=True)for chunk in stream: content = chunk.choices[0].delta.content if content: print(content, end="", flush=True)
Streaming reduziert nicht die gesamte Verarbeitungszeit, verbessert aber die wahrgenommene Latenz erheblich, da die Ausgabe während der Generierung geliefert wird.