API-SchlüsselEin API-Schlüssel wird zur Authentifizierung Ihrer Anfragen verwendet und ist eine eindeutige Kombination aus Buchstaben und Zahlen, die geheim gehalten werden sollte. Wenn Sie beispielsweise in Codeabschnitten <IHR API-SCHLÜSSEL> sehen, ersetzen Sie dies durch Ihren tatsächlichen Schlüsselwert.Endpoint-PfadDer Pfad zum Endpoint bestimmt die Aktion, die vom Server ausgeführt werden soll.ModellnameEine API-Anfrage benötigt den vollständigen Modellnamen für die korrekte Verbindung. Ein vollständiger Name wie Meta-Llama-3.1-405b-Instruct kann in informellen Verweisen zu Llama 3.1 405B verkürzt werden. Verwenden Sie bei Anfragen die vollständigen Namen, die auf der Infercom Cloud Modelle Seite verfügbar sind.Prompt-EingabePrompts werden durch zwei verschiedene Rollen unterschieden: 'system' und 'user'. System-Prompts konfigurieren das Verhalten des Modells bei der Rückgabe Ihrer Anfrage. User-Prompts beschreiben dynamisch die Anweisungen für ein Modell, um eine Aufgabe oder Abfrage auszuführen.Stop-SequenzListe von Sequenzen, bei denen die API die Generierung weiterer Tokens stoppt. Dies kann ein String oder ein Array von Strings sein.
max_tokensDie maximale Anzahl der zu generierenden Tokens.StreamDies bestimmt, ob die Antwort als Stream oder als einzelne Antwort erfolgt.Stream-OptionenWenn gesetzt, wird ein zusätzlicher Chunk vor der data: [DONE] Nachricht gestreamt. Das Nutzungsfeld in diesem Chunk zeigt die Token-Nutzungsstatistiken für die gesamte Anfrage an, und das Choices-Feld ist immer ein leeres Array. Alle anderen Chunks enthalten ebenfalls ein Nutzungsfeld mit einem Null-Wert. Die Nutzungsmetriken umfassen OpenAI-Metriken sowie einige zusätzliche von Infercom Cloud unterstützte Metriken.temperatureBestimmt den Grad der Zufälligkeit in der Antwort.top_pDer top_p (Nucleus)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für jedes vorhergesagte Token dynamisch anzupassen, basierend auf den kumulativen Wahrscheinlichkeiten.top_kDer top_k (Typ: Zahl)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für das nächste vorhergesagte Wort oder Token zu begrenzen. Der Standardwert ist MAX_INT.