<IHR API-SCHLÜSSEL> sehen, ersetzen Sie dies durch Ihren tatsächlichen Schlüsselwert.
Endpoint-Pfad
Der Pfad zum Endpoint bestimmt die Aktion, die vom Server ausgeführt werden soll.
Modellname
Eine API-Anfrage benötigt den vollständigen Modellnamen für die korrekte Verbindung. Ein vollständiger Name wie Meta-Llama-3.1-405b-Instruct kann in informellen Verweisen zu Llama 3.1 405B verkürzt werden. Verwenden Sie bei Anfragen die vollständigen Namen, die auf der Infercom Inference Service Modelle Seite verfügbar sind.
Prompt-Eingabe
Prompts werden durch zwei verschiedene Rollen unterschieden: 'system' und 'user'. System-Prompts konfigurieren das Verhalten des Modells bei der Rückgabe Ihrer Anfrage. User-Prompts beschreiben dynamisch die Anweisungen für ein Modell, um eine Aufgabe oder Abfrage auszuführen.
Stop-Sequenz
Liste von Sequenzen, bei denen die API die Generierung weiterer Tokens stoppt. Dies kann ein String oder ein Array von Strings sein.
Modellparameter
max_tokens Die maximale Anzahl der zu generierenden Tokens. Stream Dies bestimmt, ob die Antwort als Stream oder als einzelne Antwort erfolgt. Stream-Optionen Wenn gesetzt, wird ein zusätzlicher Chunk vor der data: [DONE] Nachricht gestreamt. Das Nutzungsfeld in diesem Chunk zeigt die Token-Nutzungsstatistiken für die gesamte Anfrage an, und das Choices-Feld ist immer ein leeres Array. Alle anderen Chunks enthalten ebenfalls ein Nutzungsfeld mit einem Null-Wert. Die Nutzungsmetriken umfassen OpenAI-Metriken sowie einige zusätzliche von Infercom Inference Service unterstützte Metriken. temperature Bestimmt den Grad der Zufälligkeit in der Antwort. top_p Der top_p (Nucleus)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für jedes vorhergesagte Token dynamisch anzupassen, basierend auf den kumulativen Wahrscheinlichkeiten. top_k Der top_k (Typ: Zahl)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für das nächste vorhergesagte Wort oder Token zu begrenzen. Der Standardwert istMAX_INT.