API-Schlüssel Ein API-Schlüssel wird zur Authentifizierung Ihrer Anfragen verwendet und ist eine eindeutige Kombination aus Buchstaben und Zahlen, die geheim gehalten werden sollte. Wenn Sie beispielsweise in CodeabschnittenDocumentation Index
Fetch the complete documentation index at: https://docs.infercom.ai/llms.txt
Use this file to discover all available pages before exploring further.
<IHR API-SCHLÜSSEL> sehen, ersetzen Sie dies durch Ihren tatsächlichen Schlüsselwert.
Endpoint-Pfad
Der Pfad zum Endpoint bestimmt die Aktion, die vom Server ausgeführt werden soll.
Modellname
Eine API-Anfrage benötigt den vollständigen Modellnamen für die korrekte Verbindung. Ein vollständiger Name wie Meta-Llama-3.1-405b-Instruct kann in informellen Verweisen zu Llama 3.1 405B verkürzt werden. Verwenden Sie bei Anfragen die vollständigen Namen, die auf der Infercom Inference Service Modelle Seite verfügbar sind.
Prompt-Eingabe
Prompts werden durch zwei verschiedene Rollen unterschieden: 'system' und 'user'. System-Prompts konfigurieren das Verhalten des Modells bei der Rückgabe Ihrer Anfrage. User-Prompts beschreiben dynamisch die Anweisungen für ein Modell, um eine Aufgabe oder Abfrage auszuführen.
Stop-Sequenz
Liste von Sequenzen, bei denen die API die Generierung weiterer Tokens stoppt. Dies kann ein String oder ein Array von Strings sein.
Modellparameter
max_tokens Die maximale Anzahl der zu generierenden Tokens. Stream Dies bestimmt, ob die Antwort als Stream oder als einzelne Antwort erfolgt. Stream-Optionen Wenn gesetzt, wird ein zusätzlicher Chunk vor der data: [DONE] Nachricht gestreamt. Das Nutzungsfeld in diesem Chunk zeigt die Token-Nutzungsstatistiken für die gesamte Anfrage an, und das Choices-Feld ist immer ein leeres Array. Alle anderen Chunks enthalten ebenfalls ein Nutzungsfeld mit einem Null-Wert. Die Nutzungsmetriken umfassen OpenAI-Metriken sowie einige zusätzliche von Infercom Inference Service unterstützte Metriken. temperature Bestimmt den Grad der Zufälligkeit in der Antwort. top_p Der top_p (Nucleus)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für jedes vorhergesagte Token dynamisch anzupassen, basierend auf den kumulativen Wahrscheinlichkeiten. top_k Der top_k (Typ: Zahl)-Parameter wird verwendet, um die Anzahl der Auswahlmöglichkeiten für das nächste vorhergesagte Wort oder Token zu begrenzen. Der Standardwert istMAX_INT.