Eine Anfrage mit einem Bild stellen
Bei Infercom folgt die Vision-Modellanfrage dem multimodalen Eingabeformat von OpenAI, das sowohl Text- als auch Bildeingaben in einer strukturierten Payload akzeptiert. Während der Aufruf ähnlich der Textgenerierung ist, unterscheidet er sich durch die Einbeziehung einer kodierten Bilddatei, die über die Variableimage_path referenziert wird. Eine Hilfsfunktion wird verwendet, um dieses Bild in einen Base64-String zu konvertieren, wodurch es zusammen mit dem Text in der Anfrage übergeben werden kann.
1
Schritt 1
Erstellen Sie eine neue Python-Datei und kopieren Sie den unten stehenden Code.
Dieses Beispiel verwendet das Modell Llama-4-Maverick-17B-128E-Instruct.
2
Schritt 2
Verwenden Sie Ihren Infercom API-Schlüssel und die Basis-URL von der Seite API-Schlüssel und URLs, um die String-Felder
"ihr-infercom-api-schluessel" und "ihre-infercom-basis-url" in der Konstruktion des Clients zu ersetzen.3
Schritt 3
Wählen Sie ein Bild aus und verschieben Sie es zu einem geeigneten Pfad, den Sie in den Zeilen angeben können.
4
Schritt 4
Überprüfen Sie den Prompt, der mit dem Bild im
content-Teil des user-Prompts gepaart werden soll.5
Schritt 5
Führen Sie die Python-Datei aus, um die Textausgabe zu erhalten.