Leitfaden für Vision und Multimodalität

Infercom Vision-Modelle unterstützen multimodale Eingaben, die es Benutzern ermöglichen, sowohl Text als auch Bilder zu verarbeiten. Diese Modelle analysieren Bilder und generieren kontextbewusste Textantworten. Erfahren Sie, wie Sie Infercom Vision-Modelle entweder mit dem Infercom oder OpenAI Python-Client abfragen.

Eine Anfrage mit einem Bild stellen

Bei Infercom folgt die Vision-Modellanfrage dem multimodalen Eingabeformat von OpenAI, das sowohl Text- als auch Bildeingaben in einer strukturierten Payload akzeptiert. Während der Aufruf ähnlich der Textgenerierung ist, unterscheidet er sich durch die Einbeziehung einer kodierten Bilddatei, die über die Variable image_path referenziert wird. Eine Hilfsfunktion wird verwendet, um dieses Bild in einen Base64-String zu konvertieren, wodurch es zusammen mit dem Text in der Anfrage übergeben werden kann.

Schritt 1

Erstellen Sie eine neue Python-Datei und kopieren Sie den unten stehenden Code.

Dieses Beispiel verwendet das Modell Llama-4-Maverick-17B-128E-Instruct.

from sambanova import SambaNova
import base64

client = SambaNova(
    base_url="ihre-infercom-basis-url",
    api_key="ihr-infercom-api-schluessel",
)

# Hilfsfunktion zum Kodieren des Bildes
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Der Pfad zu Ihrem Bild
image_path = "beispiel.JPEG"

# Der Base64-String des Bildes
image_base64 = encode_image(image_path)

print(image_base64)

response = client.chat.completions.create(
    model="Llama-4-Maverick-17B-128E-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Was passiert in diesem Bild?"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        }
    ]
)

print(response.choices[0].message.content)

Schritt 2

Verwenden Sie Ihren Infercom API-Schlüssel und die Basis-URL von der Seite API-Schlüssel und URLs, um die String-Felder "ihr-infercom-api-schluessel" und "ihre-infercom-basis-url" in der Konstruktion des Clients zu ersetzen.

Schritt 3

Wählen Sie ein Bild aus und verschieben Sie es zu einem geeigneten Pfad, den Sie in den Zeilen angeben können.

# Der Pfad zu Ihrem Bild
image_path = "beispiel.JPEG"

Schritt 4

Überprüfen Sie den Prompt, der mit dem Bild im content-Teil des user-Prompts gepaart werden soll.

Schritt 5

Führen Sie die Python-Datei aus, um die Textausgabe zu erhalten.

Erste Schritte

Modelle

Funktionen

Entwickeln

Ressourcen

Vision- und Multimodalitätsfunktionen implementieren - Entwicklerhandbuch

Eine Anfrage mit einem Bild stellen

Erste Schritte

Modelle

Funktionen

Entwickeln

Ressourcen

​Eine Anfrage mit einem Bild stellen

Eine Anfrage mit einem Bild stellen