Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.infercom.ai/llms.txt

Use this file to discover all available pages before exploring further.

Infercom bietet Zugang zu vision-fähigen Modellen auf unserer EU-souveränen Infrastruktur, die es Ihnen ermöglicht, sowohl Text als auch Bilder mit vollständiger Datensouveränität zu verarbeiten. Diese Modelle analysieren Bilder und generieren kontextbewusste Textantworten.

Unterstützte Modelle

ModellKontextRegionHinweise
gemma-3-12b-it8KEUGoogles Gemma 3 12B mit Vision-Fähigkeiten
gemma-3-12b-it läuft auf Infercoms souveräner Infrastruktur in Deutschland. Ihre Bilddaten verlassen niemals die EU.

Eine Anfrage mit einem Bild stellen

Bei Infercom folgt die Vision-Modellanfrage dem multimodalen Eingabeformat von OpenAI, das sowohl Text- als auch Bildeingaben in einer strukturierten Payload akzeptiert. Während der Aufruf ähnlich der Textgenerierung ist, unterscheidet er sich durch die Einbeziehung einer kodierten Bilddatei, die über die Variable image_path referenziert wird. Eine Hilfsfunktion wird verwendet, um dieses Bild in einen Base64-String zu konvertieren, wodurch es zusammen mit dem Text in der Anfrage übergeben werden kann.
1

Schritt 1

Erstellen Sie eine neue Python-Datei und kopieren Sie den unten stehenden Code.
Dieses Beispiel verwendet gemma-3-12b-it, Googles vision-fähiges Gemma 3-Modell, gehostet auf Infercoms EU-souveräner Infrastruktur.
from sambanova import SambaNova
import base64

client = SambaNova(
    base_url="https://api.infercom.ai/v1",
    api_key="ihr-infercom-api-schluessel",
)

# Hilfsfunktion zum Kodieren des Bildes
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Der Pfad zu Ihrem Bild
image_path = "beispiel.JPEG"

# Der Base64-String des Bildes
image_base64 = encode_image(image_path)

print(image_base64)

response = client.chat.completions.create(
    model="gemma-3-12b-it",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Was passiert in diesem Bild?"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        }
    ]
)

print(response.choices[0].message.content)
2

Schritt 2

Verwenden Sie Ihren Infercom API-Schlüssel von der Seite API-Schlüssel und URLs, um den Platzhalter "ihr-infercom-api-schluessel" in der Konstruktion des Clients zu ersetzen.
3

Schritt 3

Wählen Sie ein Bild aus und verschieben Sie es zu einem geeigneten Pfad, den Sie in den Zeilen angeben können.
# Der Pfad zu Ihrem Bild
image_path = "beispiel.JPEG"
4

Schritt 4

Überprüfen Sie den Prompt, der mit dem Bild im content-Teil des user-Prompts gepaart werden soll.
5

Schritt 5

Führen Sie die Python-Datei aus, um die Textausgabe zu erhalten.