Infercom bietet Zugang zu vision-fähigen Modellen auf unserer EU-souveränen Infrastruktur, die es Ihnen ermöglicht, sowohl Text als auch Bilder mit vollständiger Datensouveränität zu verarbeiten. Diese Modelle analysieren Bilder und generieren kontextbewusste Textantworten.Documentation Index
Fetch the complete documentation index at: https://docs.infercom.ai/llms.txt
Use this file to discover all available pages before exploring further.
Unterstützte Modelle
| Modell | Kontext | Region | Hinweise |
|---|---|---|---|
gemma-3-12b-it | 8K | EU | Googles Gemma 3 12B mit Vision-Fähigkeiten |
gemma-3-12b-it läuft auf Infercoms souveräner Infrastruktur in Deutschland. Ihre Bilddaten verlassen niemals die EU.Eine Anfrage mit einem Bild stellen
Bei Infercom folgt die Vision-Modellanfrage dem multimodalen Eingabeformat von OpenAI, das sowohl Text- als auch Bildeingaben in einer strukturierten Payload akzeptiert. Während der Aufruf ähnlich der Textgenerierung ist, unterscheidet er sich durch die Einbeziehung einer kodierten Bilddatei, die über die Variableimage_path referenziert wird. Eine Hilfsfunktion wird verwendet, um dieses Bild in einen Base64-String zu konvertieren, wodurch es zusammen mit dem Text in der Anfrage übergeben werden kann.
Schritt 1
Erstellen Sie eine neue Python-Datei und kopieren Sie den unten stehenden Code.
Dieses Beispiel verwendet
gemma-3-12b-it, Googles vision-fähiges Gemma 3-Modell, gehostet auf Infercoms EU-souveräner Infrastruktur.Schritt 2
Verwenden Sie Ihren Infercom API-Schlüssel von der Seite API-Schlüssel und URLs, um den Platzhalter
"ihr-infercom-api-schluessel" in der Konstruktion des Clients zu ersetzen.Schritt 3
Wählen Sie ein Bild aus und verschieben Sie es zu einem geeigneten Pfad, den Sie in den Zeilen angeben können.
Schritt 4
Überprüfen Sie den Prompt, der mit dem Bild im
content-Teil des user-Prompts gepaart werden soll.