Zum Hauptinhalt springen
Für Entwickler, die Audio-Unterstützung benötigen, bietet Infercom das Whisper large-v3 Modell von OpenAI, das Echtzeit-Transkriptionen und Übersetzungen ermöglicht.

Whisper-Large-v3

  • Modell: Whisper-Large-v3
  • Beschreibung: Hochmodernes automatisches Spracherkennungs- (ASR) und Übersetzungsmodell. Entwickelt von OpenAI und trainiert auf über 5 Millionen Stunden gelabeltem Audio. Hervorragend geeignet für mehrsprachige und Zero-Shot-Sprachaufgaben in verschiedenen Bereichen.
  • Modell-ID: Whisper-Large-v3
  • Unterstützte Sprachen: Mehrsprachig

Kernfähigkeiten

  • Transkribiert und übersetzt erweiterte Audio-Eingaben (bis zu 25 MB).
  • Zeigt hohe Genauigkeit bei Spracherkennungs- und Übersetzungsaufgaben.
  • Bietet OpenAI-kompatible Endpunkte für Transkriptionen und Übersetzungen.

Anfrageparameter

ParameterTypBeschreibungStandardEndpunkte
modelStringDie ID des zu verwendenden Modells.Erforderlichtranscriptions, translations
fileFileAudiodatei im Format FLAC, MP3, MP4, MPEG, MPGA, M4A, Ogg, WAV oder WebM. Dateigrößenlimit: 25 MB.Erforderlichtranscriptions, translations
promptStringPrompt zur Beeinflussung des Transkriptionsstils oder Vokabulars. Beispiel: “Bitte transkribieren Sie sorgfältig, einschließlich Pausen und Zögern.”Optionaltranscriptions, translations
response_formatStringAusgabeformat: entweder json oder text.jsontranscriptions, translations
languageStringDie Sprache der Audio-Eingabe. Die Verwendung des ISO-639-1-Formats (z.B. en) verbessert Genauigkeit und Latenz.Optionaltranscriptions, translations
streamBooleanAktiviert Streaming-Antworten.falsetranscriptions, translations
stream_optionsObjectZusätzliche Streaming-Konfiguration (z.B. {"include_usage": true}).Optionaltranscriptions, translations

Beispielverwendung

from sambanova import SambaNova
import base64

client = SambaNova(
    base_url="your-sambanova-base-url",
    api_key="your-sambanova-api-key",
)

audio_path="audio_path"
with open(audio_path, "rb") as audio_file: 
   bin_audio = audio_file.read()

response = client.audio.transcriptions.create(
    model="Whisper-Large-v3",
    file=(audio_path,bin_audio),
)
print(str(response))