Implementierungsleitfaden für Audio-Eingabe

Für Entwickler, die Audio-Unterstützung benötigen, bietet Infercom das Whisper large-v3 Modell von OpenAI, das Echtzeit-Transkriptionen und Übersetzungen ermöglicht.

Whisper-Large-v3

Modell: Whisper-Large-v3
Beschreibung: Hochmodernes automatisches Spracherkennungs- (ASR) und Übersetzungsmodell. Entwickelt von OpenAI und trainiert auf über 5 Millionen Stunden gelabeltem Audio. Hervorragend geeignet für mehrsprachige und Zero-Shot-Sprachaufgaben in verschiedenen Bereichen.
Modell-ID: Whisper-Large-v3
Unterstützte Sprachen: Mehrsprachig

Kernfähigkeiten

Transkribiert und übersetzt erweiterte Audio-Eingaben (bis zu 25 MB).
Zeigt hohe Genauigkeit bei Spracherkennungs- und Übersetzungsaufgaben.
Bietet OpenAI-kompatible Endpunkte für Transkriptionen und Übersetzungen.

Anfrageparameter

Parameter	Typ	Beschreibung	Standard	Endpunkte
`model`	String	Die ID des zu verwendenden Modells.	Erforderlich	`transcriptions`, `translations`
`file`	File	Audiodatei im Format FLAC, MP3, MP4, MPEG, MPGA, M4A, Ogg, WAV oder WebM. Dateigrößenlimit: 25 MB.	Erforderlich	`transcriptions`, `translations`
`prompt`	String	Prompt zur Beeinflussung des Transkriptionsstils oder Vokabulars. Beispiel: “Bitte transkribieren Sie sorgfältig, einschließlich Pausen und Zögern.”	Optional	`transcriptions`, `translations`
`response_format`	String	Ausgabeformat: entweder `json` oder `text`.	`json`	`transcriptions`, `translations`
`language`	String	Die Sprache der Audio-Eingabe. Die Verwendung des ISO-639-1-Formats (z.B. `en`) verbessert Genauigkeit und Latenz.	Optional	`transcriptions`, `translations`
`stream`	Boolean	Aktiviert Streaming-Antworten.	`false`	`transcriptions`, `translations`
`stream_options`	Object	Zusätzliche Streaming-Konfiguration (z.B. `{"include_usage": true}`).	Optional	`transcriptions`, `translations`

Beispielverwendung

from sambanova import SambaNova
import base64

client = SambaNova(
    base_url="your-sambanova-base-url",
    api_key="your-sambanova-api-key",
)

audio_path="audio_path"
with open(audio_path, "rb") as audio_file: 
   bin_audio = audio_file.read()

response = client.audio.transcriptions.create(
    model="Whisper-Large-v3",
    file=(audio_path,bin_audio),
)
print(str(response))

Erste Schritte

Modelle

Funktionen

Entwickeln

Ressourcen

Audio-Eingabefunktionen implementieren - Entwicklerhandbuch

Whisper-Large-v3

Kernfähigkeiten

Anfrageparameter

Beispielverwendung

Erste Schritte

Modelle

Funktionen

Entwickeln

Ressourcen

​Whisper-Large-v3

​Kernfähigkeiten

​Anfrageparameter

​Beispielverwendung

Whisper-Large-v3

Kernfähigkeiten

Anfrageparameter

Beispielverwendung