Whisper-Large-v3
- Modell: Whisper-Large-v3
- Beschreibung: Hochmodernes automatisches Spracherkennungs- (ASR) und Übersetzungsmodell. Entwickelt von OpenAI und trainiert auf über 5 Millionen Stunden gelabeltem Audio. Hervorragend geeignet für mehrsprachige und Zero-Shot-Sprachaufgaben in verschiedenen Bereichen.
- Modell-ID:
Whisper-Large-v3 - Unterstützte Sprachen: Mehrsprachig
Kernfähigkeiten
- Transkribiert und übersetzt erweiterte Audio-Eingaben (bis zu 25 MB).
- Zeigt hohe Genauigkeit bei Spracherkennungs- und Übersetzungsaufgaben.
- Bietet OpenAI-kompatible Endpunkte für Transkriptionen und Übersetzungen.
Anfrageparameter
| Parameter | Typ | Beschreibung | Standard | Endpunkte |
|---|---|---|---|---|
model | String | Die ID des zu verwendenden Modells. | Erforderlich | transcriptions, translations |
file | File | Audiodatei im Format FLAC, MP3, MP4, MPEG, MPGA, M4A, Ogg, WAV oder WebM. Dateigrößenlimit: 25 MB. | Erforderlich | transcriptions, translations |
prompt | String | Prompt zur Beeinflussung des Transkriptionsstils oder Vokabulars. Beispiel: “Bitte transkribieren Sie sorgfältig, einschließlich Pausen und Zögern.” | Optional | transcriptions, translations |
response_format | String | Ausgabeformat: entweder json oder text. | json | transcriptions, translations |
language | String | Die Sprache der Audio-Eingabe. Die Verwendung des ISO-639-1-Formats (z.B. en) verbessert Genauigkeit und Latenz. | Optional | transcriptions, translations |
stream | Boolean | Aktiviert Streaming-Antworten. | false | transcriptions, translations |
stream_options | Object | Zusätzliche Streaming-Konfiguration (z.B. {"include_usage": true}). | Optional | transcriptions, translations |