Reasoning-Modelle auf Infercom
Die folgenden Modelle unterstützen Reasoning. Prüfen Sie immer Unterstützte Modelle für aktuelle Verfügbarkeit und Regionen.| Modell-ID | Region | Wie Reasoning gesteuert wird |
|---|---|---|
MiniMax-M2.7 | EU | Standardmäßig aktiviert |
MiniMax-M2.5 | EU | Standardmäßig aktiviert |
gpt-oss-120b | EU | reasoning_effort (low, medium, high) |
gemma-4-31B-it | EU | chat_template_kwargs: {"enable_thinking": true} |
DeepSeek-V3.1 | US | Standardmäßig aktiviert |
DeepSeek-V3.2 | US | Standardmäßig aktiviert |
Wie Reasoning in der Antwort erscheint
Reasoning-fähige Modelle geben ihre Gedankenkette in einem dediziertenreasoning-Feld der Nachricht zurück, getrennt von der endgültigen Antwort in content:
reasoning für Transparenz oder Debugging und content für die Antwort, die Sie Nutzern anzeigen.
Fügen Sie bei mehrteiligen Konversationen nur den endgültigen
content des Modells zurück in den Nachrichtenverlauf ein - geben Sie vorheriges reasoning nicht an die nächste Runde weiter.Token-Budget für Reasoning
Dies ist die häufigste Ursache für “leere” oder “fehlerhafte” Antworten von Reasoning-Modellen. Da die Gedankenkette zuerst generiert wird und auf Ihr Token-Limit angerechnet wird, wird ein niedrigermax_tokens-Wert vom Reasoning aufgebraucht, bevor eine Antwort erzeugt wird.
Als Faustregel gilt: Planen Sie je nach Aufgabenkomplexität einige Hundert bis einige Tausend Tokens Spielraum über die erwartete Antwortlänge hinaus ein. Bei schwierigen Mathematik-, Programmier- oder Planungsaufgaben kann das Reasoning lang sein - budgetieren Sie entsprechend.
Reasoning steuern
Modelle mit reasoning_effort
gpt-oss-120b akzeptiert einen reasoning_effort-Parameter (low, medium, high), der Latenz und Token-Verbrauch gegen Antwortqualität abwägt.
Modelle mit konfigurierbarem Thinking (enable_thinking)
gemma-4-31B-it verfügt über einen konfigurierbaren Thinking-Modus, den Sie über chat_template_kwargs ein- oder ausschalten. Setzen Sie enable_thinking auf true, damit das Modell vor der Antwort nachdenkt, oder auf false für eine direkte Antwort.
Übergeben Sie beim OpenAI Python SDK nicht-standardmäßige Parameter wie
chat_template_kwargs innerhalb von extra_body, wie oben gezeigt. Beim direkten Aufruf der API (cURL) fügen Sie chat_template_kwargs auf der obersten Ebene des Anfrage-Bodys ein.Modelle, die standardmäßig reasonen
MiniMax-M2.7, MiniMax-M2.5 und die DeepSeek-Modelle reasonen standardmäßig - es ist kein zusätzlicher Parameter erforderlich. Senden Sie einfach Ihre Anfrage und lesen Sie die Felder reasoning und content aus der Antwort.
Fehlerbehebung: leere oder abgeschnittene Antworten
Wenn ein Reasoning-Modell ein leerescontent, eine mitten im Satz abgebrochene Antwort oder scheinbar rohes Thinking in der Ausgabe zurückgibt, liegt die Ursache fast immer an einem unzureichenden Token-Budget - nicht an einem Modellfehler.
finish_reason prüfen
Sehen Sie sich
choices[0].finish_reason in der Antwort an. Der Wert "length" bedeutet, dass das Modell Ihr max_tokens-Limit erreicht hat, bevor es fertig war. "stop" bedeutet, dass es normal abgeschlossen wurde.max_tokens erhöhen
Wenn
finish_reason "length" ist, erhöhen Sie max_tokens (bzw. max_completion_tokens) und wiederholen Sie die Anfrage. Geben Sie dem Modell genügend Raum sowohl für das Reasoning als auch für die endgültige Antwort.max_tokens verursacht):
| Symptom | Was Sie sehen | Lösung |
|---|---|---|
| Leere Antwort | content ist null oder leer, finish_reason ist "length" | max_tokens erhöhen |
| Abgeschnittene Antwort | content bricht mitten im Satz ab, finish_reason ist "length" | max_tokens erhöhen |
Reasoning gelangt in content | Eine teilweise Gedankenkette erscheint in content, weil sie abgeschnitten wurde, bevor das Modell die End-of-Thinking-Markierung ausgegeben hat | max_tokens erhöhen |
Prompting von Reasoning-Modellen
- Halten Sie System-Prompts minimal. Übermäßige Anweisungen können den Reasoning-Spielraum des Modells einschränken und die Qualität verringern.
- Verzichten Sie auf eigenes “Denke Schritt für Schritt”-Chain-of-Thought-Prompting - das Modell reasont bereits intern. Verwenden Sie klare Zero-Shot- oder Einzelanweisungs-Prompts.
- Für allgemeines (nicht-mathematisches) Reasoning funktionieren
temperatureum 0,6 undtop_pum 0,95 gut. Für mathematisches Reasoning versuchen Sietemperature0,7 undtop_p1,0. Senken Sie die Temperatur, wenn Sie sachlichere, deterministischere Ausgaben wünschen.
Anwendungsfälle
Berichterstellung
Reasoning-Modelle eignen sich gut zur Verarbeitung unstrukturierter Informationen - Rechtsverträge, Finanzberichte oder wissenschaftliche Arbeiten - und erkennen Muster über mehrere Facetten der Eingabe hinweg, bevor sie diese zu einer umfassenden Zusammenfassung verdichten.Planung für Workflows und Agenten
Reasoning-Modelle sind hervorragend für mehrdeutige, komplexe Aufgaben geeignet. Sie können komplizierte Probleme zerlegen, Lösungen strategisch planen und Entscheidungen über große Mengen unsicherer Informationen treffen - was sie zu effektiven Planern und Orchestratoren in agentenbasierten Systemen macht.Programmierung und Mathematik
Diese Modelle sind effektiv beim Überprüfen und Verbessern von Code, beim Erkennen subtiler Probleme, die bei flüchtigem Lesen übersehen werden, und beim Zerlegen von Mathematikaufgaben in überprüfbare Schritte.Best Practices
Tokens für Reasoning budgetieren
Tokens für Reasoning budgetieren
Reasoning wird auf
max_tokens angerechnet. Setzen Sie das Limit hoch genug für sowohl die Gedankenkette als auch die endgültige Antwort. Wenn Antworten leer oder abgeschnitten zurückkommen, prüfen Sie finish_reason - der Wert "length" bedeutet, dass Sie max_tokens erhöhen müssen.Latenz und Kosten
Latenz und Kosten
Reasoning-Ausgaben haben aufgrund des Chain-of-Thought-Prozesses eine höhere Latenz und einen höheren Token-Verbrauch. Erwägen Sie für einfachere Aufgaben ein Nicht-Reasoning-Modell (oder deaktivieren Sie Thinking, sofern das Modell dies unterstützt), um Budget und Antwortzeit zu optimieren.
Streaming
Streaming
Das Aktivieren von Streaming verbessert die wahrgenommene Reaktionsfähigkeit, da Reasoning-Modelle länger für eine vollständige Antwort benötigen. Fügen Sie
stream=True zu Ihrer Anfrage hinzu, um Tokens anzuzeigen, sobald sie verfügbar sind.FAQs
Mein Reasoning-Modell gibt eine leere oder abgeschnittene Antwort zurück. Warum?
Mein Reasoning-Modell gibt eine leere oder abgeschnittene Antwort zurück. Warum?
Das liegt fast immer daran, dass
max_tokens zu niedrig gesetzt ist. Das Reasoning des Modells wird auf dieses Limit angerechnet, sodass ein kleines Budget von der Gedankenkette aufgebraucht wird, bevor eine Antwort erzeugt wird. Prüfen Sie finish_reason - ist der Wert "length", erhöhen Sie max_tokens und wiederholen Sie die Anfrage.Was ist der Unterschied zwischen reasoning_effort und enable_thinking?
Was ist der Unterschied zwischen reasoning_effort und enable_thinking?
Es sind zwei verschiedene Steuerungen für zwei verschiedene Modelle.
gpt-oss-120b verwendet reasoning_effort (low/medium/high), um zu steuern, wie viel es reasont. gemma-4-31B-it verwendet chat_template_kwargs: {"enable_thinking": true/false}, um Reasoning ein- oder auszuschalten. Das Setzen von reasoning_effort bei einem Modell, das es nicht unterstützt, hat keine Wirkung.Ich habe einen 400-Fehler zur maximalen Kontextlänge erhalten. Wo kann ich das Limit prüfen?
Ich habe einen 400-Fehler zur maximalen Kontextlänge erhalten. Wo kann ich das Limit prüfen?
Siehe die Seite Unterstützte Modelle für die Kontextlänge jedes Modells.
Wo werden diese Modelle gehostet?
Wo werden diese Modelle gehostet?
Mit EU gekennzeichnete Modelle laufen in Infercoms EU-Rechenzentren in Deutschland mit vollständiger Datensouveränität. Prüfen Sie die Seite Unterstützte Modelle, um die Region jedes Modells zu verifizieren.