Archiv der Kategorie: Text-to-Speech

Neue OpenAI Sprachmodelle: Verbesserte OpenAI Text-to-Speech Funktionalitäten unter Python genutzt

Vor etwa einem Jahr habe ich mir die Text-to-Speech Funktion von OpenAI angeschaut. Die Sprachausgabe war damals noch verbesserungswürdig. Mittlerweile hat OpenAI die sogenannte Realtime API veröffentlicht, mit der relative verzögerungsfrei Gespräche in höherer Qualität möglich sind. Sicherlich werden viele Lernanbieter bald auf diese neuen Funktionen aufspringen – spätestens wenn die Preise sinken.

Durch diese neuen Funktionalitäten gibt es nun über einen kleinen Umweg Zugang zu den verbesserten Stimmen. Dies funktioniert über sogenannte Chat-Completions. Das bedeutet, dass kein klassisches Text-To-Speech angeboten wird. Stattdessen reagiert ein spezielles GPT-Modell auf ein Prompt mit Audioausgaben. Instruiert man GPT nun durch ein entsprechendes Systemprompt nur einen bestimmten Text zu sprechen, kann man das Modell auch für einfache Text-to-Speech Anwendungen nutzen.

Spezifische Anweisungen zur Sprechweise möglich

Neue OpenAI Sprachmodelle: Verbesserte OpenAI Text-to-Speech Funktionalitäten unter Python genutzt weiterlesen