Vor etwa einem Jahr habe ich mir die Text-to-Speech Funktion von OpenAI angeschaut. Die Sprachausgabe war damals noch verbesserungswürdig. Mittlerweile hat OpenAI die sogenannte Realtime API veröffentlicht, mit der relative verzögerungsfrei Gespräche in höherer Qualität möglich sind. Sicherlich werden viele Lernanbieter bald auf diese neuen Funktionen aufspringen – spätestens wenn die Preise sinken.
Durch diese neuen Funktionalitäten gibt es nun über einen kleinen Umweg Zugang zu den verbesserten Stimmen. Dies funktioniert über sogenannte Chat-Completions. Das bedeutet, dass kein klassisches Text-To-Speech angeboten wird. Stattdessen reagiert ein spezielles GPT-Modell auf ein Prompt mit Audioausgaben. Instruiert man GPT nun durch ein entsprechendes Systemprompt nur einen bestimmten Text zu sprechen, kann man das Modell auch für einfache Text-to-Speech Anwendungen nutzen.