Text to speech: spraakmakende software

KIJK-redactie

15 februari 2022 15:00

text-to-speech

Waren digitale voorleesstemmen een tijdje geleden nog niet om aan te horen, dankzij text-to-speech-software klinken ze steeds natuurlijker. Al is emotie in een stem leggen of een mop vertellen nog iets te hoog gegrepen voor het systeem.

“Beste reiziger. De sprinter in de richting Zwolle van tien uur zes vertrekt over ongeveer vijf minuten van spoor vier.” Met een paar muisklikken bouwt Richard Bleek in het hoofdkantoor van de Nederlandse Spoorwegen (NS) in Utrecht het omroepbericht op. In een reeks uitvouwmenu’s in het programma TRIP (Trein Reisinformatie & Publicatie) selecteert hij onder andere het type trein, het eindstation, het tijdstip van vertrek en de duur van de vertraging. Tijdens het klikken vult TRIP een tekststramien in. Bleek: “Als ik nu op deze knop druk, wordt de audio die bij deze tekst hoort gegenereerd en kan hij worden afgespeeld op het uitgekozen station.”

De omroepberichten die je op de Nederlandse treinstations hoort, worden al jaren opgebouwd met TRIP. “Met de software zet je als het ware mp3’tjes met woorden en klanken op een rij”, zegt Bleek, hoofd techniek van het omroepteam van de NS. De stem die je sinds 1996 op stations hoort, is van stemactrice Tuffie Vos. “Dat oude systeem werkte op zich prima, maar was inflexibel. Telkens wanneer we woorden wilden gebruiken die Tuffie nog niet had ingesproken, moesten we haar opnieuw naar de studio laten komen. Dat was bijvoorbeeld het geval toen we overstapten van de aankondiging ‘Dames en heren’ naar ‘Beste reiziger’. En iemand langs laten komen om die paar woordjes in te spreken, is niet heel efficiënt.”

In de zomer van 2021 begon de NS met afscheid nemen van Tuffie. De omroepstem die je sindsdien op kleine stations hoort (en in de loop van 2022 ook op alle grote stations) is nog steeds van een actrice, Karin van As. “Maar anders dan de oude digitale omroepstem kan de nieuwe ook woorden laten horen die Van As nooit zelf heeft uitgesproken”, zegt Martijn van Beek, hoofd van het omroepteam bij de NS. De techniek die de NS daarvoor gebruikt, heet text to speech (TTS), een techniek die we steeds vaker terugvinden in de publieke ruimte.

Dit is het begin van het artikel ‘Goed afgestemd’ te vinden in KIJK 3/2022 waarvan Diederik Jekel gasthoofdredacteur is. De editie ligt in de schappen vanaf 17 februari tot en met 16 maart.

Meer informatie:

Tekst: Nick Kivits

Beeld: WERRY CRONE/HH/ANP

Ben je geïnteresseerd in de wereld van wetenschap & technologie en wil je hier graag meer over lezen? Word dan lid van KIJK!