Home / Blog / VALL-E kan iedereens stem nadoen, met behoud van emotie

VALL-E kan iedereens stem nadoen, met behoud van emotie

LATER LEZEN

Computers kunnen al heel lang praten: al in de jaren 80 kon je PCs ingegeven tekst laten uitspreken. Dat gebeurde dan altijd met een typische machinestem, zonder intonatie en – daardoor – zonder enige emotie. Microsoft lanceert nu een tool waarmee je tekst naar spraak kunt omzetten, maar dan met gevoel. Bovendien kan je de tool dat laten doen met iedereens stem: het enige dat je nodig hebt is een drie seconde-opname van die stem.

VALL-E is getraind op 60.000 uur Engelse spraak, wat veel meer is dan bestaande tekst-naar-spraak modellen. Daarnaast is de productietijd sneller dan bestaande modellen: om die niet te laten klinken als mijn computer uit de jaren 80 was meer werk nodig.

Je kunt hier naar voorbeelden luisteren. De vergelijking tussen de speaker prompt en wat VALL-E kan is inderdaad opmerkelijk. Met deze technologie zou ik dus zowaar Shakespeare kunnen voordragen alsof het niets is, door alleen een klein stukje van mijn stem in te brengen, naast de tekst natuurlijk. Wellicht wat enger: met ChatGPT kan iemand een tekst produceren die VALL-E vervolgens uitspreekt met mijn stem. (Luister in dat kader naar deze aflevering van Onder Mediadoctoren, waarin we reflecteren op de gevolgen van ChatGPT.)

DEEL DIT BERICHT