Voor velen kwam de introductie van VoiceAI via de Netflix serie 'The Andy Warhol Diaries'. Deze zesdelige serie geeft een unieke persoonlijke kijk op een van de meest innovatieve kunstenaars van de 20e eeuw. Wat misschien wel het meest fascinerend is, is dat je Warhols eigen stem hoort. Regisseur Andrew Rossi kreeg expliciete toestemming van de Andy Warhol Foundation om een door AI gegenereerde versie van Warhols stem te creëren met behulp van een techniek die bekendstaat als speech-to-speech synthesis. In dit proces worden twee stemmen samengevoegd: één is een AI-stem, getraind op archiefopnamen van Warhol, en de ander een stemacteur die de vocale cadans van Warhol en zijn native Pittsburgh-accent nabootst.
Het resultaat: een fantastisch voorbeeld van VoiceAI speech-to-speech technologie. Door zijn eigen stem te gebruiken, vergroten we de beleving enorm, je wordt meer meegenomen in het verhaal. Het is immers niemand minder dan Andy ‘zelf’ die zijn eigen dagboeken voorleest en dat maakt het toch een stuk persoonlijker, meer kwetsbaar en echt. Slechts 3 jaar geleden was dit helemaal geen optie geweest.
Van stotterende peuter tot stemacrobaat
Met de ontwikkeling van kunstmatige intelligentie- en machine learning-tools, nemen ook het realisme en de efficiëntie van ‘synthetische media’ toe. Velen zijn al bekend met deepfakes, waarbij menselijke gezichten met enigszins onheilspellende maar toch geloofwaardig realisme worden gefabriceerd (zoals bijvoorbeeld 'I'm not Morgan Freeman' op YouTube of recentelijk OpenAI's DALL-E, waarmee je indrukwekkende kunstwerken kunt genereren op basis van tekst-prompts). Het is soms zo geloofwaardig, dat het lastig te bevatten is dat je naar AI kunst kijkt.
Ik kwam een paar jaar geleden voor het eerst in contact met voice synthesis technologie nadat Ambassadors Lab, ons in-house innovatieteam onderzoek ging doen naar de mogelijke voordelen van machine learning binnen reclame & contentproductie. AI-stemmen grepen meteen mijn interesse. Zouden we AI kunnen inzetten om realistische stemmen te produceren? Zou het meerdere talen kunnen leren spreken? Zou het specifieke karakteristieken kunnen leren, zoals een diepe mannenstem of een heldere vrouwenstem? Zou het ooit zo geloofwaardig zijn dat het échte emoties kan oproepen?
Tot voor kort zou het antwoord ‘misschien’ zijn geweest. Echter, door middel van snel ontwikkelende technologie, zijn wij (en onze industrie) nu in staat om stemmen te creëren die ongelooflijk echt klinken. De AI kan tekst als input ontvangen (text-to-speech), het kan de emotionele output van de stem aanpassen en via speech-to-speech kunnen we het exacte tempo, metrum en de intonatie van een stem dupliceren en vervolgens transformeren naar de kleur en het timbre van een compleet andere stem.
De kwaliteit van dit soort AI stemmen overtreft veruit die van Siri, Alexa en de bekende text-to-speech AI-stemmen die je op TikTok hoort. We hebben nu de tools om overtuigende resultaten met ongekende snelheid en creatieve precisie te produceren. Dit is ook zeker nodig als we AI-stemmen serieus willen gaan nemen in de creatieve industrie.
Geef creativiteit een eigen stem
VR doorbrak een barrière bij het versterken van empathie en beleving in digitale ruimtes, terwijl ontwikkelingen in VFX hyperrealistische CG-animaties tot stand hebben gebracht. Ik zie een vergelijkbare rol voor AI-stemmen als ijzersterk creatief hulpmiddel.
’Spraaksynthese’ heeft inmiddels zijn plek gevonden in Hollywood. Naast het reproduceren van stemmen van mensen die niet meer in leven zijn (zoals in het geval van Warhol), wordt het ook ingezet voor indrukwekkende replica’s van levende acteurs. Voor acteur James Earl Jones, de iconische stemacteur van Darth Vader, betekende dit dat hij, op 91-jarige leeftijd, eindelijk met pensioen kon en toch het personage Darth Vader kon laten voortleven in toekomstige 'Star Wars'-media. Voor Val Kilmer, die zijn natuurlijke spreekstem verloor als gevolg van keelkanker, betekende dit dat hij zijn originele stem terug kreeg voor zijn rol in 'Top Gun: Maverick'.
Er is veel potentieel voor 'spraaksynthese' in de reclame-industrie. Tot nu toe worden AI-stemmen meestal gecombineerd met AI-gezichten waar het campagne-idee om een deepfake draait. Denk aan de Cannes Lions for Good Grand Prix van 2021, die ging naar een campagne waarin de vermoorde journalist Javier Valdez Cardenas weer tot leven werd gebracht in video's om de Mexicaanse president rechtstreeks aan te spreken, gerechtigheid te eisen, en vrijheid van meningsuiting te eisen voor iedereen.
AI-stemmen hoeven niet de ster van de show te zijn, zoals Warhols stem dat wel is in de documentaireserie. In plaats daarvan kan spraaksynthese een ondersteunende rol spelen die onvermoeibaar op de achtergrond werkt om marketing workflows sneller, eenvoudiger en slimmer te maken, en zo betere resultaten te behalen. Template-based Creative Automation oplossingen stellen merken in staat honderden versies van videocontent te genereren voor hun verschillende markten en kanalen. Met de toevoeging van AI-stemmen om bijvoorbeeld met een merkstem voice-overs in meerdere talen uit te rollen, zonder deze allemaal los op te hoeven nemen, kunnen marketeers hun creatieve uitingen meer impact en consistentie geven, waardoor visuele inhoud letterlijk luider spreekt.
Extra flexibiliteit bevordert ook meer creativiteit: er ontstaat meer ruimte voor experimentatie en iteratie. Voor merken die prestatiegericht met hun content bezig zijn kan dit een game changer zijn.
En nu?
Het creatieve potentieel voor AI-stemmen is eindeloos. En de technologie ontwikkelt zich in een razendsnel tempo. Tegelijkertijd moeten we waakzaam zijn voor de ethische aspecten rondom deze technologie; misbruik moet te allen tijde voorkomen worden. Mits we hier als producenten goed rekening mee houden, kunnen AI-stemmen veel betekenen voor de reclame-industrie: superefficiënte, zeer geloofwaardige storytelling.
Lees ook Ambassadors over AI: de balans tussen innovatie, ethiek en verantwoordelijkheid
Plaats als eerste een reactie
Ook een reactie plaatsen? Word lid van Adformatie!