Sleutel wegneemetes
- DeepZen gebruik KI (kunsmatige intelligensie) om verbasend realistiese oudioboeke uit teks te skep.
- Die tegnologie gebruik regte menslike stemakteurs om die boustene te verskaf.
- Amazon en Audible aanvaar tans nie rekenaargegenereerde oudioboeke nie.
DeepZen is 'n maatskappy wat rekenaarstemme skep wat in oudioboeke gebruik word, gebaseer op die regte stemme van menslike akteurs. Die kwaliteit is skrikwekkend-maklik goed genoeg om vir ure op 'n slag na te luister. Die foefie hier is die KI (kunsmatige intelligensie)-komponent, wat die teks kan lees en die korrekte emosionele reaksie op grond van konteks kan aflei. Dit plaas dan daardie emosie in die stem.
Dit is indrukwekkend en baie gerieflik. Maar wil ons regtig 'n gehomogeniseerde oudioboek-ervaring hê? En wat van daardie stemakteurs?
"Vanuit die indie-uitgewer se perspektief is enigiets wat die koste van oudioboekproduksie verminder baie interessant," het Rick Carlile, eienaar van die onafhanklike uitgewer Carlile Media, per e-pos aan Lifewire gesê.
"Maar daardie aantrekkingskrag veronderstel dat die produk van dieselfde geh alte as tradisionele vertelling sal wees. Ek dink nie ons is nog honderd persent daar nie. Moet my nie verkeerd verstaan nie, DeepZen is verstommend goed. Dit is 'n geweldige deurbraak, en die skeppers daarvan verdien geweldige lof en sukses. Maar dit is nog nie perfek nie."
Oudio Dis 'Goed Genoeg'
Die beste manier om die kwaliteit van DeepZen te verstaan, is om na die voorbeelde te luister. As jy nie geweet het hulle is rekenaargegenereer nie, sal jy dalk nie eers besef nie. In elk geval nie vir 'n rukkie nie. Kom ons neem aan dat DeepZen se KI perfek is en dat dit nooit die emosionele note wat dit veronderstel is om te slaan verkeerd interpreteer nie.
Selfs dan kan 'n mens meer genuanseerde en dikwels meer verrassende interpretasies bied.’n Akteur kan dalk’n onverwagse kinkel op die woorde plaas wat’n rekenaar nooit eers sal oorweeg nie. En in werklikheid is die KI-vertolking sekerlik nog nie so goed soos dié van 'n professionele stemakteur nie.
"As een wat aan flieks werk en mees onlangs in die wêreld van klankvertelling, terwyl ek beïndruk is met die KI-ek weet vir 'n feit dat daar diep dieptes van betekenis is wat 'n masjien nie kan interpreteer nie," professionele stem het die akteur Paul Cram per e-pos aan Lifewire gesê.
"Sal daar 'n oplewing wees van onbekende skrywers wat dit gebruik? Ek waarborg dat dit sal wees omdat dit 'goed genoeg' is."
Om goed genoeg te wees, gekombineer met die gerief en kostebesparings, kan genoeg wees om onafhanklike uitgewers na die diens te dryf.
"Oudioboeke kan tot $500 per voltooide uur se oudio kos (baie meer vir 'n bekende stem), en dit sluit nie die tydkoste van bestuur en admin in nie," sê Carlile. "Om daardie koste te halveer deur bloot 'n manuskrip na 'n verskaffer soos DeepZen op te laai, is uiters aantreklik."
Praatprobleme
Dit is nog nie heeltemal so maklik soos om jou stemakteurs af te dank en manuskripte na DeepZen op te laai nie. Daar is tans een hindernis vir maklike oudioboek-KI-spraak, en dit is van Amazon.
"Tans sal ACX, die self-uitgewer se roete na Audible en Amazon oudioboekverspreiding, nie oudioboeke aanvaar wat 'n mens nie opgeneem het nie," sê Carlile.
Hoekom? Kwaliteit. Hier is die FAQ-inskrywing vanaf die webwerf:
"Teks-na-spraak of ander outomatiese opnames word nie toegelaat nie. Hoorbare luisteraars kies oudioboeke vir die uitvoering van die materiaal, sowel as die storie. Om aan daardie verwagting te voldoen, moet jou oudioboek deur 'n mens opgeneem word."
Dit beteken dat DeepZen-gegenereerde oudioboeke ten minste vir nou uit is. Dit is suiwer spekulasie, maar DeepZen lyk na 'n redelike goeie verkryging vir Amazon, wat dit toelaat om die diens te verkoop en dit uitsluitlik vir Audible-boeke te hou. En selfs al gebeur dit nie, as die kwaliteit van rekenaargegenereerde oudioboeke so goed soos hierdie is, dan lyk daar min rede om nie 'n uitsondering op hierdie reël te maak nie.
Sal jy bly wees om te luister na oudioboeke wat op hierdie manier gemaak is? Wanneer dit gebeur, sal die meeste mense nie eers vermoed nie. Sommige sal dalk die perfeksie van rekenaargegenereerde stemme verkies omdat hulle vry sal wees van die vokale tics en gewoontes wat soms se aandag kan aflei. Die tegnologie is ook geskik vir videospeletjies, TV- en radio-advertensies, en enige ander scenario waar jy 'n stemakteur sal huur.
DeepZen se tegnologie sal ook 'n goeie manier wees om outomaties nuuspoduitsendings van geskrewe artikels te skep, wat handig kan wees vir die pendel.
En wat van daardie stemakteurs? Wel, daar sal ten minste een geleentheid wees: Hulle kan vir DeepZen gaan werk.