Hoe KI rekenaarspraak meer natuurlik kan maak

INHOUDSOPGAWE:

Hoe KI rekenaarspraak meer natuurlik kan maak
Hoe KI rekenaarspraak meer natuurlik kan maak
Anonim

Sleutel wegneemetes

  • Maatskappye jaag om maniere te vind om rekenaargegenereerde spraak meer realisties te laat klink.
  • NVIDIA het onlangs nutsgoed onthul wat die klank van natuurlike spraak kan vasvang deur jou 'n KI met jou eie stem te laat oplei.
  • Intonasie, emosie en musikaliteit is die kenmerke wat rekenaarstemme steeds kort, sê een kenner.
Image
Image

Rekenaar-gegenereerde spraak klink dalk binnekort baie meer menslik.

Rekenaaronderdele-vervaardiger NVIDIA het onlangs gereedskap onthul wat die klank van natuurlike spraak kan vasvang deur jou 'n KI met jou stem te laat oplei. Die sagteware kan ook een spreker se woorde lewer deur 'n ander persoon se stem te gebruik. Dit is deel van 'n groeiende druk om rekenaarspraak meer realisties te maak.

"Gevorderde stem-KI-tegnologie stel gebruikers in staat om natuurlik te praat, en kombineer baie navrae in 'n enkele sin en elimineer die behoefte om besonderhede van die oorspronklike navraag voortdurend te herhaal," Michael Zagorsek, die bedryfshoof van die spraakherkenningsmaatskappy SoundHound, het in 'n e-posonderhoud aan Lifewire gesê.

"Die byvoeging van veelvuldige tale, nou beskikbaar op die meeste stem-KI-platforms, maak digitale stemassistente toeganklik in meer geografiese gebiede en vir meer bevolkings," het hy bygevoeg.

Robospeech Rising

Amazon se Alexa en Apple se Siri klink baie beter as rekenaarspraak van selfs 'n dekade gelede, maar hulle sal nie binnekort verwar word met outentieke menslike stemme nie.

Om kunsmatige spraak natuurliker te laat klink, het NVIDIA se teks-na-spraak-navorsingspan 'n RAD-TTS-model ontwikkel. Die stelsel stel individue in staat om 'n teks-na-spraak-model (TTS) met hul stem te onderrig, insluitend die tempo, tonaliteit, timbre en ander faktore.

Die maatskappy het sy nuwe model gebruik om meer gesprekklinkende stemvertelling vir sy I Am AI-videoreeks te bou.

Met hierdie koppelvlak kon ons videovervaardiger homself opneem terwyl hy die videodraaiboek lees en dan die KI-model gebruik om sy toespraak in die vroulike verteller se stem om te skakel. Deur hierdie basislynvertelling te gebruik, kan die vervaardiger dan die KI soos 'n stemakteur wat die gesintetiseerde spraak aanpas om spesifieke woorde te beklemtoon en die tempo van die vertelling te verander om die video se toon beter uit te druk,” het NVIDIA op sy webwerf geskryf.

Harder Than Dit Klink

Om rekenaargegenereerde spraak natuurlik te laat klink, is 'n moeilike probleem, sê kenners.

"Jy moet honderde ure van iemand se stem opneem om 'n rekenaarweergawe daarvan te skep," het Nazim Ragimov, die uitvoerende hoof van die teks-na-spraak-sagtewaremaatskappy Kukarella, in 'n e-posonderhoud aan Lifewire gesê. “En die opname moet van hoë geh alte wees, opgeneem in’n professionele ateljee. Hoe meer ure se kwaliteit spraak gelaai en verwerk word, hoe beter is die resultaat."

Teks-na-spraak kan in speletjies gebruik word, om individue met vokale gestremdhede te help, of om gebruikers te help om tussen tale in hul eie stem te vertaal.

Intonasie, emosie en musikaliteit is die kenmerke wat rekenaarstemme steeds kort, het Ragimov gesê.

As KI hierdie ontbrekende skakels kan byvoeg, sal rekenaargegenereerde spraak "ononderskeibaar wees van die stemme van regte akteurs," het hy bygevoeg. "Dit is 'n werk aan die gang. Ander stemme sal met radiogashere kan meeding. Binnekort sal jy stemme sien wat oudioboeke kan sing en lees."

Spraaktegnologie word al hoe gewilder in 'n wye reeks besighede.

"Die motorbedryf het onlangs stem-KI aangeneem as 'n manier om veiliger en meer gekoppelde ry-ervarings te skep," het Zagorsek gesê.

"Sedertdien het stemassistente al hoe meer alomteenwoordig geword, aangesien handelsmerke maniere soek om klante-ervarings te verbeter en te voldoen aan die vraag na makliker, veiliger, geriefliker, doeltreffender en higiëniese metodes om met hul produkte en dienste te kommunikeer."

Stem-KI skakel tipies navrae om na antwoorde in 'n tweestap-proses wat begin deur spraak na teks oor te skryf deur outomatiese spraakherkenning (ASR) te gebruik en dan daardie teks in 'n natuurlike taalverstaan-model (NLU) in te voer.

Image
Image

SoundHound se benadering kombineer hierdie twee stappe in een proses om spraak intyds na te spoor. Die maatskappy beweer hierdie tegniek laat stemassistente toe om die betekenis van gebruikernavrae te verstaan, selfs voordat die persoon klaar gepraat het.

Toekomstige vooruitgang in rekenaarspraak, insluitend die beskikbaarheid van 'n verskeidenheid verbindingsopsies van slegs ingebed (geen wolkverbinding nodig nie) tot hibriede (ingeboude plus wolk) en slegs wolk "sal meer keuse gee aan maatskappye oor industrieë heen in terme van koste, privaatheid en beskikbaarheid van verwerkingskrag," het Zagoresk gesê.

NVIDIA het gesê dat sy nuus-KI-modelle verder gaan as voiceover-werk.

"Teks-na-spraak kan in speletjies gebruik word, om individue met vokale gestremdhede te help, of om gebruikers te help om tussen tale in hul eie stem te vertaal," het die maatskappy geskryf. "Dit kan selfs die vertonings van ikoniese sangers herskep, wat nie net die melodie van 'n liedjie pas nie, maar ook die emosionele uitdrukking agter die koor."

Aanbeveel: