Binnekort weet jy dalk nie jy praat met 'n rekenaar nie

INHOUDSOPGAWE:

Binnekort weet jy dalk nie jy praat met 'n rekenaar nie
Binnekort weet jy dalk nie jy praat met 'n rekenaar nie
Anonim

Sleutel wegneemetes

  • Die dag kom vinnig nader wanneer jy nie rekenaargegenereerde spraak van die regte ding sal kan onderskei nie.
  • Google het onlangs LaMDA onthul, 'n model wat meer natuurlike gesprekke kan toelaat.
  • Die vervaardiging van mensagtige spraak verg ook groot hoeveelhede verwerkingskrag.
Image
Image

Op die oomblik is dit maklik om te sien wanneer jy met 'n rekenaar praat, maar dit kan binnekort verander danksy onlangse vooruitgang in KI.

Google het onlangs LaMDA onthul, 'n eksperimentele model wat die maatskappy beweer die vermoë van sy gesprekke-KI-assistente kan bevorder en meer natuurlike gesprekke kan moontlik maak. LaMDA poog om uiteindelik normaalweg oor amper enigiets te praat sonder enige vorm van vooraf opleiding.

Dit is een van 'n groeiende aantal KI-projekte wat jou kan laat wonder of jy met 'n mens praat.

"My skatting is dat gebruikers binne die volgende 12 maande blootgestel sal word aan en gewoond sal raak aan hierdie nuwe, meer emosionele stemme," James Kaplan, die HUB van MeetKai, 'n gesels-KI virtuele stemassistent en soektog. enjin, het in 'n e-posonderhoud gesê.

"Sodra dit gebeur, sal die gesintetiseerde spraak van vandag vir gebruikers klink soos die spraak van die vroeë 2000's vandag vir ons klink."

Stemassistente met karakter

Google se LaMDA is gebou op Transformer, 'n neurale netwerkargitektuur wat deur Google Research uitgevind is. Anders as ander taalmodelle, is Google se LaMDA opgelei in werklike dialoog.

Deel van die uitdaging om KI-spraak te maak wat natuurlik klink, is die oop-einde aard van gesprekke, het Google se Eli Collins in 'n blogpos geskryf.

Image
Image

"'n Geselsie met 'n vriend oor 'n TV-program kan ontwikkel in 'n bespreking oor die land waar die program verfilm is voordat 'n debat oor daardie land se beste streeksgeregte begin word," het hy bygevoeg.

Dinge beweeg vinnig met robotspraak. Eric Rosenblum, 'n besturende vennoot by Tsingyuan Ventures, wat in gespreks-KI belê, het gesê dat sommige van die mees fundamentele probleme in rekenaargesteunde spraak feitlik opgelos word.

Byvoorbeeld, die akkuraatheidsyfer in die verstaan van spraak is reeds uiters hoog in dienste soos transkripsies wat deur die sagteware Otter.ai gedoen word of mediese notas wat deur DeepScribe geneem is.

"Die volgende grens is egter baie moeiliker," het hy bygevoeg.

"Behou begrip van konteks, wat 'n probleem is wat veel verder gaan as natuurlike taalverwerking, en empatie, soos rekenaars wat interaksie met mense het, moet frustrasie, woede, ongeduld, ens. verstaan. Daar word aan albei hierdie kwessies gewerk, maar albei is nogal ver van bevredigend."

Neurale netwerke is die sleutel

Om lewensgetroue stemme te genereer, gebruik maatskappye tegnologie soos diep neurale netwerke, 'n vorm van masjienleer wat data deur lae klassifiseer, Matt Muldoon, Noord-Amerikaanse president by ReadSpeaker, 'n maatskappy wat teks-na-spraak-sagteware ontwikkel, het in 'n e-posonderhoud gesê.

"Hierdie lae verfyn die sein en sorteer dit in meer komplekse klassifikasies," het hy bygevoeg. "Die resultaat is sintetiese spraak wat ongelooflik soos 'n mens klink."

Nog 'n tegnologie wat ontwikkel word, is Prosody Transfer, wat behels die kombinasie van die klank van een teks-na-spraak-stem met die praatstyl van 'n ander, het Muldoon gesê. Daar is ook oordragleer, wat die hoeveelheid opleidingsdata verminder wat nodig is om 'n nuwe neurale teks-na-spraak-stem te produseer.

Kaplan het gesê om mensagtige spraak te produseer verg ook enorme hoeveelhede verwerkingskrag. Maatskappye ontwikkel neurale versnellerskyfies, wat pasgemaakte modules is wat saam met gewone verwerkers werk.

"Die volgende fase hierin sal wees om hierdie skyfies in kleiner hardeware te plaas, aangesien dit tans reeds vir kameras gedoen word wanneer KI vir visie vereis word," het hy bygevoeg. "Dit sal nie lank duur voordat hierdie tipe rekenaarvermoë in die oorfone self beskikbaar is nie."

Een uitdaging vir die ontwikkeling van KI-gedrewe spraak is dat almal anders praat, so rekenaars is geneig om ons moeilik te verstaan.

"Dink Georgia vs. Boston vs. North Dakota aksent, en of Engels jou primêre taal is of nie," het Monica Dema, wat aan stemsoekanalise by MDinc werk, in 'n e-pos gesê. "Om wêreldwyd te dink, is dit duur om dit te doen vir al die streke van Duitsland, China en Indië, maar dit beteken nie dit is nie of kan nie gedoen word nie."

Aanbeveel: