Sleutel wegneemetes
- Meta gebruik KI om programme te maak wat emosies in spraak kan uitdruk.
- Die maatskappy se KI-span het gesê dit het vordering gemaak met die modellering van ekspressiewe vokalisering, soos lag, gaap, gehuil en "spontane gesels-gesels" intyds.
- AI word ook gebruik om verbeterings in spraakherkenning aan te dryf.
Jy sal dalk binnekort 'n meer natuurlike klets met jou rekenaar kan hê, danksy die krag van kunsmatige intelligensie (KI).
Meta het gesê hy het aansienlike vordering gemaak in sy poging om meer realistiese KI-gegenereerde spraakstelsels te skep. Die maatskappy se KI-span het gesê dat dit vordering gemaak het in die vermoë om ekspressiewe vokalisering, soos lag, gaap en gehuil te modelleer, benewens "spontane gesels-gesels" intyds.
"In enige gegewe gesprek ruil mense propvol nieverbale seine uit, soos intonasies, emosionele uitdrukking, pouses, aksente, ritmes - wat alles belangrik is vir menslike interaksies," het die span in die onlangse blogpos geskryf. "Maar vandag se KI-stelsels slaag nie daarin om hierdie ryk, ekspressiewe seine vas te vang nie, want hulle leer slegs uit geskrewe teks, wat vasvang wat ons sê, maar nie hoe ons dit sê nie."
Slimmer spraak
In die blogplasing het Meta AI se span gesê hulle werk daaraan om die beperkings van tradisionele KI-stelsels te oorkom wat nie nie-verbale seine in spraak kan verstaan nie, soos intonasies, emosionele uitdrukkings, pouses, aksente en ritmes. Die stelsels word teruggehou omdat hulle net uit geskrewe teks kan leer.
Maar Meta se werk verskil van vorige pogings omdat sy KI-modelle natuurlike taalverwerkingsmodelle kan gebruik om die volle aard van gesproke taal vas te lê. Meta-navorsers sê dat die nuwe modelle KI-stelsels kan toelaat om die sentiment wat hulle wil oordra - soos verveling of ironie - oor te dra.
"In die nabye toekoms sal ons fokus op die toepassing van tekslose tegnieke om bruikbare stroomaf toepassings te bou sonder om óf hulpbron-intensiewe teksetikette óf outomatiese spraakherkenningstelsels (ASR) te vereis, soos vraagbeantwoording (bv., "Hoe is die weer?"), "het die span in die blogpos geskryf. "Ons glo prosodie in spraak kan help om 'n sin beter te ontleed, wat op sy beurt die verstaan van die bedoeling vergemaklik en die prestasie van vraagbeantwoording verbeter."
AI Powers Begrip
Rekenaars word nie net beter om betekenis te kommunikeer nie, maar KI word ook gebruik vir kragverbeterings in spraakherkenning.
Rekenaarwetenskaplikes werk al sedert minstens 1952 aan rekenaarspraakherkenning, toe drie Bell Labs-navorsers 'n stelsel geskep het wat enkele numeriese syfers kan herken, het die hooftegnologiebeampte van AI Dynamics, Ryan Monsurate, in 'n e-pos aan gesê. Lifewire. Teen die 1990's was spraakherkenningstelsels kommersieel beskikbaar, maar het steeds 'n foutkoers gehad wat hoog genoeg was om gebruik buite baie spesifieke toepassingsdomeine soos gesondheidsorg te ontmoedig.
"Nou dat diepleermodelle ensemblemodelle (soos dié van Microsoft) in staat gestel het om bomenslike prestasie by spraakherkenning te behaal, het ons die tegnologie om spreker-onafhanklike verbale kommunikasie met rekenaars op skaal moontlik te maak," het Monsurate gesê. "Die volgende fase sal die verlaging van die koste insluit sodat almal wat Siri of Google se KI-assistente gebruik toegang tot hierdie vlak van spraakherkenning sal hê."
AI is nuttig vir spraakherkenning omdat dit met verloop van tyd deur leer kan verbeter, het Ariel Utnik, die hoofinkomstebeampte en hoofbestuurder by KI-stemmaatskappy Verbit.ai, in 'n e-posonderhoud aan Lifewire gesê. Byvoorbeeld, Verbit beweer sy interne KI-tegnologie bespeur en filter agtergrondgeraas en eggo en transkribeer luidsprekers ongeag die aksent om gedetailleerde, professionele transkripsies en onderskrifte van lewendige en opgeneemde video en oudio te genereer.
Maar Utnik het gesê dat die meeste huidige spraakherkenningsplatforms slegs 75-80% akkuraat is.
"KI sal nooit mense ten volle vervang nie, aangesien die persoonlike resensie deur transkribeerders, proeflesers en redigeerders nodig is om 'n finale transkripsie van hoë geh alte en topakkuraatheid te verseker," het hy bygevoeg.
Beter stemherkenning kan ook gebruik word om kuberkrakers te voorkom, het Sanjay Gupta, die wêreldwye hoof van produk- en korporatiewe ontwikkeling by die stemherkenningsmaatskappy Mitek Systems, in 'n e-pos gesê. Navorsing dui daarop dat binne twee jaar, 20 persent van alle suksesvolle rekeningoorname-aanvalle sintetiese stemvergroting sal gebruik, het hy bygevoeg.
"Dit beteken namate diep vals tegnologie meer gesofistikeerd word, moet ons terselfdertyd gevorderde sekuriteit skep wat hierdie taktiek saam met beeld- en video-vervalsings kan bekamp," het Gupta gesê. "Om stemspoofing te bestry, vereis lewendheidsbespeuringstegnologie, wat in staat is om te onderskei tussen 'n lewendige stem en 'n opgeneemde, sintetiese of rekenaargegenereerde weergawe van 'n stem."
Regstelling 2022-05-04: Het die spelling van Ryan Monsurate se naam in paragraaf 9 reggestel.