Sleutel wegneemetes
- Navorsers sê hulle kan KI leer om video's te etiketteer deur te kyk en te luister.
- Die KI-stelsel leer om data voor te stel om konsepte vas te lê wat tussen visuele en oudiodata gedeel word.
-
Dit is deel van 'n poging om KI te leer om konsepte te verstaan wat mense nie sukkel om te leer nie, maar wat rekenaars moeilik vind om te begryp.
'n Nuwe kunsmatige intelligensie-stelsel (KI) kan na jou video's kyk en luister en dinge wat aan die gebeur is etiketteer.
MIT-navorsers het 'n tegniek ontwikkel wat KI leer om aksies vas te vang wat tussen video en oudio gedeel word. Hulle metode kan byvoorbeeld verstaan dat die daad van 'n baba wat in 'n video huil verband hou met die gesproke woord "huil" in 'n klanksnit. Dit is deel van 'n poging om KI te leer hoe om konsepte te verstaan wat mense nie sukkel om te leer nie, maar wat rekenaars moeilik vind om te begryp.
"Die algemene leerparadigma, leer onder toesig, werk goed as jy datastelle het wat goed beskryf en volledig is," het die KI-kenner Phil Winder in 'n e-posonderhoud aan Lifewire gesê. "Ongelukkig is datastelle selde volledig omdat die werklike wêreld 'n slegte gewoonte het om nuwe situasies aan te bied."
Slimmer KI
Rekenaars sukkel om alledaagse scenario's uit te vind, want hulle moet data eerder as klank en beelde soos mense knars. Wanneer 'n masjien 'n foto "sien", moet dit daardie foto enkodeer in data wat dit kan gebruik om 'n taak soos 'n beeldklassifikasie uit te voer. KI kan vasval wanneer insette in verskeie formate kom, soos video's, oudiosnitte en beelde.
"Die grootste uitdaging hier is, hoe kan 'n masjien daardie verskillende modaliteite in lyn bring? As mense is dit maklik vir ons," het Alexander Liu, 'n MIT-navorser en eerste skrywer van 'n referaat oor die onderwerp, gesê in 'n nuusvrystelling. "Ons sien 'n motor en hoor dan die geluid van 'n motor wat verbyry, en ons weet dit is dieselfde ding. Maar vir masjienleer is dit nie so eenvoudig nie."
Liu se span het 'n KI-tegniek ontwikkel wat volgens hulle leer om data voor te stel om konsepte vas te lê wat tussen visuele en oudiodata gedeel word. Deur hierdie kennis te gebruik, kan hul masjienleermodel identifiseer waar 'n spesifieke handeling in 'n video plaasvind en dit benoem.
Die nuwe model neem rou data, soos video's en hul ooreenstemmende teksonderskrifte, en kodeer hulle deur kenmerke of waarnemings oor voorwerpe en handelinge in die video te onttrek. Dit karteer dan daardie datapunte in 'n rooster, bekend as 'n inbeddingspasie. Die model groepeer soortgelyke data saam as enkele punte in die rooster; elkeen van hierdie datapunte, of vektore, word deur 'n individuele woord voorgestel.
Byvoorbeeld, 'n videogreep van 'n persoon wat jongleren kan gekarteer word na 'n vektor gemerk "jongleren."
Die navorsers het die model ontwerp sodat dit net 1 000 woorde kan gebruik om vektore te benoem. Die model kan besluit watter aksies of konsepte dit in 'n enkele vektor wil enkodeer, maar dit kan slegs 1 000 vektore gebruik. Die model kies die woorde wat hy dink die data die beste verteenwoordig.
"As daar 'n video oor varke is, kan die model die woord 'vark' aan een van die 1 000 vektore toewys. Dan, as die model iemand die woord 'vark' in 'n oudiosnit hoor sê, dit moet steeds dieselfde vektor gebruik om dit te enkodeer," het Liu verduidelik.
Jou video's, gedekodeer
Beter etiketteringstelsels soos die een wat deur MIT ontwikkel is, kan help om vooroordeel in KI te verminder, het Marian Beszedes, hoof van navorsing en ontwikkeling by die biometriefirma Innovatrics, in 'n e-posonderhoud aan Lifewire gesê. Beszedes het voorgestel dat die databedryf KI-stelsels vanuit 'n vervaardigingsprosesperspektief kan sien.
"Die stelsels aanvaar rou data as insette (grondstowwe), verwerk dit vooraf, neem dit in, neem besluite of voorspellings en voer analise (klaargoedere), " het Beszedes gesê. "Ons noem hierdie prosesvloei die "datafabriek", en soos ander vervaardigingsprosesse, moet dit onderhewig wees aan kwaliteitbeheer. Die databedryf moet KI-vooroordeel as 'n kwaliteitprobleem behandel.
"Vanuit 'n verbruikersperspektief maak data wat verkeerd gemerk is, byvoorbeeld aanlyn soektog na spesifieke beelde/video's moeiliker," het Beszedes bygevoeg. "Met korrek ontwikkelde KI kan jy etikettering outomaties doen, baie vinniger en meer neutraal as met handmatige etikettering."
Maar die MIT-model het steeds 'n paar beperkings. Vir een, hul navorsing het gefokus op data van twee bronne op 'n slag, maar in die regte wêreld ontmoet mense baie soorte inligting gelyktydig, het Liu gesê
"En ons weet dat 1 000 woorde op hierdie soort datastel werk, maar ons weet nie of dit veralgemeen kan word na 'n werklike probleem nie," het Liu bygevoeg.
Die MIT-navorsers sê hul nuwe tegniek vaar beter as baie soortgelyke modelle. As KI opgelei kan word om video's te verstaan, sal jy dalk uiteindelik kan oorslaan om jou vriend se vakansievideo's te kyk en eerder 'n rekenaargegenereerde verslag te kry.