Pasaulio modeliai, taip pat žinomi kaip pasaulio simuliatoriai, kai kurie teigia, kad yra kitas didelis dalykas dirbtinio intelekto srityje.
AI pradininkės Fei-Fei Li World Labs surinko 230 milijonų dolerių, kad sukurtų „didžiuosius pasaulio modelius“, o „DeepMind“ pasamdė vieną iš OpenAI vaizdo įrašų generatoriaus kūrėjų „Sora“, kad šis dirbtų su „pasaulio simuliatoriais“. (Sora buvo išleista pirmadienį; čia yra keletas ankstyvų įspūdžių.)
Bet kas po velnių yra šitie dalykai?
Pasaulio modeliai įkvėpimo semiasi iš psichinių pasaulio modelių, kuriuos žmonės vysto natūraliai. Mūsų smegenys perima abstrakčius vaizdus iš mūsų pojūčių ir formuoja juos į konkretesnį mus supančio pasaulio supratimą, sukurdamos tai, ką vadinome „modeliais“ dar ilgai prieš tai, kai AI priėmė šią frazę. Mūsų smegenų prognozės, pagrįstos šiais modeliais, daro įtaką mūsų pasaulio suvokimui.
AI tyrinėtojų Davido Ha ir Jürgeno Schmidhuberio dokumente pateikiamas beisbolo mušės pavyzdys. Batininkai turi milisekundžių, kad nuspręstų, kaip siūbuoti šikšnosparnį – trumpiau nei laikas, per kurį vaizdiniai signalai pasiekia smegenis. Priežastis, kodėl jie gali pataikyti 100 mylių per valandą greitį, yra ta, kad jie gali instinktyviai nuspėti, kur kamuolys nukris, sako Ha ir Schmidhuber.
„Profesionaliems žaidėjams visa tai vyksta nesąmoningai“, – rašo tyrėjų duetas. „Jų raumenys refleksiškai siūbuoja šikšnosparnį reikiamu laiku ir vietoje pagal jų vidinių modelių prognozes. Jie gali greitai veikti pagal savo ateities prognozes, nereikės sąmoningai kurti galimų ateities scenarijų, kad sudarytų planą.
Kai kurie mano, kad šie pasąmoningi pasaulio modelių samprotavimai yra būtinos žmogaus lygio intelekto sąlygos.
Pasaulio modeliavimas
Nors ši koncepcija gyvuoja dešimtmečius, pasauliniai modeliai pastaruoju metu išpopuliarėjo iš dalies dėl jų daug žadančių pritaikymų generatyvaus vaizdo įrašų srityje.
Dauguma, jei ne visi, dirbtinio intelekto sukurti vaizdo įrašai patenka į nepaprastą slėnio teritoriją. Stebėkite juos pakankamai ilgai ir kažkas keista atsitiks, kaip galūnės susisuka ir susilieja viena į kitą.
Nors generatyvinis modelis, parengtas naudojant ilgus metus trunkantį vaizdo įrašą, gali tiksliai nuspėti, kad krepšinio kamuolys atšoks, jis iš tikrųjų nesuvokia kodėl – kaip ir kalbos modeliai nelabai supranta žodžių ir frazių sąvokas. Tačiau pasaulinis modelis, turintis net elementarų supratimą, kodėl krepšinis taip atsimuša, geriau parodys, kaip tai daro.
Siekiant sudaryti tokią įžvalgą, pasaulio modeliai mokomi naudojant įvairius duomenis, įskaitant nuotraukas, garso įrašus, vaizdo įrašus ir tekstą, siekiant sukurti vidinius pasaulio veikimo vaizdus ir gebėjimą samprotauti apie veiksmų pasekmes. .

„Žiūrovas tikisi, kad pasaulis, kurį jie stebi, elgsis panašiai kaip jų tikrovė“, – sakė Alexas Mashrabovas, buvęs „Snap“ AI vadovas ir „Higsfield“, kuriančios generatyvius vaizdo įrašų modelius, generalinis direktorius. „Jei plunksna nukrenta su priekalo svoriu arba boulingo kamuolys pakyla šimtus pėdų į orą, tai erzina ir atitraukia žiūrovą iš akimirkos. Turėdamas stiprų pasaulio modelį, užuot kūrėjui apibrėžęs, kaip turėtų judėti kiekvienas objektas – tai yra nuobodu, sudėtinga ir prastai išnaudojamas laikas – modelis tai supras.
Tačiau geresnis vaizdo įrašų generavimas yra tik ledkalnio viršūnė pasaulio modeliams. Tyrėjai, įskaitant „Meta“ vyriausiąjį AI mokslininką Yanną LeCuną, teigia, kad modeliai kada nors galėtų būti naudojami sudėtingam prognozavimui ir planavimui tiek skaitmeninėje, tiek fizinėje srityje.
Šių metų pradžioje LeCunas apibūdino, kaip pasaulio modelis gali padėti pasiekti norimą tikslą per samprotavimus. Modelis, turintis pagrindinį „pasaulio“ atvaizdą (pvz., vaizdo įrašas apie nešvarią patalpą), turintis tikslą (švari patalpa), gali sugalvoti veiksmų seką šiam tikslui pasiekti (naudojant dulkių siurblius šluoti, išvalyti indus, ištuštinkite šiukšliadėžes) ne todėl, kad tai pastebėjo, o todėl, kad jis žino giliau, kaip nuo nešvaraus virsti švaria.
„Mums reikia mašinų, kurios supranta pasaulį; (mašinos), kurios gali atsiminti dalykus, turi intuiciją, turi sveiką protą – dalykus, kurie gali mąstyti ir planuoti tokiu pat lygiu kaip žmonės“, – sakė LeCunas. „Nepaisant to, ką galbūt girdėjote iš kai kurių entuziastingiausių žmonių, dabartinės AI sistemos to nepajėgia.
Nors LeCunas apskaičiavo, kad nuo jo įsivaizduojamų pasaulio modelių esame nutolę mažiausiai dešimtmetį, šiandieniniai pasaulio modeliai yra daug žadantys kaip elementarūs fizikos simuliatoriai.

„OpenAI“ tinklaraštyje pažymi, kad Sora, kurią ji laiko pasaulio modeliu, gali imituoti tokius veiksmus, kaip tapytojas, paliekantis teptuko potėpius ant drobės. Tokie modeliai kaip „Sora“ ir pati „Sora“ taip pat gali efektyviai imituoti vaizdo žaidimus. Pavyzdžiui, „Sora“ gali pateikti „Minecraft“ tipo vartotojo sąsają ir žaidimų pasaulį.
Ateities pasaulio modeliai gali pagal poreikį sukurti 3D pasaulius žaidimams, virtualiai fotografuoti ir dar daugiau, „World Labs“ įkūrėjas Justinas Johnsonas sakė a16z podcast'o epizode.
„Mes jau turime galimybę kurti virtualius, interaktyvius pasaulius, bet tai kainuoja šimtus ir šimtus milijonų dolerių ir daug laiko kūrimui“, – sakė Johnsonas. „(Pasaulio modeliai) leis jums ne tik gauti vaizdą ar klipą, bet ir visiškai imituotą, ryškų ir interaktyvų 3D pasaulį.
Aukštos kliūtys
Nors koncepcija viliojanti, daug techninių iššūkių trukdo.
Treniruotės ir bėgimo pasaulio modeliai reikalauja didžiulės skaičiavimo galios, net palyginti su šiuo metu generuojamųjų modelių naudojamu kiekiu. Nors kai kurie naujausių kalbų modeliai gali veikti šiuolaikiniame išmaniajame telefone, „Sora“ (be abejo, ankstyvojo pasaulio modelio) treniruotėms ir paleidimui reikės tūkstančių GPU, ypač jei jų naudojimas taptų įprastas.
Pasaulio modeliai, kaip ir visi dirbtinio intelekto modeliai, taip pat haliucinuoja ir įtraukia savo mokymo duomenų šališkumą. Pasaulio modeliui, daugiausia mokomam filmuojant saulėtą orą Europos miestuose, gali būti sunku suprasti ar pavaizduoti Korėjos miestus, pavyzdžiui, sniego sąlygomis, arba tai padaryti tiesiog neteisingai.
Mashrabovas sako, kad bendras mokymo duomenų trūkumas kelia grėsmę paaštrinti šias problemas.
„Matėme, kad modeliai tikrai apsiriboja tam tikro tipo ar rasės žmonių kartomis“, – sakė jis. „Pasaulio modelio mokymo duomenys turi būti pakankamai platūs, kad apimtų įvairius scenarijus, bet taip pat labai specifiški, kur AI gali giliai suprasti tų scenarijų niuansus.
Neseniai paskelbtame pranešime AI startuolio „Runway“ generalinis direktorius Cristóbal Valenzuela teigia, kad duomenų ir inžinerijos problemos neleidžia šiandieniniams modeliams tiksliai užfiksuoti pasaulio gyventojų (pvz., žmonių ir gyvūnų) elgesio. „Modeliams reikės sukurti nuoseklius aplinkos žemėlapius, – sakė jis, – ir galimybę naršyti bei sąveikauti tose aplinkose.”

Vis dėlto, jei bus įveiktos visos pagrindinės kliūtys, Mashrabovas mano, kad pasaulio modeliai galėtų „tvirčiau“ sujungti AI su realiu pasauliu, o tai lemtų proveržį ne tik virtualaus pasaulio generavimo, bet ir robotikos bei AI sprendimų priėmimo srityje.
Jie taip pat galėtų sukurti galingesnius robotus.
Šiandien robotai yra riboti, nes jie nesupranta juos supančio pasaulio (ar savo kūno). Pasaulio modeliai galėtų suteikti jiems tą supratimą, sakė Mashrabovas – bent jau iki tam tikro taško.
„Naudodamas pažangų pasaulio modelį AI gali sukurti asmeninį supratimą apie bet kokį scenarijų ir pradėti ieškoti galimų sprendimų“, – sakė jis.
„TechCrunch“ turi į AI orientuotą informacinį biuletenį! Registruotis čia kad kiekvieną trečiadienį gautumėte jį į savo pašto dėžutę.


