Nepaisant didėjančios AI saugos ir atskaitomybės poreikio, šiandieniniai testai ir etalonai gali nepasisekti, teigiama naujoje ataskaitoje.
Generatyvieji AI modeliai – modeliai, galintys analizuoti ir išvesti tekstą, vaizdus, muziką, vaizdo įrašus ir t. t. – vis labiau tikrinami dėl jų tendencijos klysti ir apskritai elgtis nenuspėjamai. Dabar organizacijos nuo viešojo sektoriaus agentūrų iki didelių technologijų firmų siūlo naujus etalonus šių modelių saugai išbandyti.
Praėjusių metų pabaigoje startuolis Scale AI sudarė laboratoriją, skirtą įvertinti, kaip modeliai atitinka saugos gaires. Šį mėnesį NIST ir JK AI saugos institutas išleido įrankius, skirtus modelio rizikai įvertinti.
Tačiau šie modelio zondavimo testai ir metodai gali būti netinkami.
Ada Lovelace Institute (ALI), JK įsikūrusi pelno nesiekianti dirbtinio intelekto tyrimų organizacija, atliko tyrimą, kurio metu buvo apklausti ekspertai iš akademinių laboratorijų, pilietinės visuomenės ir kurie gamina pardavėjų modelius, taip pat auditavo naujausius AI saugos vertinimų tyrimus. Bendraautoriai nustatė, kad nors dabartiniai vertinimai gali būti naudingi, jie nėra išsamūs, gali būti lengvai žaidžiami ir nebūtinai parodo, kaip modeliai elgsis realaus pasaulio scenarijuose.
„Nesvarbu, ar tai išmanusis telefonas, receptinis vaistas ar automobilis, tikimės, kad naudojami produktai bus saugūs ir patikimi; šiuose sektoriuose produktai yra griežtai išbandomi siekiant užtikrinti, kad jie yra saugūs prieš juos panaudojant“, – „TechCrunch“ sakė Elliotas Jonesas, ALI vyresnysis tyrėjas ir ataskaitos bendraautoris. „Mūsų tyrimais buvo siekiama ištirti dabartinių AI saugos vertinimo metodų apribojimus, įvertinti, kaip šiuo metu naudojami vertinimai, ir ištirti, kaip jie naudojami kaip politikos formuotojų ir reguliavimo institucijų priemonė.
Etalonai ir raudonoji komanda
Tyrimo bendraautoriai pirmą kartą ištyrė akademinę literatūrą, siekdami sudaryti šiandienos modelių keliamos žalos ir rizikos apžvalgą bei esamų AI modelių vertinimų būklę. Tada jie apklausė 16 ekspertų, įskaitant keturis neįvardytų technologijų įmonių, kuriančių generatyvias AI sistemas, darbuotojus.
Tyrimas parodė, kad dirbtinio intelekto pramonėje kyla aštrių nesutarimų dėl geriausių metodų rinkinio ir taksonomijos modeliams įvertinti.
Kai kurie vertinimai tik tikrino, kaip modeliai suderinami su etalonais laboratorijoje, o ne kaip modeliai gali paveikti realaus pasaulio vartotojus. Kiti rėmėsi bandymais, sukurtais tyrimų tikslais, neįvertindami gamybos modelių, tačiau pardavėjai reikalavo juos naudoti gamyboje.
Apie problemas, susijusias su AI etalonais, rašėme anksčiau, o tyrime pabrėžiamos visos šios problemos ir dar daugiau.
Tyrime cituoti ekspertai pažymėjo, kad modelio našumą sunku ekstrapoliuoti iš etaloninių tyrimų rezultatų ir neaišku, ar etaloniniai rodikliai netgi gali parodyti, kad modelis turi tam tikrų savybių. Pavyzdžiui, nors modelis gali gerai pasirodyti laikant valstybinį advokatūros egzaminą, tai nereiškia, kad jis galės išspręsti daugiau neterminuotų teisinių iššūkių.
Ekspertai taip pat atkreipė dėmesį į duomenų užteršimo problemą, kai etaloniniai rezultatai gali pervertinti modelio našumą, jei modelis buvo apmokytas remiantis tais pačiais duomenimis, kuriais jis bandomas. Pasak ekspertų, gaires daugeliu atvejų organizacijos pasirenka ne todėl, kad tai yra geriausi vertinimo įrankiai, o dėl patogumo ir naudojimo paprastumo.
„Kūrėjai gali manipuliuoti etalonais, kurie gali treniruoti modelius naudodami tą patį duomenų rinkinį, kuris bus naudojamas modeliui įvertinti, o tai prilygsta egzamino darbo peržiūrai prieš egzaminą arba strategiškai pasirenkant, kokius vertinimus naudoti“, – tyrėjas Mahi Hardalupas. ALI ir tyrimo bendraautorius pasakojo „TechCrunch“. „Taip pat svarbu, kuri modelio versija yra vertinama. Maži pakeitimai gali sukelti nenuspėjamų elgesio pokyčių ir gali nepaisyti integruotų saugos funkcijų.
ALI tyrime taip pat buvo aptikta problemų, susijusių su „raudonuoju kolektyvu“, ty praktika, kai asmenims ar grupėms tenka užduotis „atakuoti“ modelį, siekiant nustatyti pažeidžiamumą ir trūkumus. Nemažai įmonių modeliams vertinti naudoja „red-teaming“, įskaitant AI startuolius „OpenAI“ ir „Anthropic“, tačiau yra keletas sutartų raudonųjų komandų sudarymo standartų, todėl sunku įvertinti konkrečių pastangų efektyvumą.
Ekspertai tyrimo bendraautoriams sakė, kad gali būti sunku rasti žmonių, turinčių reikiamų įgūdžių ir patirties, kad galėtų sudaryti raudonąją komandą, o dėl rankinio raudonųjų komandų sudarymo tai yra brangu ir sudėtinga, o mažesnėms organizacijoms, neturinčioms reikiamų išteklių, kyla kliūčių.
Galimi sprendimai
Spaudimas greičiau išleisti modelius ir nenoras atlikti bandymus, dėl kurių gali kilti problemų prieš išleidžiant, yra pagrindinės priežastys, kodėl dirbtinio intelekto vertinimai nepagerėjo.
„Asmuo, su kuriuo kalbėjomės, dirbantis įmonėje, kuriančioje pamatų modelius, jautė, kad įmonėse jaučiamas didesnis spaudimas greitai išleisti modelius, todėl buvo sunkiau atstumti ir rimtai žiūrėti į vertinimus“, – sakė Jonesas. „Didelės dirbtinio intelekto laboratorijos modelius išleidžia greičiu, viršijančiu jų ar visuomenės galimybes užtikrinti, kad jie būtų saugūs ir patikimi.
Vienas ALI tyrimo pašnekovas saugos modelių vertinimą pavadino „neišsprendžiama“ problema. Taigi, kokią viltį pramonė ir ją reguliuojantys asmenys turi sprendimų?
Mahi Hardalupas, ALI tyrėjas, mano, kad kelias į priekį yra, tačiau tam reikės daugiau viešojo sektoriaus institucijų įsitraukimo.
„Reguliavimo institucijos ir politikos formuotojai turi aiškiai suformuluoti, ko jie nori iš vertinimų“, – sakė jis. „Tuo pačiu metu vertinimo bendruomenė turi būti skaidri apie dabartinius vertinimo apribojimus ir potencialą.”
Hardalupas siūlo vyriausybėms įpareigoti daugiau visuomenės dalyvauti kuriant vertinimus ir įgyvendinti priemones, skirtas palaikyti trečiųjų šalių testų „ekosistemą“, įskaitant programas, užtikrinančias reguliarią prieigą prie bet kokių reikiamų modelių ir duomenų rinkinių.
Jonesas mano, kad gali prireikti sukurti „kontekstui skirtus“ vertinimus, kurie neapsiriboja vien tik modelio atsako į raginimą testavimu, o verčiau žiūrėti į vartotojų tipus, kuriuos modelis gali paveikti (pvz., tam tikros kilmės, lyties ar etninė priklausomybė) ir būdus, kuriais atakos prieš modelius galėtų nugalėti apsaugos priemones.
„Tam reikės investicijų į pagrindinį vertinimų mokslą, kad būtų sukurti patikimesni ir pakartojamesni vertinimai, pagrįsti supratimu, kaip veikia AI modelis“, – pridūrė ji.
Tačiau niekada negali būti garantijos, kad modelis yra saugus.
„Kaip kiti pastebėjo, „saugumas“ nėra modelių savybė“, – sakė Hardalupas. „Norint nustatyti, ar modelis yra „saugus“, reikia suprasti kontekstą, kuriame jis naudojamas, kam jis parduodamas arba prieinamas, ir ar taikomos apsaugos priemonės yra tinkamos ir patikimos šiai rizikai sumažinti. Pamatinio modelio įvertinimai gali būti tiriamieji siekiant nustatyti galimą riziką, tačiau jie negali garantuoti, kad modelis yra saugus, jau nekalbant apie „visiškai saugų“. Daugelis mūsų pašnekovų sutiko, kad vertinimai negali įrodyti, kad modelis yra saugus ir gali tik parodyti, kad modelis yra nesaugus.


