OpenAI danner et nytt team for å bringe ‘superintelligent’ AI under kontroll
OpenAI danner et nytt team ledet av Ilya Sutskever, dets sjefforsker og en av selskapets medgründere, for å utvikle måter å styre og kontrollere «superintelligente» AI-systemer.
I et blogginnlegg publisert i dag forutsier Sutskever og Jan Leike, leder i alignment-teamet ved OpenAI, at AI med intelligens som overgår menneskers intelligens kan komme innen tiåret. Denne AI-en – forutsatt at den faktisk kommer til slutt – vil ikke nødvendigvis være velvillig, noe som krever forskning på måter å kontrollere og begrense den på, sier Sutskever og Leike.
“Foreløpig har vi ingen løsning for å styre eller kontrollere en potensielt superintelligent AI, og forhindre at den blir useriøs,” skriver de. «Våre nåværende teknikker for å justere AI, som forsterkende læring fra menneskelig tilbakemelding, er avhengig av menneskers evne til å overvåke AI. Men mennesker vil ikke være i stand til pålitelig å overvåke AI-systemer mye smartere enn oss.»
For å flytte nålen fremover i området “superintelligens justering”, oppretter OpenAI et nytt Superalignment-team, ledet av både Sutskever og Leike, som vil ha tilgang til 20% av datamaskinen selskapet har sikret seg til dags dato. Sammen med forskere og ingeniører fra OpenAIs tidligere innrettingsavdeling samt forskere fra andre organisasjoner i hele selskapet, vil teamet ta sikte på å løse de tekniske kjerneutfordringene med å kontrollere superintelligent AI i løpet av de neste fire årene.
Hvordan? Ved å bygge det Sutskever og Leike beskriver som en “automatisert innrettingsforsker på menneskelig nivå.” Målet på høyt nivå er å trene AI-systemer ved å bruke menneskelig tilbakemelding, trene AI for å hjelpe til med å evaluere andre AI-systemer og til slutt å bygge AI som kan gjøre justeringsforskning. (Her refererer “tilpasningsforskning” til å sikre at AI-systemer oppnår ønskede resultater eller ikke går av stabelen.)
Det er OpenAIs hypotese at AI kan gjøre raskere og bedre fremskritt i alignmentforskningen enn mennesker kan.
“Når vi gjør fremskritt på dette, kan AI-systemene våre ta over mer og mer av opprettingsarbeidet vårt og til slutt tenke, implementere, studere og utvikle bedre opprettingsteknikker enn vi har nå,” postulerte Leike og kollegene John Schulman og Jeffrey Wu i en forrige blogginnlegg. “De vil jobbe sammen med mennesker for å sikre at deres egne etterfølgere er mer på linje med mennesker. . . . Menneskelige forskere vil fokusere mer og mer av sin innsats på å gjennomgå alignment-forskning utført av AI-systemer i stedet for å generere denne forskningen selv.
Selvfølgelig er ingen metode idiotsikker – og Leike, Schulman og Wu erkjenner de mange begrensningene til OpenAI i innlegget deres. Å bruke AI for evaluering har potensial til å skalere opp inkonsekvenser, skjevheter eller sårbarheter i den AI, sier de. Og det kan vise seg at de vanskeligste delene av innrettingsproblemet kanskje ikke er relatert til engineering i det hele tatt.
Men Sutskever og Leike mener det er verdt et forsøk.
“Superintelligens justering er grunnleggende et maskinlæringsproblem, og vi tror gode maskinlæringseksperter – selv om de ikke allerede jobber med justering – vil være avgjørende for å løse det,” skriver de. “Vi planlegger å dele fruktene av denne innsatsen bredt og ser på å bidra til justering og sikkerhet for ikke-OpenAI-modeller som en viktig del av arbeidet vårt.”