Runways Gen-2 viser begrensningene til dagens tekst-til-video-teknologi
I et nylig panelintervju med Collider spådde Joe Russo, regissøren av Marvel-filmer som «Avengers: Endgame», at innen to år vil AI være i stand til å lage en fullverdig film. Jeg vil si det er en ganske optimistisk tidslinje. Men vi nærmer oss.
Denne uken lanserte Runway, en Google-støttet AI-oppstart som bidro til å utvikle AI-bildegeneratoren Stable Diffusion, Gen-2, en modell som genererer videoer fra tekstmeldinger eller et eksisterende bilde. (Gen-2 var tidligere i begrenset, ventelistetilgang.) Oppfølgingen av Runways Gen-1-modell lansert i februar, Gen-2 er en av de første kommersielt tilgjengelige tekst-til-video-modellene.
“Kommersielt tilgjengelig” er et viktig skille. Tekst-til-video, som er den logiske neste grensen innen generativ AI etter bilder og tekst, blir et større fokusområde, spesielt blant teknologigiganter, hvorav flere har demonstrert tekst-til-video-modeller det siste året. Men disse modellene forblir fast i forskningsstadiene, utilgjengelige for alle bortsett fra noen få utvalgte dataforskere og ingeniører.
Det første er selvfølgelig ikke nødvendigvis bedre.
Av personlig nysgjerrighet og service til dere, kjære lesere, kjørte jeg noen spørsmål gjennom Gen-2 for å få en følelse av hva modellen kan – og ikke kan – oppnå. (Runway gir for øyeblikket rundt 100 sekunder gratis videogenerering.) Det var ikke mye av en metode for galskapen min, men jeg prøvde å fange en rekke vinkler, sjangre og stiler som en regissør, profesjonell eller lenestol, kanskje vil se på sølvskjermen – eller en bærbar PC som tilfellet kan være.
En begrensning ved Gen-2 som ble umiddelbart tydelig er frameraten til de fire sekunder lange videoene modellen genererer. Det er ganske lavt og merkbart, til det punktet hvor det er nesten lysbildefremvisning-aktig noen steder.
Bildekreditt: Rullebane
Det som er uklart er om det er et problem med teknologien eller et forsøk fra Runway på å spare på datakostnader. Uansett gjør det Gen-2 til et ganske lite attraktivt forslag for redaktører som håper å unngå postproduksjonsarbeid.
Utover rammehastighetsproblemet, har jeg funnet ut at Gen-2-genererte klipp har en tendens til å dele en viss kornethet eller uklarhet til felles, som om de har brukt et slags gammeldags Instagram-filter. Andre artefakter forekommer også på steder, som pikselering rundt objekter når “kameraet” (i mangel på et bedre ord) ringer rundt dem eller zoomer raskt mot dem.
Som med mange generative modeller, er ikke Gen-2 spesielt konsistent med hensyn til fysikk eller anatomi, heller. Som noe tryllet frem av en surrealist, smelter folks armer og ben i Gen-2-produserte videoer sammen og går fra hverandre igjen mens gjenstander smelter ned i gulvet og forsvinner, deres refleksjoner er forvrengt og forvrengt. Og – avhengig av spørsmålet – kan ansikter virke dukkelignende, med blanke, følelsesløse øyne og deig hud som fremkaller en billig plastikk.
Bildekreditt: Rullebane
For å hope seg høyere, det er innholdsproblemet. Gen-2 ser ut til å ha en tøff tid med å forstå nyanser, klamre seg til bestemte beskrivelser i spørsmål mens de ignorerer andre, tilsynelatende tilfeldig.
Bildekreditt: Rullebane
En av oppfordringene jeg prøvde – «En video av en undervannsutopi, tatt med et gammelt kamera, i stil med en «funnet opptak»-film» – førte ikke til en slik utopi, bare det som så ut som et førstepersonsdykk gjennom et anonymt korallrev. Gen-2 slet med de andre spørsmålene mine, og klarte ikke å generere et zoom-inn-bilde for en melding som spesifikt ba om en “sakte zoom” og ikke helt klarte utseendet til den gjennomsnittlige astronauten din.
Kan problemene ligge i Gen-2s treningsdatasett? Kanskje.
Gen-2, i likhet med Stable Diffusion, er en diffusjonsmodell, noe som betyr at den lærer å gradvis trekke støy fra et startbilde som er laget utelukkende av støy for å flytte det nærmere, trinn for trinn, til ledeteksten. Diffusjonsmodeller lærer gjennom trening på millioner til milliarder av eksempler; i en akademisk artikkel som beskriver Gen-2s arkitektur, sier Runway at modellen ble trent på et internt datasett med 240 millioner bilder og 6,4 millioner videoklipp.
Mangfold i eksemplene er nøkkelen. Hvis datasettet ikke inneholder mye opptak av, for eksempel, animasjon, vil modellen – som mangler referansepunkter – ikke være i stand til å generere animasjoner av rimelig kvalitet. (Selvfølgelig er animasjon et bredt felt, selv om datasettet gjorde har klipp av anime eller håndtegnet animasjon, vil modellen ikke nødvendigvis generalisere godt til alle typer animasjoner.)
Bildekreditt: Rullebane
På plussiden består Gen-2 en skjevhetstest på overflatenivå. Mens generative AI-modeller som DALL-E 2 har vist seg å forsterke samfunnsmessige skjevheter, og generere bilder av autoritetsposisjoner – som “administrerende direktør eller “direktør” – som for det meste skildrer hvite menn, var Gen-2 den minste biten mer mangfoldig i innholdet det genererte – i hvert fall i min testing.
Bildekreditt: Rullebane
Fed forespørselen “En video av en administrerende direktør som går inn i et konferanserom,” genererte Gen-2 en video av menn og kvinner (riktignok flere menn enn kvinner) som sitter rundt noe sånt som et konferansebord. Utdataene for ledeteksten «En video av en lege som jobber på et kontor», viser i mellomtiden en kvinnelig lege som er vagt asiatisk i utseende bak et skrivebord.
Resultatene for alle spørsmål som inneholdt ordet “sykepleier” var mindre lovende, men viste konsekvent unge hvite kvinner. Ditto for uttrykket “en person som venter på bord.” Det er tydeligvis arbeid å gjøre.
Uttaket fra alt dette, for meg, er at Gen-2 er mer en nyhet eller et leketøy enn et genuint nyttig verktøy i en videoarbeidsflyt. Kan utdataene redigeres til noe mer sammenhengende? Kanskje. Men avhengig av videoen, vil det i utgangspunktet kreve mer arbeid enn å ta opp opptak.
Det skal ikke være det også avviser teknologien. Det er imponerende hva Runway har gjort her, og effektivt slå teknologigigantene til tekst-til-video-punchen. Og jeg er sikker på at noen brukere vil finne bruksområder for Gen-2 som ikke krever fotorealisme – eller mye tilpasningsmuligheter. (Runway CEO Cristóbal Valenzuela fortalte nylig til Bloomberg at han ser på Gen-2 som en måte å tilby kunstnere og designere et verktøy som kan hjelpe dem med deres kreative prosesser.)
Bildekreditt: Rullebane
Jeg gjorde det selv. Gen-2 kan faktisk forstå en rekke stiler, som anime og claymation, som egner seg til den lavere framerate. Med litt fikling og redigeringsarbeid, ville det ikke vært umulig å sette sammen noen få klipp for å lage et narrativt stykke.
For at potensialet for dype forfalskninger ikke skal bekymre deg, sier Runway at det bruker en kombinasjon av AI og menneskelig moderering for å hindre brukere i å generere videoer som inneholder pornografi eller voldelig innhold eller som bryter med opphavsrett. Jeg kan bekrefte at det er et innholdsfilter – et overivrig et faktisk. Men det er selvfølgelig ikke idiotsikre metoder, så vi må se hvor godt de fungerer i praksis.
Bildekreditt: Rullebane
Men i det minste for nå kan filmskapere, animatører og CGI-artister og etikere være rolige. Det vil ta minst et par iterasjoner før Runways teknologi kommer i nærheten av å generere opptak av filmkvalitet – forutsatt at det noen gang kommer dit.