Meta hevder den nye kunstgenererende modellen er best i klassen

I løpet av de siste to årene har AI-drevne bildegeneratorer blitt kommodifisert, mer eller mindre, takket være den utbredte tilgjengeligheten av – og reduserende tekniske barrierer rundt – teknologien. De har blitt distribuert av praktisk talt alle store teknologiske aktører, inkludert Google og Microsoft, i tillegg til utallige oppstartsbedrifter som fisker for å ta en bit av den stadig mer lukrative generative AI-kaken.

Det betyr ikke at de er konsistente ennå, ytelsesmessig – langt ifra. Selv om kvaliteten på bildegeneratorer har blitt bedre, har det vært en gradvis, noen ganger smertefull fremgang.

Men Meta hevder å ha fått et gjennombrudd.

I dag annonserte Meta CM3Leon (“kameleon” i klønete leetspeak), en AI-modell som selskapet hevder oppnår toppmoderne ytelse for tekst-til-bilde-generering. CM3Leon utmerker seg også ved å være en av de første bildegeneratorene som er i stand til å generere bildetekster for bilder, og legger grunnlaget for mer kapable bildeforståelsesmodeller fremover, sier Meta.

“Med CM3Leons muligheter kan bildegenereringsverktøy produsere mer sammenhengende bilder som bedre følger innspillene,” skrev Meta i et blogginnlegg delt med TechCrunch tidligere denne uken. “Vi tror at CM3Leons sterke ytelse på tvers av en rekke oppgaver er et skritt mot høyere bildegenerering og forståelse.”

De fleste moderne bildegeneratorer, inkludert OpenAIs DALL-E 2, Googles Imagen og Stable Diffusion, er avhengige av en prosess kalt diffusjon for å lage kunst. I diffusjon lærer en modell hvordan man gradvis subtraherer støy fra et startbilde som utelukkende består av støy – flytter det nærmere målmeldingen trinn for trinn.

Resultatene er imponerende. Men diffusjon er beregningsintensiv, noe som gjør den dyr i drift og sakte nok til at de fleste sanntidsapplikasjoner er upraktiske.

CM3Leon er en transformatormodell som derimot utnytter en mekanisme kalt “oppmerksomhet” for å veie relevansen til inndata som tekst eller bilder. Oppmerksomhet og de andre arkitektoniske egenskapene til transformatorer kan øke modelltreningshastigheten og gjøre modeller lettere parallelliserbare. Større og større transformatorer kan trenes med betydelige, men ikke uoppnåelige økninger i beregningen, med andre ord.

Og CM3Leon er jevn mer effektiv enn de fleste transformatorer, hevder Meta, og krever fem ganger mindre beregning og et mindre treningsdatasett enn tidligere transformatorbaserte metoder.

Interessant nok utforsket OpenAI transformatorer som et middel for bildegenerering for flere år siden med en modell kalt Image GPT. Men det forlot til slutt ideen til fordel for diffusjon – og kan snart gå videre til “konsistens”.

For å trene CM3Leon brukte Meta et datasett med millioner av lisensierte bilder fra Shutterstock. Den mest kapable av flere versjoner av CM3Leon som Meta bygde har 7 milliarder parametere, over dobbelt så mange som DALL-E 2. (Parametere er delene av modellen som er lært fra treningsdata og definerer i hovedsak ferdighetene til modellen på et problem, som å generere tekst – eller, i dette tilfellet, bilder.)

En nøkkel til CM3Leons sterkere ytelse er en teknikk som kalles overvåket finjustering, eller SFT for kort. SFT har blitt brukt til å trene tekstgenererende modeller som OpenAIs ChatGPT med stor effekt, men Meta teoretiserte at det også kunne være nyttig når det brukes på bildedomenet. Instruksjonsjustering forbedret faktisk CM3Leons ytelse ikke bare ved bildegenerering, men også når det gjaldt bildetekstskriving, slik at den kunne svare på spørsmål om bilder og redigere bilder ved å følge tekstinstruksjoner (f.eks. “endre fargen på himmelen til knallblå”).

De fleste bildegeneratorer sliter med “komplekse” objekter og tekstmeldinger som inkluderer for mange begrensninger. Men det gjør ikke CM3Leon – eller i det minste ikke så ofte. I noen få kirsebærplukkede eksempler fikk Meta CM3Leon til å generere bilder ved hjelp av oppfordringer som «En liten kaktus med stråhatt og neonsolbriller i Sahara-ørkenen», «Et nærbilde av en menneskehånd, håndmodell», «En vaskebjørn-hovedperson i en Anime forbereder seg på en episk kamp med en tekst med en fanaiy-stil med en 99-stil» og «19 stoppord med en fanai’. ”

For sammenligningens skyld kjørte jeg de samme ledetekstene gjennom DALL-E 2. Noen av resultatene var nærme. Men CM3Leon-bildene var generelt sett nærmere ledeteksten og mer detaljerte for mine øyne, med skiltingen som det mest åpenbare eksemplet. (Inntil nylig håndterte diffusjonsmodeller både tekst og menneskelig anatomi relativt dårlig.)

Metas bildegenerator. Bildekreditt: Meta

DALL-E 2-resultatene. Bildekreditt: DALL-E 2

CM3Leon kan også forstå instruksjoner for å redigere eksisterende bilder. For eksempel, gitt spørsmålet “Generer høykvalitetsbilde av ‘et rom som har en vask og et speil i seg’ med flaske på stedet (199, 130),” kan modellen generere noe visuelt sammenhengende og, som Meta uttrykker det, “kontekstuelt passende” – rom, vask, speil, flaske og alt. DALL-E 2 klarer ikke helt å fange opp nyansene til oppfordringer som disse, og til tider utelater helt objektene spesifisert i ledeteksten.

Og selvfølgelig, i motsetning til DALL-E 2, kan CM3Leon følge en rekke meldinger for å generere korte eller lange bildetekster og svare på spørsmål om et bestemt bilde. På disse områdene presterte modellen bedre enn til og med spesialiserte bildetekstmodeller (f.eks. Flamingo, OpenFlamingo) til tross for at den så mindre tekst i treningsdataene, hevder Meta.

Men hva med skjevhet? Generative AI-modeller som DALL-E 2 har vist seg å forsterke samfunnsmessige skjevheter, tross alt, genererer bilder av autoritetsposisjoner – som “administrerende direktør” eller “direktør” – som for det meste skildrer hvite menn. Meta lar det spørsmålet stå ubesvart, og sier bare at CM3Leon “kan reflektere eventuelle skjevheter som er tilstede i treningsdataene.”

“Som AI-industrien fortsetter å utvikle seg, blir generative modeller som CM3Leon stadig mer sofistikerte,” skriver selskapet. “Selv om industrien fortsatt er i sine tidlige stadier med å forstå og håndtere disse utfordringene, tror vi at åpenhet vil være nøkkelen til å akselerere fremgangen.”

Meta sa ikke om – eller når – den planlegger å gi ut CM3Leon. Gitt kontroversene som svirrer rundt kunstgeneratorer med åpen kildekode, ville jeg ikke holdt pusten.

Read More