Meta slipper Llama 2, et mer “nyttig” sett med tekstgenererende modeller

Det generative AI-landskapet vokser seg større for hver dag.

I dag kunngjorde Meta en ny familie med AI-modeller, Llama 2, designet for å drive apper som OpenAIs ChatGPT, Bing Chat og andre moderne chatbots. Opplært på en blanding av offentlig tilgjengelige data, hevder Meta at Llama 2s ytelse forbedres betydelig i forhold til forrige generasjon Llama-modeller.

Llama 2 er oppfølgingen av Llama – en samling modeller som kan generere tekst og kode som svar på spørsmål, sammenlignet med andre chatbot-lignende systemer. Men Llama var bare tilgjengelig på forespørsel; Meta bestemte seg for å gi tilgang til modellene i frykt for misbruk. (Til tross for dette forhåndstiltaket, lekket Llama senere på nettet og spredte seg over forskjellige AI-samfunn.)

Derimot vil Llama 2 – som er gratis for forskning og kommersiell bruk – være tilgjengelig for finjustering på AWS, Azure og Hugging Faces AI-modellvertsplattform i forhåndsopplært form. Og det blir enklere å kjøre, sier Meta – optimalisert for Windows takket være et utvidet partnerskap med Microsoft, samt smarttelefoner og PC-er som pakker Qualcomms Snapdragon-system-på-brikke. (Qualcomm sier at det jobber med å bringe Llama 2 til Snapdragon-enheter i 2024.)

Så hvordan skiller Llama 2 seg fra Llama? På en rekke måter, alle som Meta fremhever i en lang whitepaper.

Llama 2 kommer i to smaker, Llama 2 og Llama 2-Chat, hvor sistnevnte var finjustert for toveis samtaler. Llama 2 og Llama 2-Chat kommer videre delt inn i versjoner med varierende sofistikering: 7 milliarder parametere, 13 milliarder parametere og 70 milliarder parametere. (“Parametere” er delene av en modell som er lært fra treningsdata og definerer i hovedsak modellens ferdigheter på et problem, i dette tilfellet å generere tekst.)

Llama 2 ble trent på to billioner tokens, der “tokens” representerer rå tekst – f.eks “fan”, “tas” og “tic” for ordet “fantastisk”. Det er nesten dobbelt så mange som Llama ble trent på (1,4 billioner), og – generelt sett – jo flere tokens, jo bedre når det gjelder generativ AI. Googles nåværende flaggskipmodell for store språk (LLM), PaLM 2, ble angivelig trent på 3,6 millioner tokens, og det spekuleres i at GPT-4 også ble trent på billioner av tokens.

Meta avslører ikke de spesifikke kildene til opplæringsdataene i whitepaperen, bortsett fra at det er fra nettet, for det meste på engelsk, ikke fra selskapets egne produkter eller tjenester og legger vekt på tekst av “faktisk” karakter.

Jeg vil våge å gjette at motviljen mot å avsløre treningsdetaljer ikke bare er forankret i konkurransemessige årsaker, men i de juridiske kontroversene rundt generativ AI. Nettopp i dag signerte tusenvis av forfattere et brev der de oppfordret teknologiselskaper til å slutte å bruke teksten deres til AI-modellopplæring uten tillatelse eller kompensasjon.

Men jeg avviker. Meta sier at i en rekke benchmarks presterer Llama 2-modellene litt dårligere enn de høyest profilerte lukkede kildekoderivalene, GPT-4 og PaLM 2, med Llama 2 som kommer betydelig bak GPT-4 innen dataprogrammering. Men menneskelige evaluatorer finner Llama 2 omtrent like “nyttig” som ChatGPT, hevder Meta; Llama 2 svarte på nivå med et sett med omtrent 4000 forespørsler designet for å undersøke etter «hjelpsomhet» og «sikkerhet».

Metas Llama 2-modeller kan svare på spørsmål – i emoji. Bildekreditt: Meta

Men ta resultatene med en klype salt. Meta erkjenner at testene deres umulig kan fange opp alle scenarier i den virkelige verden, og at referansene kan mangle i mangfold – med andre ord, de dekker ikke områder som koding og menneskelig resonnement tilstrekkelig.

Meta innrømmer også at Llama 2, som alle generative AI-modeller, har skjevheter langs visse akser. For eksempel er det tilbøyelig til å generere “han”-pronomen i en høyere hastighet enn “hun”-pronomen takket være ubalanser i treningsdataene. Som et resultat av giftig tekst i treningsdataene, overgår den ikke andre modeller på toksisitetsreferanser. Og Llama 2 har en vestlig skjevhet, nok en gang takket være dataubalanser, inkludert en overflod av ordene «kristen», «katolsk» og «jødisk».

Llama 2-Chat-modellene gjør det bedre enn Llama 2-modellene på Metas interne benchmarks for “hjelpsomhet” og toksisitet. Men de har også en tendens til å være for forsiktige, med modellene som feiler på siden av å avslå visse forespørsler eller svarer med for mange sikkerhetsdetaljer.

For å være rettferdig tar ikke benchmarkene for ytterligere sikkerhetslag som kan brukes på vertsbaserte Llama 2-modeller. Som en del av samarbeidet med Microsoft bruker Meta for eksempel Azure AI Content Safety, en tjeneste designet for å oppdage “upassende” innhold på tvers av AI-genererte bilder og tekst, for å redusere giftige Llama 2-utganger på Azure.

Når dette er tilfelle, gjør Meta fortsatt alle forsøk på å distansere seg fra potensielt skadelige utfall som involverer Llama 2, og understreker i hvitboken at Llama 2-brukere må overholde vilkårene i Metas lisens og retningslinjer for akseptabel bruk i tillegg til retningslinjer angående “sikker utvikling og distribusjon.”

“Vi tror at åpen deling av dagens store språkmodeller også vil støtte utviklingen av nyttig og tryggere generativ AI,” skriver Meta i et blogginnlegg. “Vi ser frem til å se hva verden bygger med Llama 2.”

Gitt naturen til åpen kildekode-modeller, er det imidlertid ikke noe å si hvordan – eller hvor – modellene kan brukes nøyaktig. Med lynhastigheten som internett beveger seg med, tar det ikke lang tid før vi finner ut av det.

Read More