LlamaIndex legger til private data til store språkmodeller

I fjor høst, etter å ha lekt med OpenAIs GPT-3 tekstgenererende AI-modell – forgjengeren til GPT-4 – oppdaget tidligere Uber-forsker Jerry Liu det han beskriver som «begrensninger» rundt modellens evne til å jobbe med private data (f.eks. personlige filer). For å løse dette, lanserte han et åpen kildekode-prosjekt, LlamaIndex, designet for å låse opp mulighetene og bruke tilfeller av store språkmodeller (LLM) som GPT-3 og GPT-4.

“LLM-er tilbyr utrolige muligheter for kunnskapsutvinning og resonnement – de kan utføre spørsmålssvar, oppsummering og innsiktsutvinning og til og med sekvensiell beslutningstaking med et eksternt miljø,” sa Liu til TechCrunch i et e-postintervju. “Men LLM-er har grenser.”

Etter hvert som prosjektet vokste i popularitet (til 200 000 månedlige nedlastinger), slo Liu seg sammen med Simon Suo, en av hans gamle kolleger i Uber, for å gjøre LlamaIndex til et fullverdig selskap. I dag tilbyr LlamaIndex (selskapet) et rammeverk for å hjelpe utviklere med å utnytte mulighetene til LLM-er på toppen av deres personlige eller organisatoriske data.

“Lamaindeks [helps] utviklere administrerer dataene sine for LLM-applikasjoner,” sa Liu. “Vårt verktøysett inneholder mest dybde i dette aspektet, og vi gjør det enkelt å integrere med andre verktøy utvikleren bruker.”

Bildekreditt: Lamaindeks

LlamaIndex-rammeverket lar utviklere koble data fra filer som PDF-er, PowerPoints, apper som Notion og Slack og databaser som Postgres og MongoDB til LLM-er. Rammeverket inkluderer koblinger for å innta datakilder og dataformater, samt måter å strukturere data på slik at de enkelt kan brukes med LLM-er.

I tillegg har LlamaIndex et datainnhentings- og spørringsgrensesnitt som lar utviklere mate inn en hvilken som helst LLM-inputmelding for å komme tilbake – som Liu beskriver det – «kontekst- og kunnskapsforsterket» utgang.

“Det er andre LLM-applikasjonsrammeverk der ute som tilbyr grunnleggende byggesteiner for LLM-applikasjoner og -agenter,” sa Liu. “Det som er spesifikt for LlamaIndex er at vi fokuserer på å koble datakildene dine med LLM-er, og vi har omfattende verktøy rundt datainntak, dataadministrasjon og indeksering og datainnhenting med hensyn til LLM-applikasjoner.”

Utsiktene til å øke LLM-er på denne måten beilte investorer, som lovet 8,5 millioner dollar mot LlamaIndex i en nylig avsluttet såkornfinansieringsrunde. Greylock ledet med deltakelse fra engleinvestorer, inkludert Jack Altman, Lenny Rachitsky og Charles Xie.

Så hva vil LlamaIndex bruke pengene på? Liu sier at den vil bli brukt til å bygge en “bedriftsløsning” på toppen av LlamaIndex-prosjektet med åpen kildekode, som skal lanseres senere i år. En funksjon vil tillate kunder å bruke “beskyttelsesgrad” datakoblinger for å analysere og transportere store datamengder, mens en annen, relatert funksjon lar dem indeksere “domenespesifikke” data.

“LlamaIndex er ikke knyttet til et spesifikt stykke teknologi, slik at vi kan fortsette å bli brukt med LLMs etter hvert som teknologien utvikler seg,” sa Liu. “AI-industrien beveger seg så raskt at eventuelle innledende stabler som dukker opp sannsynligvis vil endre seg i løpet av de neste månedene.”

Read More