Parallel Domains API lar kunder bruke generativ AI til å bygge syntetiske datasett
Parallel Domain legger muligheten til å generere syntetiske datasett i hendene på kundene sine. Den San Francisco-baserte oppstarten har lansert en ny API kalt Data Lab som står på skuldrene til generative AI-giganter, og gir maskinlæringsingeniører kontroll over dynamiske virtuelle verdener for å simulere ethvert tenkelig scenario.
“Alt du trenger å gjøre er å gå til GitHub, installere API, og så kan du begynne å skrive Python-kode som genererer datasett,” sa Kevin McNamara, grunnlegger og administrerende direktør i Parallel Domain, til TechCrunch.
Data Lab lar ingeniører generere objekter som ikke tidligere var tilgjengelige i oppstartens ressursbibliotek. API-en bruker 3D-simulering for å gi et grunnlag som en ingeniør, gjennom en rekke enkle spørsmål, kan legge den virkelige verden i all dens tilfeldighet på toppen. Vil du trene modellen din til å kjøre på en motorvei med en drosje snudd over to kjørefelt? Lett. Tror du at robotaksen din burde vite hvordan man identifiserer et menneske kledd i et oppblåsbart dinosaurantrekk? Ferdig.
Målet er å gi autonomi, drone- og robotikkselskaper mer kontroll over og mer effektivitet i å bygge store datasett, slik at de kan trene modellene sine raskere og på et dypere nivå.
“Iterasjonstiden går nå til i hovedsak hvor raskt kan du som ML-ingeniør tenke på hva du vil og oversette det til et API-kall, et sett med kode?” sa McNamara. “Det er et nesten uendelig, ubegrenset nivå av ting en kunde kan skrive inn for en melding, og systemet fungerer bare.”
Parallel Domain teller store OEM-er som bygger avanserte førerassistentsystemer (ADAS) og autonome kjøreselskaper som kunder. Historisk sett kan det ha tatt uker eller måneder før oppstarten opprettet datasett basert på en kundes spesifikke parametere. Med selvbetjent API kan kunder danne nye datasett i «nesten sanntid», ifølge McNamara.
I en større skala kan Data Lab bidra til å skalere autonome kjøresystemer enda raskere. McNamara sa at oppstarten testet visse AV-modeller på syntetiske datasett av barnevogner mot virkelige datasett av barnevogner, og fant ut at modellen presterte bedre når den ble trent på syntetiske data.
Mens Parallel Domain ikke bruker noen av OpenAI APIene som har vunnet popularitet de siste månedene som ChatGPT, bygger oppstarten komponenter av teknologien sin på toppen av de store grunnmodellene som har vært åpen kildekode i løpet av de siste par årene.
“Ting som Stable Diffusion gjør det mulig for oss å finjustere våre egne versjoner av disse grunnmodellene og deretter bruke tekstinndata for å drive bilde- og innholdsgenerering,” sa McNamara, og la merke til at teamet hans utviklet tilpassede teknologistabler for å merke objekter etter hvert som de genereres.
Parallel Domain lanserte opprinnelig sin syntetiske datagenereringsmotor, kalt Reactor, i mai for intern bruk og betatesting med pålitelige kunder. Nå som Reactor tilbys kunder gjennom Data Lab API, vil Parallel Domains forretningsmodell sannsynligvis endre seg ettersom kundene foretrekker enkel tilgang til generativ AI.
Oppstartens kommersielle strategi i dag innebærer at kunder kjøper tildelinger av data og deretter bruker disse kredittene gjennom året. Data Lab kan hjelpe Parallel Domain med å gå inn i en software-as-a-service (SaaS)-modell, der kunder kan abonnere på tilgang til plattformen og betale basert på hvor mye de bruker den, sa McNamara.
API-en har også potensialet til å hjelpe Parallel Domain med å skalere inn i ethvert område der datasynsaktivert teknologi gjør næringer mer effektive, som landbruk, detaljhandel eller produksjon.
“AI-aktivering av landbruk blir sett på som en av de største tingene som vil forbedre effektiviteten, og vi ønsker å jage disse brukstilfellene og til slutt ha en plattform der uansett hvilket domene du opererer i, hvis du trenger å trene en AI for å se verden med en slags sensor, er stedet du ville starte Parallel Domain,» sa McNamara.