Denne uken i AI: Big Tech satser milliarder på maskinlæringsverktøy
Å holde tritt med en bransje som beveger seg så raskt som AI er en stor oppgave. Så inntil en AI kan gjøre det for deg, her er en praktisk oppsummering av forrige ukes historier i verden av maskinlæring, sammen med bemerkelsesverdig forskning og eksperimenter vi ikke dekket på egen hånd.
Hvis det ikke allerede var åpenbart, er det konkurransedyktige landskapet i AI – spesielt underfeltet kjent som generativ AI – rødglødende. Og det blir varmere. Denne uken lanserte Dropbox sitt første corporate venture-fond, Dropbox Ventures, som selskapet sa vil fokusere på oppstartsbedrifter som bygger AI-drevne produkter som “former fremtidens arbeid.” For ikke å overgå, debuterte AWS et program på 100 millioner dollar for å finansiere generative AI-initiativer ledet av partnere og kunder.
Det er mye penger som kastes rundt i AI-rommet, for å være sikker. Salesforce Ventures, Salesforces VC-divisjon, planlegger å investere 500 millioner dollar i startups som utvikler generative AI-teknologier. Workday la nylig til 250 millioner dollar til sitt eksisterende VC-fond spesielt for å støtte oppstart av AI og maskinlæring. Og Accenture og PwC har annonsert at de planlegger å investere henholdsvis 3 milliarder dollar og 1 milliard dollar i AI.
Men man spør seg om penger er løsningen på AI-feltets enestående utfordringer.
I et opplysende panel under en Bloomberg-konferanse i San Francisco denne uken, påpekte Meredith Whittaker, presidenten for den sikre meldingsappen Signal, at teknologien som ligger til grunn for noen av dagens mest livlige AI-apper er i ferd med å bli farlig ugjennomsiktig. Hun ga et eksempel på en som går inn i en bank og ber om lån.
Den personen kan nektes lånet og har ingen anelse om at det er et system i [the] tilbake sannsynligvis drevet av en eller annen Microsoft API som bestemte, basert på skrapet sosiale medier, at jeg ikke var kredittverdig,” sa Whittaker. «Jeg kommer aldri til å vite [because] det er ingen mekanisme for meg å vite dette.»
Det er ikke kapital som er problemet. Snarere er det det nåværende makthierarkiet, sier Whittaker.
«Jeg har sittet ved bordet i omtrent 15 år, 20 år. Jeg har vært på bordet. Å sitte ved bordet uten makt er ingenting, fortsatte hun.
Selvfølgelig er det langt tøffere å oppnå strukturelle endringer enn å lete etter penger – spesielt når den strukturelle endringen ikke nødvendigvis vil favorisere maktene som finnes. Og Whittaker advarer om hva som kan skje hvis det ikke er nok pushback.
Etter hvert som fremgangen innen AI akselererer, akselererer også de samfunnsmessige påvirkningene, og vi vil fortsette å gå nedover en “hypefylt vei mot AI,” sa hun, “hvor den kraften er forankret og naturalisert under dekke av intelligens og vi blir overvåket for å poenget [of having] veldig, veldig lite handlekraft over våre individuelle og kollektive liv.»
At bør gi bransjen pause. Om det faktisk vil er en annen sak. Det er nok noe vi får høre diskutert når hun går på scenen på Disrupt i september.
Her er de andre AI-historiene fra de siste dagene:
- DeepMinds AI kontrollerer roboter: DeepMind sier at de har utviklet en AI-modell, kalt RoboCat, som kan utføre en rekke oppgaver på tvers av forskjellige modeller av robotarmer. Det alene er ikke spesielt nytt. Men DeepMind hevder at modellen er den første som kan løse og tilpasse seg flere oppgaver og gjøre det ved å bruke forskjellige, virkelige roboter.
Roboter lærer av YouTube: Apropos roboter, CMU Robotics Institute-assistentprofessor Deepak Pathak viste denne uken frem VRB (Vision-Robotics Bridge), et AI-system designet for å trene robotsystemer ved å se et opptak av et menneske. Roboten ser etter noen få viktige opplysninger, inkludert kontaktpunkter og bane, og prøver deretter å utføre oppgaven.
Otter kommer inn i chatbot-spillet: Automatisk transkripsjonstjeneste Otter annonserte en ny AI-drevet chatbot denne uken som lar deltakerne stille spørsmål under og etter et møte og hjelpe dem å samarbeide med lagkamerater.
EU krever AI-regulering: Europeiske regulatorer står ved et veiskille over hvordan AI vil bli regulert – og til slutt brukt kommersielt og ikke-kommersielt – i regionen. Denne uken veide EUs største forbrukergruppe, European Consumer Organization (BEUC), inn med sin egen posisjon: Slutt å dra føttene dine, og «start hasteundersøkelser av risikoen ved generativ AI» nå.
Vimeo lanserer AI-drevne funksjoner: Denne uken annonserte Vimeo en pakke med AI-drevne verktøy designet for å hjelpe brukere med å lage skript, ta opp opptak ved hjelp av en innebygd teleprompter og fjerne lange pauser og uønskede forstyrrelser som “ahs” og “ums” fra opptakene.
Kapital for syntetiske stemmer: ElevenLabs, den virale AI-drevne plattformen for å lage syntetiske stemmer, har samlet inn 19 millioner dollar i en ny finansieringsrunde. ElevenLabs tok opp farten ganske raskt etter lanseringen i slutten av januar. Men publisiteten har ikke alltid vært positiv – spesielt ikke når dårlige skuespillere begynte å utnytte plattformen for sine egne formål.
Gjør om lyd til tekst: Gladia, en fransk AI-oppstart, har lansert en plattform som utnytter OpenAIs Whisper-transkripsjonsmodell for å – via et API – gjøre all lyd til tekst til nesten sanntid. Gladia lover at den kan transkribere en time med lyd for $0,61, med transkripsjonsprosessen som tar omtrent 60 sekunder.
Selen omfavner generativ AI: Harness, en oppstart som lager et verktøysett for å hjelpe utviklere med å operere mer effektivt, injiserte denne uken plattformen sin med litt AI. Nå kan Harness automatisk løse bygge- og distribusjonsfeil, finne og fikse sikkerhetssårbarheter og komme med forslag for å få skykostnadene under kontroll.
Annen maskinlæring
Denne uken var CVPR (Conference on Computer Vision and Pattern Recognition) oppe i Vancouver, Canada, og jeg skulle ønske jeg kunne ha dratt fordi foredragene og papirene ser superinteressante ut. Hvis du bare kan se én, sjekk ut Yejin Chois keynote om mulighetene, umulighetene og paradoksene til AI.
Bildekreditt: CVPR/YouTube
UW-professoren og MacArthur Genius Grant-mottakeren tok først opp noen få uventede begrensninger ved dagens mest kapable modeller. Spesielt er GPT-4 veldig dårlig på multiplikasjon. Den klarer ikke å finne produktet av to tresifrede tall riktig i en overraskende hastighet, men med litt lokking kan den få det riktig 95 % av tiden. Hvorfor spiller det noen rolle at en språkmodell ikke kan matematikk, spør du? Fordi hele AI-markedet akkurat nå er basert på ideen om at språkmodeller generaliserer godt til mange interessante oppgaver, inkludert ting som å gjøre skatter eller regnskap. Chois poeng var at vi skulle se etter begrensningene til AI og jobbe innover, ikke omvendt, da det forteller oss mer om deres evner.
De andre delene av foredraget hennes var like interessante og tankevekkende. Du kan se hele her.
Rod Brooks, introdusert som en «dreper av hype», ga en interessant historie om noen av kjernekonseptene innen maskinlæring – konsepter som bare virker nye fordi de fleste som brukte dem ikke fantes da de ble oppfunnet! Går han tilbake gjennom tiårene, berører han McCulloch, Minsky, til og med Hebb – og viser hvordan ideene holdt seg relevante langt utover sin tid. Det er en nyttig påminnelse om at maskinlæring er et felt som står på skuldrene til giganter som går tilbake til etterkrigstiden.
Mange, mange artikler ble sendt inn til og presentert på CVPR, og det er reduktivt å bare se på prisvinnerne, men dette er en nyhetsoppsummering, ikke en omfattende litteraturgjennomgang. Så her er hva dommerne på konferansen mente var det mest interessante:
Bildekreditt: AI2
VISPROG, fra forskere ved AI2, er en slags metamodell som utfører komplekse visuelle manipulasjonsoppgaver ved hjelp av en flerbrukskodeverktøykasse. La oss si at du har et bilde av en grizzlybjørn på litt gress (som avbildet) – du kan fortelle den at den bare “bytter ut bjørnen med en isbjørn på snø” og den begynner å fungere. Den identifiserer delene av bildet, skiller dem visuelt, søker etter og finner eller genererer en passende erstatning, og syr det hele tilbake på en intelligent måte, uten at det er behov for ytterligere spørsmål fra brukerens side. Blade Runner “forbedre”-grensesnittet begynner å se direkte fotgjenger ut. Og det er bare en av dens mange funksjoner.
“Planleggingsorientert autonom kjøring,” fra en multi-institusjonell kinesisk forskningsgruppe, forsøker å forene de ulike delene av den ganske stykkevise tilnærmingen vi har tatt til selvkjørende biler. Vanligvis er det en slags trinnvis prosess med “oppfatning, prediksjon og planlegging”, som hver kan ha en rekke underoppgaver (som å segmentere mennesker, identifisere hindringer, etc.). Modellen deres prøver å sette alle disse i én modell, omtrent som de multimodale modellene vi ser som kan bruke tekst, lyd eller bilder som input og output. På samme måte forenkler denne modellen på noen måter de komplekse gjensidige avhengighetene til en moderne autonom kjørestabel.
Bildekreditt: Shanghai AI Laboratory et al.
DynIBaR viser en høykvalitets og robust metode for å samhandle med video ved å bruke “dynamiske Neural Radiance Fields” eller NeRFs. En dyp forståelse av objektene i videoen gir mulighet for ting som stabilisering, dolly-bevegelser og andre ting du vanligvis ikke forventer er mulig når videoen allerede er tatt opp. Igjen … “forbedre.” Dette er definitivt den typen ting Apple ansetter deg for, og deretter tar æren for ved neste WWDC.
DreamBooth husker du kanskje fra litt tidligere i år da prosjektets side gikk live. Det er det beste systemet hittil for, det er ingen vei utenom å si det, lage dype forfalskninger. Selvfølgelig er det verdifullt og kraftfullt å gjøre denne typen bildeoperasjoner, for ikke å snakke om moro, og forskere som de hos Google jobber for å gjøre det mer sømløst og realistisk. Konsekvenser … senere, kanskje.
Prisen for beste studentoppgave går til en metode for å sammenligne og matche masker, eller 3D-punktskyer – ærlig talt er det for teknisk for meg å prøve å forklare, men dette er en viktig evne for virkelighetsoppfatning, og forbedringer er velkomne. Sjekk ut avisen her for eksempler og mer info.
Bare to gullkorn til: Intel viste frem denne interessante modellen, LDM3D, for å generere 3D, 360-bilder som virtuelle miljøer. Så når du er i metaversen og du sier: «Sett oss i en gjengrodd ruin i jungelen», skaper det bare en ny på forespørsel.
Og Meta ga ut et stemmesynteseverktøy kalt Voicebox som er superflinke til å trekke ut funksjoner til stemmer og replikere dem, selv når inngangen ikke er ren. Vanligvis for stemmereplikering trenger du en god mengde og variasjon av rene stemmeopptak, men Voicebox gjør det bedre enn mange andre, med mindre data (tenk som 2 sekunder). Heldigvis holder de denne ånden i flasken for nå. For de som tror de trenger stemmen sin klonet, sjekk ut Acapela.