Stemmegenererende plattform ElevenLabs samler inn 19 millioner dollar, lanserer deteksjonsverktøy
ElevenLabs, den virale AI-drevne plattformen for å lage syntetiske stemmer, har samlet inn en ny runde med penger.
I dag kunngjorde oppstarten nedleggelsen av en serie A-runde på 19 millioner dollar, ledet av gründerne Nat Friedman og Daniel Gross sammen med Andreessen Horowitz. Andre deltakere inkluderer tungvektere Creator Ventures, SV Angel, Instagram-medgründer Mike Krieger, Oculus-medgründer Brendan Iribe, Deepmind og Inflection AI-medgründer Mustafa Suleyman og O’Reilly Media-grunnlegger Tim O’Reilly.
En kilde som er kjent med saken sier til TechCrunch at transjen verdsetter ElevenLabs til 99 millioner dollar etter penger – et respektabelt tall, spesielt med tanke på at oppstarten ble lansert for litt over et år siden.
“Denne investeringen vil bli brukt til å fortsette å bygge ElevenLabs banebrytende forskningssenter for stemme-AI og til å lansere en rekke tilleggsprodukter for å støtte spesifikke markedsvertikaler som publisering, spill, underholdning og samtaleapplikasjoner,” medgründer og administrerende direktør Mati Staniszewski fortalte TechCrunch via e-post.
ElevenLabs, som har skapt overskrifter de siste månedene av både gode og avskyelige grunner, ble grunnlagt av Staniszewski, som tidligere jobbet hos Palantir, og hans barndomsvenn Piotr Dabkowski, en tidligere Google-ansatt. Inspirert av den middelmådige dubbingen av amerikanske filmer de så da de vokste opp i Polen, hjemlandet, satte paret i gang med å designe en plattform som kunne gjøre det bedre – å utnytte AI, selvfølgelig.
ElevenLabs kan gjøre tekst om til tale ved hjelp av syntetiske stemmer, klonede stemmer eller helt nye “kunstige” stemmer som etterligner lydene til mennesker av ulike kjønn, aldre og etnisiteter. Selskapets AI-tekst-til-tale-modeller er språkagnostiske, slik at bedriftskunder kan finjustere dem og bygge sine egne, proprietære talemodeller på toppen.
Sammen med Series A-løftet lanserer ElevenLabs (som for tiden sysselsetter 15 personer) Projects, en arbeidsflyt for redigering og oppretting av talt innhold i lang form. Med Projects kan brukere generere dialogsegmenter og til og med lydbøker uten å måtte forlate plattformen.
“For business-to-business-partnere kan teknologien vår brukes i områder som skalerbar og flerspråklig lydbokproduksjon, stemmeføring av karakterer i videospill, stemmeføring av digitale artikler, støtte for synshemmede for å få tilgang til skriftlig innhold på nettet og drive AI-radio,” Staniszewski sa.
ElevenLabs, som ble lansert i beta i slutten av januar, tok fart ganske raskt – på grunn av den ekstremt høye kvaliteten på de genererte stemmene, raske generasjonstider og generøse gratislag. Men som nevnt tidligere, har publisiteten ikke alltid vært positiv – spesielt ikke når dårlige skuespillere begynte å utnytte plattformen for sine egne formål.
ElevenLabs tilbyr verktøy for å klone – eller generere fra bunnen av – realistisk klingende stemmer ved å utnytte AI. Bildekreditt: ElevenLabs
Den beryktede oppslagstavlen 4chan, kjent for sitt konspiratoriske innhold, brukte ElevenLabs sitt verktøy for å dele hatefulle meldinger som etterligner kjendiser som skuespilleren Emma Watson. Andre steder var James Vincent i The Verge i stand til å trykke ElevenLabs for å klone måls stemmer i løpet av sekunder – og generere lydprøver som inneholder alt fra trusler om vold til uttrykk for rasisme og transfobi.
Som svar sa ElevenLabs at de ville introdusere et sett med nye sikkerhetstiltak, som å begrense stemmekloning til betalte kontoer, utestenge brukere som gjentatte ganger bryter tjenestevilkårene og tilby et nytt AI-deteksjonsverktøy.
Deteksjonsverktøyet lanseres i dag. Kalt AI Speech Classifier og tilgjengelig som API for “utvalgte” partnere, den er designet for å oppdage om et opplastet lydeksempel inneholder AI-generert innhold fra ElevenLabs.
“Å sikre at Generative AI-plattformer kan omfavnes trygt er en nøkkelutfordring for hele AI-generert sektor, inkludert tekst-, bilde- og taleplattformer,” sa Staniszewski. “Vi må sikre at folk er utdannet om naturen til det generative medielandskapet og vet at slikt innhold er der ute – vi er forpliktet til å bygge verktøy for å hjelpe folk med å oppdage AI-generert innhold, i interessen for åpenhet.”
Et frivillig deteksjonsverktøy – forutsatt at det fungerer som annonsert – vil ikke nødvendigvis avskrekke dårlig oppførsel. Men det er en annen elefant i rommet som ElevenLabs ikke har tatt opp: den eksistensielle trusselen dens teknologi utgjør for stemmeskuespillere.
Motherboard skriver om hvordan stemmeskuespillere i økende grad blir bedt om å signere rettighetene til stemmene sine slik at klienter kan bruke AI til å generere syntetiske versjoner som til slutt kan erstatte dem – noen ganger uten ekstra kompensasjon. I mellomtiden indikerer interne e-poster sett av The New York Times at Activision Blizzard, en av de største spillutgiverne i verden, jobber med verktøy for AI-assistert «stemmekloning».
Det ser ut til at ElevenLabs ser på dette som den naturlige utviklingen av ting, og viser til sitt arbeid med utgivere som Storytel og medieplattformer som TheSoul Publishing og MNTN for lydbøker, videospill og radioinnhold. (Storytel og TheSoul Publishing er strategiske investorer.) Selskapet hevder at det har over en million registrerte brukere på tvers av kreative, underholdnings- og publiseringsområder som har skapt ti års lydinnhold.
ElevenLabs planlegger etter hvert å utvide sine AI-modeller til stemmedubbing, følge i fotsporene til startups som Papercup og Deepdub og bygge det de kaller “et grunnlag for å kunne overføre følelser og intonasjon fra ett språk til et annet.”
“Dette vil gjøre det mulig for enhver video å bli dubbet til et hvilket som helst språk på en engasjerende, effektiv og skalerbar måte, samtidig som den opprinnelige foredragsholderens stemme opprettholdes,” skriver ElevenLabs i en pressemelding. “[We are] har allerede utført en rekke tester med industripartnere for å muliggjøre AI-dubbing i stor skala.»
Med 21 millioner dollar i banken (hvorav 2 millioner dollar kom fra en pre-seed-runde i januar), er ElevenLabs – for fordømt – laserfokusert på å slå tilbake sine rivaler i det voksende generative stemmerommet. De inkluderer etablerte selskaper som Amazon, Google og Microsoft, så vel som startups som Murf, Tavus, Resemble AI, Respeecher, PlayHT og Lovo.