Voice.ai samler inn 6 millioner dollar når sanntidsstemmeveksleren nærmer seg 500 000 brukere

Tjenester som Midjourney og ChatGPT har flyttet grensene for hvordan AI kan lage bilder og tekst ut av grunnleggende tekstmeldinger. Nå ser lyd ut til å være den uunngåelige neste grensen. Musikkgenerering basert på ordmeldinger, AI-veiledere for språklæring og stemmesimulatorer har alle sett utviklingen de siste månedene. Voice.ai håper å være en del av den samtalen (heh) med teknologi som lar brukere endre (og skjule) stemmene sine i sanntid, og nå har det samlet inn sin første eksterne finansiering i hælene på tidlig vekst.

Med mer enn 480 000 brukere og et bibliotek med mer enn 50 000 stemmefiltre, har Voice.ai samlet inn 6 millioner dollar, finansiering som den planlegger å bruke for å ta sin stemmeendrende teknologi til nye steder.

Mucker Capital og M13 leder runden. Før nå har Voice.ai vokst fra munn til munn – oppstarten har en Discord-kanal med mer enn 120 000 mennesker – på baksiden av 3 millioner dollar i egenfinansiering.

For tiden blir selskapets verktøy – tilgjengelig som apper for Mac, PC, Android og iOS – tatt i bruk av spillere, innholdsskapere, Vtubers og andre på TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us , Skype, WhatsApp og andre plattformer. Voice.ai-grensesnittet lar dem lage en ny stemme, eller velge fra rundt 50 000 forskjellige forhåndslagrede stemmer (opprettet og delt av brukere som dem selv), som kan brukes som de er eller endres, for å bruke live på støttede plattformer, eller for opptak.

Planen er å bruke finansieringen til å ansette flere tekniske talenter og til å bygge nye SDK-er og API-er for å jobbe med flere plattformer som Meta, Unreal og Unity; bringe på flerspråklig støtte; og legg til nye applikasjoner som sang der stemmen er i sentrum.

Oppstarten skiller det ikke ut, men det blir interessant å se om den bruker noe av finansieringen også til å øke serverkapasiteten.

Det er ingen liten belastning. Anekdotisk har vi hørt at GPU-smerte er en av de største gating-faktorene for hvordan mange AI-apper er i stand til å skalere for øyeblikket. (Det er delvis grunnen til at du ser store avtaler gjøres som inkluderer strategier som gir prosessering og serverkapasitet.)

Spesielt for Voice.ai blir stemmen din behandlet lokalt og kanalisert til hvor enn den skal brukes gjennom det grunnlegger og administrerende direktør Heath Ahrens beskrev for meg som en “virtuell lydkabel.” Men når du ser på anmeldelser av appene deres, er en vanlig klage at når du registrerer deg blir du satt på en venteliste fordi “overveldende etterspørsel har serverne våre på maksimal kapasitet” med et løfte om at du vil bli informert når tjenesten øker kapasitet.

Det er dusinvis av tale-til-stemme- og stemme-til-tale-tjenester på markedet i dag, og allerede mye aktivitet blant dem: I fjor kjøpte Spotify opp Sonantic og Snap kjøpte en AI-stemmeassistent enda tidligere enn det; en annen oppstart, Sanas, jobber med å endre aksenten din, og det er stemmesimulatorene Murf og Acapela, blant mange andre. Voice.ai teller seg selv i samme generelle kategori som Respeecher og ElevenLabs, to stemme-til-stemme AI-oppstarter, som lar brukere bruke masker for å finpusse eller fullstendig transformere stemmene sine – i noen tilfeller skape helt syntetiske stemmer i stedet for den virkelige varen.

Respeecher, grunnlagt og basert i Ukraina, skapte seg et navn ved å hjelpe til med å bygge en ny Darth Vader-stemme for nye Star Wars-avdrag, basert på hvordan James Earl Jones hørtes ut for 45 år siden da han startet rollen. (I tråd med en karakter som var ivrig på å ødelegge verdener, ble Darths stemme levert til Hollywood-klienten fra kontorene i Ukraina da Russland marsjerte inn i landet.)

ElevenLabs – berømt (eller beryktet som tilfellet kan være) – har bygget en plattform som er skremmende god til å klone stemmer, og tidligere denne måneden hentet den sin siste finansieringsrunde på $19 millioner fra en gruppe store investorer.

Voice.ai prøver, i den blandingen, å posisjonere seg som AI-stemmemodifiseringsappen for Everyman.

“Det er mange selskaper som prøver å tilby en annen smak av stemmeteknologi til bedrifter,” sa Ahrens til TechCrunch i en e-post (ironisk nok var det ikke mulig å arrangere et direkteintervju med ham). Ahrens har litt erfaring med bygging av B2B AI-teknologi: hans to tidligere selskaper – iSpeech for tekst-til-tale og Haystack for ansiktsgjenkjenning – er bygget rundt API-tilbud.

“Det som skiller Voice.ai er at vi er fokusert på å bringe teknologi som tidligere var reservert for bedriftsbedrifter direkte i hendene på forbrukere på en rimelig måte.” Mange brukere, bemerket han, “kommer til oss fra klassiske DSP-stemmevekslere og stemmemodulatorer som de hadde brukt tidligere og som fortsatt er populære blant mange spillere og streamere.”

“Rimelig” kommer i to nivåer, med de fleste brukere nå på en gratis tjeneste som krever at de velger å gi beregningskraft for å trene Voice.ai sine modeller, med tjenesten bygget på sitt eget private datasett som består av “millioner av unike brukere” .” Ingen priser er oppgitt på nettstedet: vi ber om disse detaljene.

“Vi tror på å gjøre teknologi tilgjengelig og planlegger å jobbe sammen med åpen kildekode-fellesskapet for å demokratisere Voice AI-teknologi,” la Ahrens til.

Voice.ai hevder også at det tar en fundamentalt annerledes tilnærming til utfordringen med å endre en stemme, og benytter seg av noen av etosene som har bygget seg opp rundt bruken av avatarer av Vtubers, spillere og andre på nettet.

“De fleste stemme-AI-selskaper som kommer inn i verdensrommet prøver å bygge skalerbare bedriftsfokuserte tekst-til-tale-løsninger eller dyre stemme-til-tale-tjenester for produksjonsstudioer,” sa Ahrens. “Vi starter fra det motsatte spekteret og prøver å levere verdi til enkeltpersoner som ønsker å utvide hvordan de høres ut på nettet. Kjerneverdiforslaget til vår tale-til-tale AI er ikke at den perfekt kan replikere en gitt person. Det er at den beholder kjerneelementene i en brukers tale: deres følelser, tempo og vektlegging mens den erstatter lyden av stemmen, for å skape et helt unikt nytt sluttresultat, i sanntid.»

Det kan være på grunn av hvordan demografien i interaktive plattformer som spill er skjev, men foreløpig er Voice.ai sitt publikum 70 % menn versus 30 % kvinner med nye kategorier som åpner seg ikke bare rundt hvem som bruker teknologien, men hvorfor.

Det inkluderer ikke bare de som bruker avatarer og bygger stemmer for å matche dem, eller de som leter etter mer personvern, men også, sa han, “transseksuelle brukere som kan representere seg selv med stemmer som samsvarer med deres identitet, samt brukere som utforsker helt nye nettbaserte personas for seg selv.”

Det er allerede en base av brukere som benytter seg av Voice.ai sine direkte-til-forbruker-tilbud, men en av grunnene til at Mucker investerer i oppstarten er fordi den tror at det er en mulighet til å bygge ut et nettverk av utviklere som bruker og integrerer sin teknologi.

“Voice.ai er klar til å revolusjonere AI-utviklerfellesskapet på en måte som ligner på AdMobs innvirkning på mobilapputviklerfellesskapet,” sa Omar Hamoui, en partner i hovedinvestor Mucker Capital. (Hamoui grunnla tidligere mobilannonseoppstarten AdMob, til slutt kjøpt opp av Google, så han har direkte erfaring med å bygge mobile utviklerverktøy.) «Ved å tilby brukervennlige løsninger som en gang var eksklusive for store bedrifter, har Voice.ai som mål å demokratisere tilgang for utviklere over hele verden.”

Karl Alomar, tidligere COO for Digital Ocean, som ledet investeringen for M13, sa at investorer vil ta en aktiv rolle i neste utviklingsstadium. “Også hos Digital Ocean så vi verdien av å bygge et fellesskap av byggere av byggherrer,” sa han. “Vi er glade for at skapere og utviklere skal bygge på Voice.ai-plattformen.”

Read More