Gladia gjør all lyd til tekst i nesten sanntid

Møt Gladia, en fransk AI-startup som ønsker å endre hvordan selskaper samhandler med lyddata. Selskapet utvikler et lydtranskripsjonsapplikasjonsprogrammeringsgrensesnitt (API) som du kan integrere med andre produkter og er ment å fungere mye bedre enn det som er tilgjengelig der ute. Og dette teknologiske grunnlaget låser opp nye brukstilfeller rundt lyd.

Hvis du er kjent med lydtranskripsjons-APIer, vet du at store skyleverandører allerede har sine egne APIer. Det er Googles tale-til-tekst API, Amazon Transcribe, Microsofts tale til tekst osv. De fungerer bra, men de er dyre, trege og har ikke massevis av funksjoner.

Gladias medgründer og administrerende direktør Jean-Louis Quéguiner, som var den tidligere sjefen for AI for OVHcloud og grunnla selskapet sammen med Jonathan Soto, fortalte meg om noen av begrensningene med eksisterende APIer. Ifølge ham er det tre smertepunkter med eksisterende produkter. For det første, når det kommer til priser, koster transkribering av en time med lyd vanligvis $1,50 til $2 i timen.

For det andre er utdataene ikke alltid veldig pålitelige ettersom noen språk fungerer bra mens andre knapt støttes. Når det kommer til avanserte funksjoner, hvis folk snakker på flere språk, er sjansen stor for at API-en rett og slett ikke vil kunne legge merke til språkendringen og transkribere lyden på mer enn ett språk.

For det tredje er transkripsjons-APIer trege. Det kan ta mer enn 15 minutter å transkribere en time med lyd. Det er greit hvis du ikke trenger transkripsjoner med en gang, men det betyr at du ikke vil kunne bruke disse APIene i enkelte bransjer.

Hviskens hvisker

Gladia er basert på Whisper, OpenAIs transkripsjonsmodell for åpen kildekode. «Vi startet fra Whisper. Vi har ikke funnet opp hjulet på nytt, men vi lyttet til kundene våre og de sa til oss: ‘Det jeg vil ha er noe som fungerer like bra som Whisper,’» fortalte Jean-Louis Quéguiner.

Men Whisper er ikke perfekt. Vaniljeversjonen er fortsatt ganske treg, så Gladia har brukt mye tid på å gjøre Whisper om til en rask og responsiv transkripsjonsmodell. Det er ikke det eneste problemet.

“Halvparten av Whisper er GPT-2. Du har sett LLMs og ChatGPT, det har en tendens til å hallusinere. Vi har også gjort mye arbeid for å unngå hallusinasjonsproblemer, sa Quéguiner.

Spesielt fortalte han meg at Whisper har blitt trent på undertekster som du kan finne på internett, for eksempel på YouTube. OpenAIs modell har en tendens til å høre vanlige setninger som du kan høre i videoer på nettet, for eksempel “hvis du likte denne videoen, vennligst lik og abonner.” Det er en matematisk overrepresentasjon av noen setninger som denne, og Gladia prøver å fikse disse manglene.

I tillegg til disse modifikasjonene til Whisper og implementeringen av den, har Gladia også noen for- og etterbehandlingsalgoritmer som forbedrer sluttresultatene.

Gladia lover at den kan transkribere en time med lyd for $0,61. Og transkripsjonsprosessen tar omtrent 60 sekunder. Dens API kan oppdage når det er flere høyttalere, legge til tidsstempler, oppdage språk og bytte fra ett språk til et annet om nødvendig. Gladia legger også automatisk til tegnsetting og store bokstaver.

Som de fleste APIer er sluttresultatet i JSON-format. Men Gladia støtter også SRT- og VTT-filer for selskaper som ønsker å generere undertekster.

Jeg opprettet en konto og lastet opp et lydopptak av et intervju for å se hvordan Gladia fungerer. Det tok litt mer tid enn forventet, men det var definitivt mye raskere enn Googles eller Azures tale-til-tekst APIer.

Resultatet var ikke feilfritt, men det var ekstremt bra – det forsto akronymer og tekniske termer. Jeg åpnet den samme lydfilen i Aiko, en Mac-app utviklet av Sindre Sorhus som lar deg transkribere lydfil lokalt ved hjelp av Whisper. Som forventet var utgangen nær Gladias utgang – men Gladia var mye raskere enn å kjøre Aiko på min MacBook Pro.

Totalt sett var Gladia det beste transkripsjons-APIet jeg noen gang har brukt.

Bli en lydintelligens API

Selskapet jobber for tiden med kundesenterselskaper, virtuelle møtetjenester og videoutgivere, inkludert Claap, Livestorm og Selectra.

Gladia samlet inn en seedrunde på $4 millioner i en finansieringsrunde ledet av New Wave. Andre investorer inkluderer Sequoia, Cocoa og forretningsengler, som Solomon Hykes, Pierre Betouin, Miroslaw Klaba og Alexandre Berriche.

Å ha et bunnsolid transkripsjons-API er bare trinn én for Gladia. Selskapet håper at det da kan bygge funksjoner på toppen av dette sterke tekniske fundamentet.

For eksempel, etter at en lydfil har blitt transkribert, kan Gladia oversette tekst til et annet språk. Kombinert med tidsstempler på ordnivå betyr det at et selskap kan laste opp en lydfil og få undertekster på dusinvis av språk på bare noen få minutter.

I fremtiden håper selskapet at det kan oppsummere innholdet i en lydfil, kategorisere innhold i flere emnekategorier, lage kapitler automatisk, gjennomføre sentimentanalyse og mer.

«Vår langsiktige visjon er å gå fra 2D- til 3D-data. Lyden er ganske flat, og ideen er å utvide den med intelligens,” sa Quéguiner. “Vi tror at transkripsjon vil bli en handelsvare. Men vi tror at det som kommer til å bety mer er alternativene vi skal legge til.»

Read More