Kinas søkemotorpioner avslører en stor språkmodell med åpen kildekode for å konkurrere med OpenAI
I februar sa Sogou-grunnlegger Wang Xiaochuan på Weibo at “Kina trenger sin egen OpenAI.” Den kinesiske gründeren nærmer seg nå drømmen sin da hans begynnende oppstart Baichuan Intelligence rullet ut sin neste generasjons store språkmodell Baichuan-13B i dag.
Baichuan blir utpekt som en av Kinas mest lovende LLM-utviklere, takket være grunnleggerens historie som et datavitenskapelig vidunderbarn fra Tsinghua University og grunnleggeren av søkemotorleverandøren Sogou, som senere ble kjøpt opp av Tencent.
Wang trakk seg fra Sogou på slutten av 2021. Da ChatGPT tok verden med storm, lanserte gründeren Baichuan i april og satte raskt inn 50 millioner dollar i finansiering fra en gruppe engleinvestorer.
Som andre hjemmelagde LLM-er i Kina, er Baichuan, en modell med 13 milliarder parametere basert på Transformer-arkitekturen (som også støtter GPT), trent på kinesiske og engelske data. (Parametere refererer til variabler som modellen bruker for å generere og analysere tekst.) Modellen er åpen kildekode og optimalisert for kommersiell bruk, ifølge GitHub-siden.
Baichuan-13 er trent på 1,4 billioner tokens. Til sammenligning bruker Metas LLaMa 1 billion tokens i sin modell med 13 milliarder parametere. Wang sa tidligere i et intervju at oppstarten hans var på vei til å gi ut en storskalamodell som kan sammenlignes med OpenAIs GPT-3.5 innen slutten av dette året.
Etter å ha startet for bare tre måneder siden, har Baichuan allerede oppnådd en betydelig utviklingshastighet. I slutten av april hadde teamet vokst til 50 personer, og i juni rullet det ut sin første LLM, førtreningsmodellen Baichuan-7B som kan skilte med 7 milliarder parametere.
Nå er den grunnleggende modellen Baichuan-13B tilgjengelig gratis for akademikere og utviklere som har fått offisiell godkjenning til å bruke den til kommersielle formål. Viktigere, i en tidsalder med amerikanske AI-brikkesanksjoner mot Kina, tilbyr modellen varianter som kan kjøres på maskinvare av forbrukerkvalitet, inkludert Nvidias 3090-grafikkort.
Andre kinesiske firmaer som har investert tungt i store språkmodeller inkluderer søkemotorgiganten Baidu; Zhipu.ai, en spinoff av Tsinghua University ledet av professor Tang Jie; samt forskningsinstituttet IDEA ledet av Harry Shum, som var med å grunnlegge Microsoft Research Asia.
Kinas store språkmodeller dukker raskt opp mens landet forbereder seg på å implementere noen av verdens strengeste AI-forskrifter. Som rapportert av Financial Times, forventes Kina å utarbeide forskrifter for generativ AI med spesielt fokus på innhold, noe som indikerer mer intensivert kontroll enn reglene som ble innført i april. Bedrifter kan også trenge å få en lisens før de lanserer store språkmodeller, noe som kan bremse Kinas innsats for å konkurrere med USA i den begynnende industrien.