Mekaniske Turk-arbeidere bruker AI for å automatisere det å være menneske

Filer denne under uunngåelig, men morsom. Mechanical Turk er en tjeneste som fra de tidligste dagene så ut til å invitere til frekkelser, og faktisk viser forskere at nesten halvparten av «turkerne» ser ut til å bruke AI til å utføre oppgaver som spesifikt var ment å bli utført av mennesker fordi AI ikke kunne. Vi har lukket sløyfen på denne; flott jobbet alle sammen!

Amazons Mechanical Turk lar brukere dele opp enkle oppgaver i et hvilket som helst antall små underoppgaver som tar bare noen få sekunder å gjøre, og som betaler øre – men dedikerte stykkevis arbeidere ville utføre tusenvis og dermed tjene en beskjeden, men pålitelig lønn. Det var, som Jeff Bezos minneverdig sa det den gang, “kunstig kunstig intelligens.”

Dette var vanligvis oppgaver som da var vanskelige å automatisere – som en CAPTCHA, eller identifisere følelsen av en setning, eller en enkel “tegn en sirkel rundt katten i dette bildet,” ting som folk kunne gjøre raskt og pålitelig. Det ble brukt rikelig av folk som merket relativt komplekse data og forskere som hadde som mål å få menneskelige evalueringer eller beslutninger i stor skala.

Den er oppkalt etter den berømte sjakkspillende “automaten” som faktisk brukte et menneske som gjemte seg i basen for å lage sine skuespill – Poe skrev en flott moderne nedtelling av den. Noen ganger er automatisering vanskelig eller umulig, men i slike tilfeller kan du lage en slags maskin av menneskeheten. Man må være forsiktig med det, men det har vist seg nyttig opp gjennom årene.

Men en studie fra forskere ved EPFL i Sveits viser at Mechanical Turk-arbeidere automatiserer arbeidet sitt ved å bruke store språkmodeller som ChatGPT: En slange som biter sin egen hale eller kanskje svelger seg selv helt.

Spørsmålet dukket opp da de vurderte å bruke en tjeneste som MTurk som et “menneske i løkken” for å forbedre eller faktasjekke LLM-svar, som i utgangspunktet er upålitelige:

Det er fristende å stole på crowdsourcing for å validere LLM-utdata eller for å lage menneskelige gullstandarddata for sammenligning. Men hva om publikumsarbeidere selv bruker LLM-er, for eksempel for å øke produktiviteten, og dermed inntekten, på crowdsourcing-plattformer?

For å få en generell følelse av problemet, tildelte de en “abstrakt oppsummering”-oppgave som skulle fullføres av turkere. Ved forskjellige analyser beskrevet i papiret (fremdeles ikke publisert eller fagfellevurdert) “anslår de at 33%-46% av publikumsarbeidere brukte LLM-er når de fullførte oppgaven.”

For noen vil dette ikke komme som noen overraskelse. Et visst nivå av automatisering har sannsynligvis eksistert i turking helt siden plattformen startet. Hastighet og pålitelighet stimuleres, og hvis du kunne skrive et skript som håndterte visse forespørsler med 90 % nøyaktighet, stod du til å tjene en god del penger. Med så lite tilsyn med individuelle bidragsyters prosesser, var det uunngåelig at noen av disse oppgavene faktisk ikke ville bli utført av mennesker, som annonsert. Integritet har aldri vært Amazons sterke side, så det var ingen mening å stole på dem.

Men å se det lagt slik ut, og for en oppgave som inntil nylig virket som en bare et menneske kunne gjøre – oppsummere et papirs sammendrag tilstrekkelig – stiller det spørsmålstegn ved ikke bare verdien av Mechanical Turk, men avslører en annen front i den forestående krisen ” AI-trening på AI-genererte data» i enda en Ouroboros-aktig knipe.

Forskerne (Veniamin Veselovsky, Manoel Horta Ribeiro og Robert West) advarer om at denne oppgaven, fra og med fremkomsten av moderne LLM-er, er en som er spesielt egnet for skjult automatisering, og derfor er det særlig sannsynlig at den blir ofre for disse metodene. Men den tekniske utviklingen går stadig fremover:

LLM-er blir mer populære for hver dag som går, og multimodale modeller, som støtter ikke bare tekst, men også bilde- og videoinngang og -utgang, er på vei oppover. Med dette bør resultatene våre betraktes som “kanarifuglen i kullgruven” som bør minne plattformer, forskere og publikumsarbeidere om å finne nye måter å sikre at menneskelige data forblir menneskelige.

Trusselen om AI-spising i seg selv har vært teoretisert i mange år og ble en realitet nesten umiddelbart etter utbredt distribusjon av LLM-er: Bings kjæledyr ChatGPT siterte sin egen feilinformasjon som støtte for ny feilinformasjon om en COVID-konspirasjon.

Hvis du ikke kan være 100% sikker på at noe ble gjort av et menneske, er det sannsynligvis bedre å anta at det ikke var det. Det er et deprimerende prinsipp å måtte forholde seg til, men her er vi.

Read More