MLCommons lanserer en ny plattform for å benchmarke AI medisinske modeller
Med pandemien som en akselererende, omfavner helsesektoren AI med entusiastisk. I følge en undersøkelse fra Optum fra 2020 har 80 % av helseorganisasjonene en AI-strategi på plass, mens ytterligere 15 % planlegger å lansere en.
Leverandører – inkludert Big Tech-selskaper – stiger for å møte etterspørselen. Google avduket nylig Med-PaLM 2, en AI-modell designet for å svare på medisinske spørsmål og finne innsikt i medisinske tekster. Andre steder utvikler startups som Hippocratic og OpenEvidence modeller for å gi praktiske råd til klinikere på feltet.
Men etter hvert som flere modeller tilpasset medisinsk bruk kommer på markedet, blir det stadig mer utfordrende å vite hvilke modeller – om noen – som fungerer som annonsert. Fordi medisinske modeller ofte er trent med data fra begrensede, trange kliniske omgivelser (f.eks. sykehus langs østkysten), viser noen skjevheter mot visse pasientpopulasjoner, vanligvis minoriteter – som fører til skadelige konsekvenser i den virkelige verden.
I et forsøk på å etablere en pålitelig, pålitelig måte å benchmarke og evaluere medisinske modeller på, har MLCommons, ingeniørkonsortiet fokusert på å bygge verktøy for AI-industrimålinger, utviklet en ny testplattform kalt MedPerf. MedPerf, sier MLCommons, kan evaluere AI-modeller på “mangfoldige medisinske data fra den virkelige verden” samtidig som pasientens personvern beskyttes.
“Målet vårt er å bruke benchmarking som et verktøy for å forbedre medisinsk AI,” sa Alex Karargyris, medformann for MLCommons Medical Working Group, som ledet MedPerf, i en pressemelding. “Nøytral og vitenskapelig testing av modeller på store og mangfoldige datasett kan forbedre effektiviteten, redusere skjevhet, bygge offentlig tillit og støtte etterlevelse av regelverk.”
MedPerf, resultatet av et toårig samarbeid ledet av Medical Working Group, ble bygget med innspill fra både industri og akademia – over 20 selskaper og mer enn 20 akademiske institusjoner ga tilbakemeldinger, ifølge MLCommons. (Medlemmer i Medical Working Group spenner over store korps som Google, Amazon, IBM og Intel, samt universiteter som Brigham and Women’s Hospital, Stanford og MIT.)
I motsetning til MLCommons’ generelle AI-benchmarking-suiter, som MLPerf, er MedPerf designet for å brukes av operatører og kunder av medisinske modeller – helseorganisasjoner – i stedet for leverandører. Sykehus og klinikker på MedPerf-plattformen kan vurdere AI-modeller på etterspørsel, ved å bruke “føderert evaluering” for å fjerndistribuere modeller og evaluere dem på stedet.
MedPerf støtter populære maskinlæringsbiblioteker i tillegg til private modeller og modeller som kun er tilgjengelige gjennom et API, som de fra Epic og Microsofts Azure OpenAI Services.
En illustrasjon av hvordan MedPerf-plattformen fungerer i praksis. Bildekreditt: MLCommons
I en test av systemet tidligere i år, var MedPerf vert for den NIH-finansierte Federated Tumor Segmentation (FeTS) Challenge, en stor sammenligning av modeller for å vurdere post-op behandling for glioblastom (en aggressiv hjernesvulst). MedPerf støttet testing av 41 forskjellige modeller i år, som kjører både på stedet og i skyen, på tvers av 32 helsetjenester på seks kontinenter.
I følge MLCommons viste alle modellene redusert ytelse på steder med annen pasientdemografi enn de de ble trent på, og avslørte skjevhetene inne i.
“Det er spennende å se resultatene av MedPerfs medisinske AI-pilotstudier, der alle modellene kjørte på sykehusets systemer og utnyttet forhåndsavtalte datastandarder, uten å dele noen data,” Renato Umeton, direktør for AI-operasjoner ved Dana-Farber Cancer Institute og en annen medformann for MLCommons Medical Working Group, sa i en uttalelse. “Resultatene forsterker at benchmarks gjennom forent evaluering er et skritt i riktig retning mot mer inkluderende AI-aktivert medisin.”
MLCommons ser på MedPerf, som for det meste er begrenset til å evaluere modeller for radiologiskanning for øyeblikket, som et “grunnleggende skritt” mot sitt oppdrag om å akselerere medisinsk AI gjennom “åpne, nøytrale og vitenskapelige tilnærminger.” Den oppfordrer AI-forskere til å bruke plattformen til å validere sine egne modeller på tvers av helseinstitusjoner og dataeiere for å registrere pasientdataene sine for å øke robustheten til MedPerfs testing.
Men denne forfatteren lurer på om – forutsatt at MedPerf fungerer som annonsert, noe som ikke er en sikker ting – om plattformen virkelig takler de vanskelige problemene i AI for helsetjenester.
En nylig avslørende rapport utarbeidet av forskere ved Duke University avslører et enormt gap mellom markedsføringen av AI og månedene – noen ganger år – med slit det tar å få teknologien til å fungere på riktig måte. Ofte, fant rapporten, ligger vanskeligheten i å finne ut hvordan man kan inkorporere teknologien i de daglige rutinene til leger og sykepleiere og de kompliserte omsorgstjenester og tekniske systemene som omgir dem.
Det er ikke et nytt problem. I 2020 ga Google ut en overraskende ærlig whitepaper som beskrev årsakene til at AI-screeningsverktøyet for diabetisk retinopati kom til kort i virkelige tester. Veisperringene lå ikke nødvendigvis i modellene, men snarere måtene sykehusene brukte utstyret på, internettforbindelsens styrke og til og med hvordan pasientene reagerte på den AI-assisterte evalueringen.
Ikke overraskende har helsepersonell – ikke organisasjoner – blandede følelser om AI i helsevesenet. En meningsmåling fra Yahoo Finance fant at 55 % mener at teknologien ikke er klar til bruk, og bare 26 % tror den kan stole på.
Det er ikke å antyde at medisinsk modellskjevhet ikke er et reelt problem – det er det, og det har konsekvenser. Systemer som Epic’s for å identifisere tilfeller av sepsis, for eksempel, har vist seg å gå glipp av mange tilfeller av sykdommen og utsteder ofte falske alarmer. Det er også sant at det ikke har vært lett for organisasjoner som ikke er på størrelse med for eksempel Google eller Microsoft å få tilgang til varierte, oppdaterte medisinske data utenfor gratis depoter for modelltesting.
Men det er uklokt å legge for mye aksjer på en plattform som MedPerf der det gjelder folks helse. Benchmarks forteller tross alt bare en del av historien. Sikker distribusjon av medisinske modeller krever kontinuerlig, grundig revisjon fra leverandører og deres kunder – for ikke å snakke om forskere. Fraværet av slik testing er intet mindre enn uansvarlig.