Roboter lærer å utføre oppgaver ved å se på YouTube

Læring har vært en hellig gral innen robotikk i flere tiår. Hvis disse systemene skal trives i uforutsigbare miljøer, må de gjøre mer enn bare å svare på programmering – de må tilpasse seg og lære. Det som har blitt klart jo mer jeg leser og snakker med eksperter, er at sann robotlæring vil kreve en kombinasjon av mange løsninger.

Video er en spennende løsning som har vært midtpunktet i mye av det siste arbeidet i rommet. Omtrent denne tiden i fjor fremhevet vi WHIRL (in-the-Wild Human Imitating Robot Learning), en CMU-utviklet algoritme designet for å trene robotsystemer ved å se et opptak av et menneske som utfører en oppgave.

Denne uken viser assistentprofessor Deepak Pathak ved CMU Robotics Institute frem VRB (Vision-Robotics Bridge), en utvikling til WHIRL. Som med forgjengeren, bruker systemet video av et menneske for å demonstrere oppgaven, men oppdateringen krever ikke lenger at de utføres i en innstilling som er identisk med den roboten skal operere i.

“Vi var i stand til å ta roboter rundt på campus og gjøre alle slags oppgaver,” bemerker PhD-student Shikhar Bahl i en uttalelse. «Roboter kan bruke denne modellen til å utforske verden rundt dem nysgjerrig. I stedet for å bare slå med armene, kan en robot være mer direkte med hvordan den samhandler.»

Roboten ser etter noen få viktige opplysninger, inkludert kontaktpunkter og bane. Teamet bruker åpning av en skuff som eksempel. Kontaktpunktet er håndtaket og banen er retningen den åpner i. “Etter å ha sett flere videoer av mennesker som åpner skuffer,” bemerker CMU, “kan roboten bestemme hvordan den skal åpne en hvilken som helst skuff.”

Tydeligvis ikke alle skuffer oppfører seg på samme måte. Mennesker har blitt ganske flinke til å åpne skuffer, men det betyr ikke at et og annet rart bygget skap ikke vil gi oss noen problemer. Et av de viktigste triksene for å forbedre resultatene er å lage større datasett for trening. CMU er avhengig av videoer fra databaser som Epic Kitchens og Ego4D, hvorav sistnevnte har “nesten 4000 timer med egosentriske videoer av daglige aktiviteter fra hele verden.”

Bahl bemerker at det er et enormt arkiv med potensielle treningsdata som venter på å bli sett. “Vi bruker disse datasettene på en ny og annerledes måte,” bemerker forskeren. “Dette arbeidet kan gjøre det mulig for roboter å lære av den enorme mengden internett- og YouTube-videoer som er tilgjengelig.”

Read More