Novi pristup OpenAI-ja za učenje imitacije jednim strijelom, zavirivanje u budućnost AI

Jednodomno učenje imitacije Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

16. svibnja istraživači OpenAI podijelili su video jednog svog projekta zajedno s dva važna rada istražujući rješenja za tri ključna uska grla trenutnog razvoja AI: meta-učenje, učenje jednim kadrom i automatizirano generiranje podataka. U svom prethodnom postu obećao sam članak posvećen fascinantnom problemu učenja jednim pokušajem, pa evo ga. Za početak možete pogledati videozapis koji su objavili i koji objašnjava njihov nevjerojatan rad:

U ovom videu vidite fizičkog robota s jednom rukom koji slaže kocke jedna na drugu. Znajući za složene zadatke koje industrijski roboti trenutno mogu izvršavati, ako istraživač ne pokušava objasniti o čemu se radi, na mnogim računima to bi bilo vrlo teško. U kontroliranom okruženju zadatak je jednostavnih, proceduralnih (tvrdo kodiranih) pristupa već riješio ove probleme. Ono što je obećavajuće i revolucionarno je koliko bi se opći okvir ispod njega mogao širiti do višestrukih, složenijih i adaptivnijih ponašanja u bučnijim okruženjima.

Razlika u umu između čovjeka i viših životinja, velika je, sigurno, jedna stupnja, a ne vrste.
- Charles Darwin

Analogno tome, ovaj je članak snažan dokaz da će razlike u kognitivnim sustavima između postojećeg AI (umjetna inteligencija fizičkih sustava) i robota 22. stoljeća biti jednake razmjere, a ne vrste. Od 2012. natjecanje ImageNet *, istraživanja dubokog učenja su u porastu, ne toliko da bi se modificirala priroda raspodijeljenih računanja koje vrši neuronska mreža, nego pronalaženjem novih načina strukturiranja mreža kako bi oni naučili određeni zadatak. Budući da je funkcija neuronske mreže struktura, ta struktura nije tvrdo kodirana (nije zamišljena ručno), ali rezultati atomskih računskih jedinica koje su u početku povezane između ulaza i izlaza mogu mijenjati svoju strukturu i veze. Upravo modifikacijom cjelokupne strukture mreže uči određenu funkciju.

U ovom su članku izgradili opći okvir za osposobljavanje agenta da predstavlja zadatke na apstraktan način, te naučili prenijeti to znanje u nove neviđene zadatke (prijenos učenja) nakon samo jedne demonstracije novog zadatka (jedan snimanje imitacije snimka).

Zadaci

Iako se točna arhitektonska implementacija razlikuje, oni uzimaju dva zadatka kao primjere za prikazivanje izvedbe općeg pristupa.

Dostizanje čestica

U prvom primjeru sustav prima ulaze obojene ciljne pozicije na ravnini i jednu video demonstraciju simuliranog agenta koji ide do navedenog cilja.

Slika 2. Robot je točkasti masa kontrolirana dvodimenzionalnom silom. Obitelj zadataka je dostići ciljni orijentir. Identitet orijentire razlikuje se od zadatka do zadatka, a model mora utvrditi koji će cilj slijediti na temelju demonstracije. (lijevo) ilustracija robota; (sredina) zadatak je doći do narančaste kutije, (desno) zadatak je doći do zelenog trokuta.

Tijekom obuke sustav mora reproducirati isti zadatak (dostići narančastu), ali iz druge konfiguracije, s različitim početnim položajima za robota i ciljeve. Nije jasno je li tijekom ispitivanja agent testiran na zadatku na kojem je bio obučen (dosegne narančastu) ili na zadatku za koji nikada ranije nije vidio (na primjer, posegnite za zelenim) ili oboje.

Osposobljeni pravilnik ocjenjuje se prema novim scenarijima i uvjetuje se na novim demonstracijskim putanjama neviđenim tijekom treninga.

Sigurno je da agent mora zaključiti cilj cilja iz jedinstvene demonstracije i opet krenuti iz druge konfiguracije. To podrazumijeva da se točan motorni slijed nije mogao saznati prije ispitivanja i da se mora zaključiti apstrakcijom (strukturirani prikaz više razine) zadatka i planiranjem motora.

Slaganje blokova

U drugom primjeru agent mora naučiti slagati kocke (identificirane različitim bojama) istim redoslijedom kao onaj prikazan u jednoj simuliranoj demonstraciji. Ova simulirana demonstracija serija je 2D slika generiranih 3D fizikalnim motorom u kojem su modelirana svojstva motornih i senzornih aparata robota.

Politika jednim potezom. Jedna je politika obučena za rješavanje mnogih zadataka. Glavni zadatak: {abc, def}, Donji zadatak: {ab, cd, ef}

U oba su primjera početni položaji kockica u demonstracijskom i stvarnom testu različiti, a svaki zadatak polazi od drugog početnog položaja. Robot ne pokušava zamijeniti kocke kako bi se podudarali s početnim položajem demonstracije, on prebacuje zadatak više razine slaganja kocke u svako stanje u kojem započinje.

Trening pomoću randomizacije domena

U oba slučaja sve slike korištene tijekom treninga dobivaju se simulacijom pomoću randomizacije domene u kojoj će nasumično utvrditi sljedeće aspekte uzoraka:

Broj i oblik distraktorskih predmeta na stolu Položaj i tekstura svih predmeta na stolu Teksture stola, poda, okvira za slike i robota Položaj, orijentacija i vidno polje kamere Broj svjetla u prizoru Položaj, orijentacija, i spekularne karakteristike svjetla Vrsta i količina slučajne buke dodane slikama

Trening set za postizanje čestica

Smatramo sve težim skupom zadataka, gdje se broj orijentira povećava s 2 na 10. Za svaku obitelj zadataka prikupljamo 10000 putanja za obuku, pri čemu su položaji orijentacija i početni položaj točkastog robota nasumični. Koristimo tvrdo kodanu stručnu politiku za učinkovito generiranje demonstracija. Trejorijama dodamo buku perturbirajući izračunate radnje prije nego što ih primijenimo u okoliš, a mi koristimo jednostavno bihevioralno kloniranje za obuku politike neuronske mreže

Trening set za slaganje blokova

Konkretno, prikupljamo 140 zadataka treninga i 43 testna zadatka, svaki s različitim željenim rasporedom blokova. Broj blokova u svakom zadatku može varirati između 2 i 10. Prikupljamo 1000 putanja po zadatku za obuku i održavamo zaseban skup putanja i početnih konfiguracija koje se koriste za evaluaciju. Slično zadatku za postizanje čestica, mi ubrizgavamo buku u proces prikupljanja putanje. Putanje se prikupljaju pomoću tvrdo kodirane politike.

Uspješne demonstracije prikupljaju se pomoću tvrdo kodirane politike

Imajte na umu da se tijekom učenja ispravne putanje generiraju proceduralno "tvrdo kodiranom" politikom, za koju se vjerujem da se oslanja na klasične tehnike identifikacije i kontrole sustava. Tako tijekom treninga i testiranja agent ima dva ulaza: a) demonstraciju u konfiguraciji A i b) početnu konfiguraciju B. Samo tijekom treninga algoritam učenja ima pristup idealnom odgovoru: putanji koja počinje od konfiguracije B koja odgovara na problem i s kojim će se usporediti odgovor agenta tijekom učenja, što ga čini problemom učenja pod nadzorom.

Za svaki zadatak treninga pretpostavljamo dostupnost niza uspješnih demonstracija.

Ako nije jasno, u sljedećem ćemo odjeljku prevladati razlike između različitih vrsta paradigmi učenja.

Algoritam optimizacije i funkcija gubitaka

Nadzirano učenje odnosi se na paradigme treninga u kojima mreža pri svakoj odluci ima pristup ispravnom izboru koji je trebao donijeti, a samim tim i na pojavu pogreške. Na primjer, u klasifikaciji pasa i mačaka, naljepnica slika pasa i mačaka tijekom treninga poznata je unaprijed i pogreške se odmah otkrivaju. U tom se smislu razlikuje od nenadziranog učenja, gdje se od agenta općenito traži da pronađe nepoznatu strukturu u ulazima koje primi, a bez naljepnica mačaka i pasa moralo bi otkriti da postoje dva grozda različitih predmeta samo na temelju podaci sadržani u podacima. Također se razlikuje od Ojačavanja učenja i to što se često primjenjuju na sustav u stvarnom vremenu u kojem nije poznat točan redoslijed odluke koja vodi ka cilju, ali samo će konačna "nagrada" odlučiti je li slijed bio ispravan. Upotrebom imitacijskog učenja oni pretvaraju klasični problem učenja u pojačanom obliku u nadzirani problem učenja, u kojem se pogreška izračunava s udaljenosti na promatranu putanju.

Kao što je slučaj s bilo kojim nadzorom treninga, zadati zadatak je u potpunosti definiran funkcijom gubitka, koja ima za cilj utvrditi koliko je bio agent od planiranog ponašanja. Definiranje ove funkcije često je kritični korak, jer određuje kako algoritmi za optimizaciju ažuriraju parametre modela. Ti su algoritmi važni za vrijeme računanja i često zahtijevaju podešavanje da bi se uopće mogli konvergirati. Zapravo rješenja koja će umanjiti funkciju u vrlo visokoj dimenziji nalaze se u vrlo maloj ljusci parametrskog prostora, s malim razmakom među njima, čim se maknete s te male domene, udaljenost između rješenja brzo raste. Postoji mnogo vrlo zanimljivog rada na tu temu koji je između ostalog uradila vrlo nevjerojatna Jennifer Chayes, ona je briše temu u vrlo zanimljivom intervjuu u posljednjoj epizodi Talking Machines.

Tijekom obuke mreža politika (cijela mreža, koja je u stanju odlučiti iz kojih će koraka poduzeti), oni najprije obrađuju uspješnu demonstracijsku putanju. U ovom će dijelu usporediti dva pristupa, klasično bihevioralno kloniranje (nije baš siguran u implementaciju koji su koristili) i algoritmi DAGGER. To će tada omogućiti iterativno minimiziranje funkcije gubitaka bilo kroz l2 ili cross-entropy gubitak na temelju toga jesu li akcije kontinuirane ili diskretne (na temelju raspodjele događaja u nizu). U svim su eksperimentima koristili algoritam Adamax za optimizaciju sa stopom učenja od 0,001.

Veličina koraka počinje malim i propada eksponencijalno.

Algoritam sam po sebi ne omogućuje prijenos, način na koji možete sastaviti svoj set za trening i funkciju gubitka koja će omogućiti transfer.

U zadacima postoje dvije vrste prijenosa. Prva vrsta se naziva "premoštavanje jaz stvarnosti", to je generalizacija u učenju koja omogućuje prijenos između treninga na simuliranim ulazima na testiranje prirodnih podražaja. Podaci simulacije često su siromašna aproksimacija stvarnog svijeta, previše savršena, da nema složenost stvarnog objekta. U stvarnom svijetu kamera može biti neispravna i bučnija, kontrola motora bit će manje precizna, boje će se mijenjati, teksture će biti bogatije itd. Da bi omogućili prvi prijenos, koriste metodu koju nazivaju "randomizacija domena" : mreža dodavanjem buke ulazima može naučiti zajedničku relevantnu strukturu koja će joj omogućiti primjerenu generalizaciju u stvarnom svijetu. Oni će, na primjer, mijenjati kut kamere između primjera treninga, mijenjati teksture ili učiniti da putanje budu manje savršene. Dodavanjem buke tijekom treninga dodaje se robusnost.

Drugi ovdje testirani transfer je sposobnost stvaranja relevantnog motornog slijeda u prethodno nevidljivom skupu konfiguracije i cilja, temeljenom na jednoj demonstraciji koja započinje u drugoj početnoj konfiguraciji, ali sa sličnim krajnjim ciljem. Prijenos će opet biti omogućen načinom na koji konstruiramo trening set i modeliramo funkciju gubitka. Predstavljajući demonstracije tijekom treninga koji ne počinju iz istog početnog uvjeta za postizanje sličnog cilja, omogućujete mreži da nauči ugrađivati ​​cilj više razine bez upotrebe apsolutnih pozicija, kao i predstavljanje višeg reda motorički niz koji nije jednostavna imitacija. Naivna početna arhitektura omogućava obuku da na odgovarajući način modificira strukturu, a ova obučena struktura podrazumijeva završnu funkciju.

Ciljevi

Za paradigmu slaganja blokova imali su nekoliko ograničenja za koja su htjeli da se upozna njihov agent za učenje.

Pri tome se treba lako primijeniti na instance zadatka koji imaju različit broj blokova.
Prirodno bi se trebao generalizirati na različite permutacije istog zadatka. Na primjer, politika treba biti uspješna na zadatku {dcba}, čak i ako je obučena samo za zadatak {abcd}.
Trebao bi sadržavati demonstracije različitih duljina.

Imali su nekoliko pitanja na koja su htjeli odgovoriti za ovaj zadatak.

Kako se trening s kloniranjem u ponašanju uspoređuje s DAGGER-om, s obzirom da se može prikupiti dovoljno podataka izvan mreže?
Kako se kondicioniranje na cijeloj demonstraciji uspoređuje s kondicioniranjem na krajnjoj željenoj konfiguraciji, čak i kad konačna konfiguracija ima dovoljno podataka za potpunu specifikaciju zadatka?
Kako se kondicioniranje na cijeloj demonstraciji uspoređuje s kondicioniranjem na "snimku" putanje, što je mali podskup okvira koji su najoptimalniji
Može li se naš okvir uspješno generalizirati na vrste zadataka koje nikad nije vidio tijekom treninga? (++)
Koja su trenutna ograničenja metode?

Arhitektura

Dostizanje čestica

Za ovaj prvi primjer usporedili su tri arhitekture, a sve se temelje na neuronskim mrežama dugotrajne memorije (LSTM). Opis te mreže dat će u budućem postu o pamćenju i pažnji, koji su apsolutno fascinantni predmeti i u kognitivnim i u računskim znanostima. U osnovi, LSTM hrani prethodne mrežne izlaze (na vrijeme) kao dio ulaza mreže u svakoj novoj vremenskoj točki, omogućujući tako informacijama prošlih stanja da obavijeste sadašnjost (otuda i njihov naziv kratkotrajnih memorijskih mreža). Oni su u korijenu mnogih najsuvremenijih tehnologija koje se bave vremenskim serijama (Alexa, Siri itd.).

Ovdje se koriste ta tri specifična uvjeta:

  1. Običan LSTM: nauči ugrađivati ​​putanju i trenutno stanje da bi je napajao u višeslojnom perceptronu koji će proizvesti motoričko djelovanje
  2. LSTM s pažnjom: proizvesti ponderirani prikaz nad orijentacijama putanje
  3. Završno stanje s pažnjom: upotrijebite u treningu samo krajnje stanje kako biste stvorili ponderiranje nad orijentacijama, slično kao u prethodnoj arhitekturi

Slaganje blokova

Iako je, u načelu, generička neuronska mreža mogla naučiti preslikavanje od demonstracije i trenutnog promatranja do odgovarajućeg djelovanja, našli smo važnim koristiti odgovarajuću arhitekturu. Naša arhitektura za učenje blokovskih blokova jedan je od glavnih doprinosa ovog rada, a vjerujemo da je ona reprezentativna na koji bi način arhitekture za učenje imitacije s jednim slojem mogli izgledati u budućnosti.

Moduli pažnje

Članak ostaje relativno visoka razina u opisu strukture mreža koje se koriste za učenje zadatka. Ključni sastojak arhitekture je njihov modul pozornosti, ali vjerujem da ovom predmetu treba detaljno istražiti njegovu bitnu ulogu. Analogno kognitivnoj znanosti o konceptu trajne pozornosti, moduli pažnje se koriste kako bi se zadržali i usredotočili na relevantne informacije sadržane u različitim rasponima prostora i vremena. Izrađuje izlaz fiksne veličine koji sadrži umetanje informacijskog sadržaja koji je bio istegnut u vremenu i prostoru. Analogno topologiji, grani matematike za koju vjerujem da će uvelike informirati kako razumijemo raspodijeljene reprezentacije u budućnosti, mreža pažnje vrši topološki izomorfizam informacija, istu zakrivljenost, različitog oblika. Imajte na umu da ove mreže ne igraju detektor paljenja koji se može usredotočiti na neočekivane ili rijetke događaje, što je funkcija povezana s pojmom pozornosti u neuroznanosti.

Ovdje koriste dvije vrste mreže pažnje: a) privremena mreža pažnje koja proizvodi ponderirani iznos nad sadržajem (upitnik, kontekst i vektori memorije) pohranjeni u memoriji i b) mreža za pažnju susjedstva koja je u stanju povratiti podatke u odnosu na blok pozicije ovisno o trenutnom upitu agenta.

Mreža vremenske pažnje, s c: vektor konteksta, m: vektor memorije, q: upitnik, v: težina naučenog vektora. Izlaz je iste veličine kao i memorijski vektor. Linearna je kombinacija vektora koji omogućava da neki memorijski vektor ima veći utjecaj na izlaz na temelju konteksta i vektora upita.Ista je ideja da sustav pozornosti dinamički održava konkurenciju između prostornih informacija.

Mreža pravila

Kompletna mreža sastoji se od tri različite podmreže: demonstracijska mreža, kontekstna mreža i manipulacijska mreža.

Mreža demonstracija prima demonstracijski pravac kao ulaz i stvara umetanje demonstracije koju će politika koristiti. Veličina ovog umetanja linearno raste kao funkcija duljine demonstracije i broja blokova u okolini.

Kao što je ovdje prikazano, demonstracijska mreža može uklopiti demonstracije različite složenosti i veličine u zajednički format koji će kontekstna mreža koristiti za predstavljanje zadatka. Vjerojatno je na ovoj razini već došlo do generalizacije, umetanje demonstracija bi trebalo izostavljati podatke o točnoj putanji i apsolutnim pozicijama kocke koje smo vidjeli tijekom demonstracija.

Promatrajući strukturu kontekstne mreže, premda s vrlo visoke razine, vidimo sučelje s demonstracijskom mrežom koja hrani ugradnju demonstracije u središnje vremenske module pažnje. Također vidimo da se prethodne akcije (LSTM) i trenutačno stanje napajaju kao ulaz koji je povezan s demonstracijskim ugrađivanjem kako bi se proizveo globalni kontekstni ugrađivanje poslano na motornu mrežu.

Njihov opis mrežnih funkcija je po mom mišljenju najvažniji dio rada:

Kontekstna mreža započinje izračunavanjem vektora upita kao funkcije trenutnog stanja, koji se zatim koristi za prisustvovanje u različitim vremenskim koracima u demonstracijskom ugrađivanju. Težine pozornosti na različitim blokovima unutar istog vremenskog koraka zbrajaju se zajedno, čime se dobiva jedna težina po vremenskom koraku. Rezultat ove vremenske pažnje je vektor čija je veličina proporcionalna broju blokova u okolini. Zatim primjenjujemo pažnju oko susjedstva da širimo informacije u ugrade svakog bloka. Ovaj se postupak ponavlja više puta, pri čemu se stanje napreduje koristeći LSTM ćeliju s nevezanim težinama.
Prethodni slijed operacija stvara ugradbu čija veličina nije ovisna o duljini demonstracije, ali još uvijek ovisi o broju blokova. Zatim primjenjujemo standardnu ​​pažljivu pažnju za proizvodnju vektora fiksnih dimenzija, gdje se memorijski sadržaj sastoji samo od položaja svakog bloka, koji zajedno sa stanjem robota tvori ulaz koji je proslijeđen u mrežu manipulacije.
Intuitivno, iako se broj objekata u okruženju može razlikovati, u svakoj fazi rada manipulacije, broj relevantnih objekata je mali i obično je fiksan. Konkretno za okruženje slaganja blokova, robot bi trebao obratiti pažnju samo na položaj bloka koji pokušava pokupiti (izvorni blok), kao i na položaj bloka koji pokušava postaviti na vrh ( ciljni blok). Prema tome, pravilno obučena mreža može naučiti uskladiti trenutno stanje s odgovarajućom fazom u demonstraciji i zaključiti o identitetu izvornog i ciljanog bloka izraženoj kao meki utezi pažnje preko različitih blokova, koji se zatim koriste za izvlačenje odgovarajućih položaja u biti prebačen na mrežu za manipulaciju.

Način na koji završavaju svoj opis savršen je primjer trenutnog poništavanja AI istraživanja od ekspertnog sistemskog pristupa pristupu sustavu učenja, a također nagovještava raspravu o tome kako se mozak razvijao u nastavku.

Iako ovu interpretaciju ne provodimo na treningu, naša eksperimentalna analiza podržava ovu interpretaciju internog funkcioniranja naučenih politika.

Ne znaju kako to radi! Oni grade strukturu sposobnu za obavljanje određenih računanja i pohranjivanje određenih informacija za koje mislimo da su a priori korisne, te ih hrane trening setom u nadi da će cijela struktura naučiti! Postoji vrsta voodoo istraživanja umjetne inteligencije u usponu, umjetnost, način da se heuristička potraga usmjeri u pravom smjeru. Čini se da čitav niz tih mađioničara sada radi za openAI.

Prema njihovim vlastitim riječima, manipulacijska mreža je najjednostavnija struktura, od ugradnje konteksta dovedenog u višeslojni perceptron nastaje motorička akcija.

Rezultati

Rezultati su često dio za koji sam malo zainteresiran, posebno za one nevjerojatno sjajne tehničke radove. Ići ću brzo, u zaključku je da ovaj pristup djeluje, ali djeluje s točnošću sličnom tvrdo kodiranim stručnim politikama i, suprotno onom specifičnom proceduralnom pristupu, može se generalizirati na veliki niz zadataka.

Dostizanje čestica

Slaganje blokova

U tim su pokusima također testirali različite uvjete. Upotrebom DAGGER-a uspoređivali su tri različita stanja ulaza dezinficirajući demonstriranu putanju: pune putanje, snimku putanje ili samo koristeći krajnje stanje. Također su uspoređivali algoritam bihevioralnog kloniranja sa potpunom putanjom demonstracija.

Snažan dokaz sposobnosti sustava da generalizira identitet kocke

Rasprava

Čitajući napredak brzog tempa koji je OpenAI postigao proteklih mjeseci osjećam rastući poriv da govorim o svom radu i dijelim svoja mišljenja o tome u što vjerujem u njihov rad, kao i o napretku polja AI u cjelini, koji podstiču naše razumijevanje kako djeluju biološki mozgovi. Osobito ta rastuća ideja da naizgled zajedničke kognitivne funkcije između ljudskih bića nisu toliko zbog zajedničke strukture koja iznutra zna kako izvršiti zadatak, već je rezultat relativno sličnih naivnih struktura koje se, suočene s istim okruženjem, naučiti izvoditi slične zadatke. Funkcija je rezultat funkcije bez funkcije koja je sposobna naučiti samo određeni zadatak zbog specifičnog okruženja, a ne strukture koja je u stanju samostalno obavljati zadatak, jednostavno podešavajući par parametara da se prilagodi okruženju.

Zadaci nasuprot konfiguracijama: naizgled proizvoljna definicija

Moram priznati da ne razumijem zašto su odlučili razgovarati o različitim zadacima na način na koji su obavljali. Zadatak je definiran u eksperimentu slaganja blokova kao skup nizova koji predstavljaju položaj blokova jedan prema drugom, broj elemenata u skupu definira broj snopa i broj znakova koliko bloka treba organizirati , Zadatak je tada raspored blokova u hrpama bez obzira na apsolutni položaj snopa.

Neki bi se blokovi mogli nalaziti na stolu, ali nisu dio zadatka

Njihov izbor definiranja relativnog položaja i broja hrpa kao kriterija za odvojeni zadatak čini se proizvoljnim. Doista, također bi moglo imati smisla razgovarati o različitim zadacima na temelju apsolutnih početnih položaja blokova (što oni nazivaju konfiguracijom). Vjerujem da im je zajednička priroda problema očita, ali zbog jasnoće radije ne idu u detalje. Ima više smisla okvirno učenje učenja definirati kao dvije vrste generalizacija, na način na koji to kasnije rade:

Imajte na umu da se generalizacija procjenjuje na više razina: naučena politika ne samo da je potrebno generalizirati na nove konfiguracije i nove demonstracije zadataka već viđenih, već je treba i generalizirati na nove zadatke.

Jednostavno zamijenite "zadatke" s "Naručivanje snopa". Ispravno učenje zadatka znači da agent nauči ugradbu koja može apstrahirati položaj kocke (konfiguraciju), ali i njihov identitet (zadatak), broj snopa (zadatak) i putanju demonstracije (predstavljena ukratko u citat) proizvesti relevantni motorni odgovor.

Te se generalizacije doimaju kontradiktornim, kako ista mreža može apstrahirati početnu konfiguraciju kocke ili njihov identitet, a opet oporaviti njihov apsolutni položaj zbog reakcije motora?

To objašnjava potrebu za različitim kooperativnim podmrežama tijekom učenja, primanja različitih ulaza i objašnjava da se u kontekstnoj mreži apstraktni prikaz zadatka dovodi do informacije nižeg reda, poput apsolutnih kockica, prije naredbe silaženja.

Možda biste pomislili da je komentiranje ove razlike zadatka i konfiguracije blesavo, ali ključno je shvatiti da je u osnovi isti postupak apstrakcije tijekom igre na različitim objektima (a ovo se otvara za sljedeći odjeljak).

Nema učenja bez invarijancije

Prijenosno učenje je možda najfascinantniji pojam saznanja bilo da se radi o in-silikonu ili in-vivo-u, to je vrlo vruća tema i za istraživače AI i za neuroznanstvenike, a događa se da je i predmet moje doktorske teze. Imajte na umu da su usko povezani koncepti istraženi na mnogim poljima prije strojnog učenja, a ovaj apstraktni i uvijek djelomično definirani koncept ima mnogo naziva. Filozofi, antropolozi i sociolozi mogli bi to nazvati (post-) strukturalizmom (Claude Levi-Strauss, Michel Foucault), lingvist će govoriti o sintagmi i strukturama ugniježđenih drveća (Noam Chomsky), matematičari će vjerojatno razmišljati o homeomorfizmu ili invaziji, i obrazovanju istraživači ili neuroznanstvenici mogu to nazvati strukturalnim učenjem. Također možete vidjeti srodan koncept u području strojnog učenja poput reprezentacijskog učenja i meta učenja, koji se ovisno o autoru mogu odnositi na transferno učenje ili na paradigmu učenja koja se koristi za obavljanje transfernog učenja. Kada govorimo o dubokim neuronskim mrežama, ove razlike su zamagljene, jer u osnovi neuronska mreža uči ugraditi određeni problem (reprezentacijsko učenje) modificirajući svoju strukturu (meta-učenje) obično u bučnom okruženju koje podrazumijeva oblik transfernog učenja.

Istraživači AI i znanstvenici kognitivnih znanosti često imaju vrlo konkretnu definiciju transfernog učenja, to je postupak koji sustavu omogućuje korištenje znanja stečenog u određenom zadatku za obavljanje drugog zadatka koji dijeli zajedničku kompozicijsku strukturu (kako je opisano u članku). Kognitivna znanost ima ovaj pojam prijenosa blizu i daleka, ovisno o tome kako se čini da se dva zadatka razlikuju. Ali iz apstraktnije perspektive, u bučnom i složenom okruženju, svako je učenje oblik transfernog učenja, a razlika između prijenosa koji je vrlo blizu i vrlo udaljen samo je pitanje zajedničkih informacija - opet pitanje razmjera, a ne prirode.

U kontroliranom okruženju prethodno se ulažu napori da se izgradi tvrdo kodirana diskretisa stvarnosti, ali u stvari ova diskreticija proceduralno reproducira ono što prenosi učenje, ujedinjuje beskonačni skup stanja koja se nalaze u stvarnosti u zajedničkoj ograđujućoj strukturi. U osnovi Transfer Learning odnosi se izravno ili proširenjem na proces kroz koji agenti za učenje koriste invarijante za izgradnju svjetskih modela. To je postupak koji koristi sličnosti, ponavljanja i varijacije istih kako bi se formirao sve apstraktniji i složeniji prikaz koji će strukturom sastaviti cjeline na rasponu varijance. U općenitom smislu, to omogućuje stvaranje osnovnih operacija putem kojih manipuliramo informacijskim skupinama, baš kao što u matematici omogućuje uniju i sjecišta. Omogućuje identitete, objašnjava našu sposobnost kategorizacije objekata. Josh Tenembaum daje primjer koji mi je stvarno govorio: zamislite da učite dvogodišnje dijete da prvi put prepozna konja, pokažete mu nekoliko slika različitih konja, a zatim mu pokažete sliku drugog konja i sliku kuće i zamolite ga da vam kaže koji je konj. Dijete će ovaj zadatak odraditi vrlo lako, ali to je još uvijek nešto što računalo ne može dobro podnijeti sa tako malo ulaza (učenje s jednim potezom).

Kako je dijete to učinilo?

Prepoznavanje životinja proučavano je kod djece i odnosi se na našu sposobnost dekonstrukcije predmeta na relevantne dijelove, raspon boja krzna, veličinu vrata, cjelokupni oblik itd. Ova sposobnost je također ono što vam omogućava otvaranje vrata nikad niste vidjeli, naučili ste motorni slijed koji se generalizira na bilo koju situaciju (generaliziranje domena). To je i ono što koristite za izradu modela objašnjavanja koji pojednostavljuju svijet, možda bi vas u početku mogli iznenaditi iznenadni prikazi kukavice u poznatom švicarskom satu, ali nakon drugog nastupa to ćete i očekivati. Pronalaženje invarijancije je kako neuronska mreža uči i ti su modeli izgrađeni nesvjesno. Primjer je kako intuitivno učimo fiziku čak i prije nego što smo čuli za matematiku i brojeve.

Može se pitati primjerice, koliko brzo bi se dijete rođeno u mikrogravitaciji prilagodilo zemljinoj gravitaciji i intuitivno moglo naučiti da će predmeti padati na zemlju kad padnu?

Možemo pretpostaviti da će dojenčad i većina životinja nesvjesno revidirati svoj model, slično kao kad stavite čarape na pseće šape i potrebno je neko vrijeme da se prilagodi novim informacijama.

Ali za malo dijete će se odvijati svjesno ispitivanje i revizija njegovog intuitivnog modela, od radoznalosti, preko jezika, simbola i vjerovanja. Naša sposobnost da svjesno ispitujemo i mijenjamo svoje modele je fascinantna, a kao sporedni aspekt, ljudi su možda jedina vrsta koja je sposobna verbalizirati postupak, ali druge vrste mogu provesti slične svjesne revizije.

Invarencija je obvezno svojstvo vremena, ako je sve uvijek bilo novo i ni na koji način nije predvidljivo, još uvijek bi ostala ova jedinstvena invarijantnost da je sve uvijek novo i nepredvidivo. Nemoguće je zamisliti svijet bez invarijancije, jer ne bi mogao postojati svijet na koji bi se on referirao, bez invarijancije život bi bio nemoguć, a naš mozak beskoristan. Život je stroj koji djeluje samo predvidljivim ponavljanjem događaja, ponavljanjem uzroka i posljedica, cikličnim ponovnim unosom energije u organizam. I u životnoj potrazi za poboljšanjem njegove uporabe potrebnih ciklusa, naš je mozak krajnje sredstvo. To je stroj za predviđanje, prilagodljivi organ koji je u stanju dinamički pronaći ponavljanje i koristiti ga za bolju interakciju sa svijetom.

Ova metoda koju je život odabrao izuzetno je robusna za male promjene u strukturi. Ono što ostaje isto je svijet, statistička svojstva okoliša, ali neuronska struktura s kojom se susreće može varirati dok god može ugrađivati ​​relevantne informacije koje su se razvijale. To objašnjava zašto naš mozak može biti toliko različit od pojedinca do pojedinca, čak i primarni kortikoni, a opet dijele iste funkcije.

Živčani sustavi su adaptivni, ne trebaju im evolucija i usporavaju genetske mutacije da bi promijenili ponašanje na relevantne načine. Jednostavan živčani sustav, poput onog koji se nalazi u C. Elegans, služi kao urođeni unutarnji koordinator i vanjski senzor: osjeti hranu i kreće se prema njoj, bježi od bola, razmnožava se. Ti jednostavni sustavi bili su u početku kruti i izviđali su izredno bučno u našem bučnom svijetu kako bi ga discizirali u malom nizu mogućih stanja (hrana s lijeve strane, toplina ispod itd.). Naše motoričke i osjetilne sposobnosti razvijale su se paralelno s prediktivnim mogućnostima živčanog sustava. Kako su naši senzori postali precizniji, živčani sustav polako je mogao mijenjati svoju strukturu da bi pohranio informacije i učio iz iskustva. U početku se moglo naučiti prepoznati određene kategorije ulaza, poput tipova mirisa ili uzorka svjetlosti, a također je mogao pokušati putem pokušaja i pogreške kontrolirati svoj sve složeniji motorni sustav. Imajte na umu da je svijet toliko složen da se naš mozak prirodno razvio prema paradigmi učenja, a ne urođenom proceduralnom pristupu. Računalno, ovo ima savršen smisao, jednostavna igra Go ima prostor stanja daleko veći (2,10¹⁷⁰) od broja atoma u svemiru (10⁸⁰), a kako organizmi postaju složeniji, pokušavaju tvrdo kodirati aproksimacije svih mogućih navodi da bi to moglo brzo postati neizlječivo zbog kombinatoričke eksplozije.

Neki ljudi mogu vjerovati da je naš mozak izgrađen na takav način da iznutra predstavlja prostor u kojem će se razvijati, da negdje u DNK postoji gen za ono što čini lice, ili vremensku organizaciju zvučnih valova koji čine gore riječi. Oni mogu vjerovati da je to urođeno znanje negdje kodirano rođenjem. Drugi bi mogli vjerovati, poput mog učitelja filozofije kada sam bio u srednjoj školi, da postojanje prethodi suštini, te da je naš mozak potpuno i isključivo definiran susretom organizma i svijeta. Stvarnost je naravno složenija, a za većinu proučavanih telencefalnih sustava do sada mozak ne kodira iznutra funkciju koju će obavljati, već će je naučiti ovisno o informacijama sadržanim u njezinim ulazima. Ako je unos relevantnih informacija previše slab, sposobnost učenja u tim strukturama može imati rok trajanja (npr. Amblyopia). Ali ako urođena struktura ne kodira konačnu funkciju, mozak ima određenu strukturu. Ova je struktura sačuvana kod pojedinaca, a jedinke iste vrste imaju zajedničke funkcije i pogone. DNK postavlja određenu strukturu na mjesto, strukturu koja nije u stanju iznutra obavljati svoju konačnu funkciju, već strukturu koja je sposobna naučiti složenost određenih zadataka na temelju individualnog iskustva. Nije iznenađujuće da je evolucija dovela do prikazivanja vrlo učinkovite krvno-moždane barijere koja izolira mozak od ostatka tijela, kao i meninga i tvrde koštane ljuske koji ga štite od vanjskog svijeta, jer za razliku od drugih organa u kojima struktura je kodirana u genomu, struktura treniranog mozga se ne može regenerirati iz urođeno pohranjenog modela. Ono što je fascinantno jest da vidimo iste mehanizme učenja koji proizlaze iz analogije kroz razvoj sve složenijih dubokih mreža koje izvode sve složenije zadatke.

Kompozicijske strukture je teško vidjeti, ali svugdje

Kao sporedni aspekt je čudno da čak ni autori ne prepoznaju da njihov prvi zadatak doseganja cilja ima kompozicijsku strukturu.

Čestica koja doseže zadatke lijepo pokazuje izazove generalizacije u pojednostavljenom scenariju. Međutim, zadaci ne dijele kompozicijsku strukturu, čineći evaluaciju generalizacije novih zadataka izazovnom.

Iako je struktura doista niža od složenih blokova i nije lako dostupna eksperimentalnoj manipulaciji, zadatak je doista sastavljen od zajedničke strukture. Približavajući svijet ravnini, jedna kompozicijska struktura je da je identitet kocke (boja) sačuvan s prijevodom i da ide iz bloka A - ili slučajnim početnim položajem - u položaju (Xa1, Ya1) do bloka B u položaju (Xb1, Yb2 ) dio je iste kompozicijske strukture višeg reda od prelaska s bloka A na položaju (Xa2, Ya2) do bloka B na položaju (Xb2, Yb2).

Sučelja između mreža

Stvaranje neuronskih mreža koje mogu tretirati unose na različitim nivoima apstrakcije trebat će sučelja, a domena za koju vjerujem da ostaje mnogo za otkrivanje. Ta sučelja mogu biti mnogobrojna. Oni se mogu vidjeti, na primjer, kao zajednički jezik između dviju mreža, kao što je pokazano u članku, mreža niže razine naoružana sustavom pozornosti (demonstracijska mreža) može prevesti demonstraciju u reprezentaciju koju druga mreža (kontekstna mreža) može koristiti usmjeriti akciju bez obzira na duljinu ili početnu konfiguraciju demonstracije.

Površina ovog jezika je ovdje ravna, fiksirana u veličini, ali može se zamisliti moguće izmjene koje bi mogle poboljšati komunikaciju između mreže. Na primjer, veličina površine može se postaviti da se dinamički povećava ili smanjuje tijekom interakcije mreža tijekom učenja, čime se komprimira ili proširuje jezična složenost. Također bismo mogli zamisliti dinamičnije interakcije, na primjer, putem povratnih informacija. Mogli bismo zamisliti postojanje mreža facilitatora koje bi naučile glatku komunikaciju između mreža, postojećih kao paralelna mreža koja uče modulirati ulaz prve mreže na temelju ulaza i izlaza druge mreže. Mogli bismo zamisliti složene kontekstualne mreže koje djeluju kao tonično (sporo mijenjanje) priliv u više specijaliziranih mreža ... Fascinantno buduće područje istraživanja!

Slučajevi neuspjeha nagovještavaju moguće uloge koje bi mogli imati novi moduli

Vrijedi napomenuti da se pogreške često događaju zbog motoričkih grešaka i da se broj pogrešaka povećava sa složenošću zadatka.

Motorne funkcije ne smiju se pogoršati samo povećanjem broja ciljeva, to je snažan dokaz da je način na koji reprodukcijska mreža uči razgovarati s motornom mrežom previše apstraktan. Čudno je jer kažu da njihov test pokazuje da je sučelje kontekstne mreže i motorne mreže relativno konkretno (položaj robota, položaj mete).

Moguće rješenje bi moglo biti, budući da je ovo modularna arhitektura, korištenje različitih funkcija gubitaka ili modularnih funkcija gubitaka koji predstavljaju svaki određeni aspekt zadatka. Također bi mu pomogao ekvivalent pred-motornih područja mozga kako bi se osiguralo da demonstracijska i kontekstna mreža mogu ostati apstraktna bez pogoršanja motoričke naredbe. Predmotorna područja potrebna su za bolju lokalizaciju objekata na temelju cilja (iz apstraktnih mreža) i senzornih ulaza, kako bi se odabrala najbolja motorna naredba. Čini se da kontekstualna mreža pokušava demonstraciju prenijeti na ugrađivanje više razine i istovremeno pripremiti motornu akciju u trenutnom kontekstu. Uloga pre-motorne mreže bilo bi naučiti komunicirati s motoričkim sustavom na ciljno usmjeren i prilagodljiv način, kombinirajući i funkcije premotora i mozak za motoričko učenje i brzu prilagodbu.

Postoji zanimljiva teorija, Moravčev paradoks, koja predviđa da to neće biti kognitivno kognitivno oporezivanje, već tretiranje senzornih ulaza i izlaza motornih sustava. To bi uistinu moglo objasniti veliku količinu neurona prisutnih u našem moždanu (više nego u ostatku našeg mozga) za prilagodljivo upravljanje motoričkim djelovanjem. Ovaj paradoks formuliran je u doba (80-ih) kada smo još vjerovali da možemo vlastito znanje ugraditi u stroj za obavljanje složenih zadataka u nekontroliranim bučnim sredinama. Naravno da ovaj paradoks ima smisla ako je stroj nekako sposoban predstavljati svijet u diskretiziranom skupu stanja, izgradnja funkcije više razine na njemu bi bila lakša. Ali vjerujem da će se i jedno i drugo pokazati iznimno oporezovajućim, a unutarnja reprezentacija koja se koristi na sučelju između mreža bit će daleko od bilo čega što nalikuje našem svjesnom predstavljanju.

Zaključak

Kombinacijom različitih neuronskih mreža za koje je svaka zadužena za određeni tretman problema, ovaj članak pokazuje da stvaranjem zadatka koji je sam po sebi potreban za generaliziranje i izgradnjom odgovarajućeg okruženja za učenje putem randomizacije domena, neuronske mreže s pristupom memoriji i sustav pozornosti može naučiti generalizirati izvan jednostavne reprodukcije. Može naučiti otkriti cilj višeg reda koji je demonstriran samo jednom u vizualnom toku informacije i obavlja račune u generaliziranom prostoru kako bi se pronašli odgovarajući postupci sposobni reproducirati taj cilj u drugom kontekstu.

U budućnosti ćemo vidjeti sve veću složenost struktura izgrađenih na tim atomskim građevnim blokovima koji mogu naučiti generalizirati složene zadatke, ali što je još važnije izvoditi nekoliko takvih zadataka, u novim okruženjima, manje oslanjajući se na tvrdo kodirane metode kao što su predradnja ulaza ili memorija za pohranu. Memorijska pohrana zamijenit će se distribuiranim predstavkama u memorijskoj mreži, a sustavi pozornosti zamijenit će se cikličnom aktivnošću u mrežama pažnje u stvarnom vremenu. Ostaje pitanje kako ćemo moći prilagoditi snažnu serijsku tehnologiju (Turingovi strojevi) našem većem oslanjanju na distribuirano računanje u utjelovljenom sustavu.