Zašto mozak ima grešku u predviđanju nagrade?

Dopamin i umjetnost povratnih informacija

Zasluga: Pixabay

Duboka priča o uspjehu moderne neuroznanosti je teorija da dopaminski neuroni signaliziraju grešku predviđanja, grešku između nagrade koju ste očekivali i onoga što ste dobili.

Njezin uspjeh ide duboko. Potkrijepljeno je to konvergiranjem dokaza o pucanju neurona, oslobađanju dopamina i protoku krvi zabilježenom na fMRI. Dokazi su prikupljeni kod različitih vrsta, od ljudi, majmuna, štakora i pčela. Postoje čak i kauzalni dokazi da prisiljavanje dopaminskih neurona na vatru šalje signale grešaka u mozak, učinke koje možemo vidjeti u ponašanju životinja s kojima se igraju dopaminski neuroni. Teorija premošćuje podatke s razmjera ljudskog ponašanja sve do razine pojedinih neurona. Za razliku od mnogih teorija o mozgu, ova je ispravno izračunava i omogućuje višestruka, nevijalna predviđanja koja su se pokazala istinitim. Dopamin i pogreške u predviđanjima su usko isprepletene.

No ova intimna veza postavlja veće, ali rijetko artikulirano pitanje. Potpuno je moguće izgraditi mozak koji uči na greškama bez ikakvog eksplicitnog predstavljanja te pogreške u mozgu. Pa zašto mozak uopće ima signal pogreške za nagradu?

Da bismo razumjeli to pitanje, prvo moramo znati malo o samoj teoriji pogreške predviđanja. Teorija kaže da dopaminski neuroni pucaju na neočekivano dobre stvari. Ako vas iznenada tapšam po ramenu i dam vam slatko, vaši će se dopaminski neuroni pokloniti! za slatko.

Ako vas stalno tapšam po ramenu i nastavim vam davati slatko, vaši dopaminski neuroni prestaju pingati po slatkom - dobivanje slatkog je sjajno, ali više nije neočekivano (i iskreno, radije biste poštovali vaš osobni prostor. malo više). Umjesto toga, dopaminski neuroni idu na ping! za samu slavinu. Ovo je pametni zalogaj: neuron ping! jer tapkanje po ramenu sada pouzdano predviđa da će doći do slatkog (dobra stvar), ali je neočekivano, jer ne znate kada tapka, tako da tapkanje po ramenu postaje neočekivano dobra stvar.

Teorija također kaže da su dopaminski neuroni, poput ljudi, duboko uznemireni time što se njihove rutine krše. Uspostavio sam taj odnos povjerenja - više puta vas tapšam po ramenu i barem ćete dobiti niz slatkiša zbog kršenja društvenih normi - što se događa ako vas tapšam po ramenu i ne dam vam slatko? Tada se vaši dopaminski neuroni u potpunosti isključe, nakratko prestanite pucati.

Ukratko, dopaminski neuroni šalju brzi signal koji pokriva sve tri moguće pogreške u predviđanju nagrade: da je nagrada bila bolja od očekivane (pozitivna pogreška); da je nagrada bila točno onako kako se očekivalo (nema pogreške); ili da je nagrada bila manja od očekivane (negativna pogreška). Sve to možemo označiti upotrebom jedne od onih mučnih složenih imenica dragih znanstvenika: dopaminski neuroni šalju grešku u predviđanju nagrade.

Ova korespondencija između dopamina i „greške u predviđanju nagrade“ ima svoje korijene u grani AI nazvanoj učvršćivanje učenja (dobro, tehnički je to grana strojnog učenja, ali kako je sve sada označeno kao AI, uključujući i FitBit, u što sam prilično siguran je samo akcelerometar s remenom, onda je AI to). Učenje ojačanja nakupljanje je algoritama kako se nešto može naučiti iz onoga što se kaže samo koliko su bila pogrešna ili ispravna vlastita predviđanja.

Svi klasični algoritmi učenja s pojačanjem imaju eksplicitni signal za pogrešku u predviđanju koliko će izbor biti vrijedan (gdje pozivni algoritam uključuje razbojnike, vremensku razliku u učenju, učenje Q, SARSA ili kritičnu ulogu). To je signal između predviđene vrijednosti onoga što se događa sljedeće i stvarne vrijednosti onoga što se događa sljedeće - gdje se vrijednost mjeri očekivanim iznosom buduće nagrade. Čarolija učenja o pojačanju je da jednostavnim smanjivanjem ove pogreške između predviđene i stvarne vrijednosti svake sljedeće stvari na svijetu umjetni agent može naučiti nevjerojatno složene sekvence događaja, poput navigacije svijetom ili kako trčati.

A ovo je računski dio teorije dopamina: da su brzi odgovori dopaminskih neurona samo pogreška predviđanja algoritama učenja učenja. Da su oni pogreška između predviđene i stvarne vrijednosti onoga što se događa sljedeće. I da se koriste za učenje. Ključ ove teorije nije samo u tome što dopaminski neuroni signaliziraju razliku između nagrade koju ste dobili i onoga što ste očekivali. To je da oni signal prenose i na neočekivane stvari koje predviđaju nagradu, upravo onako kako algoritmi za učenje ojačanja kažu da bi trebali.

To ne znači da dopaminski neuron samo kodira ovu pogrešku predviđanja. Postoje mnoge nijanse u tome što bi mogli zanimati same dopaminske neurone, super skup stvari izvan pogrešaka predviđanja. I doista su pogreške u predviđanju nagrade samo podskup mogućih pogrešaka u predviđanjima o svijetu koji bi mogao postojati u mozgu (priča za sljedeći put). No, taj dopaminski neuron kodira pogrešku u predviđanju nagrade čini se dobro utvrđenim dijelom onoga što čine.

(I ova predložena podudarnost između brzog odgovora neurona dopamina i greške predviđanja vrijedi i za složenije algoritme učenja ojačanja, poput uzbudljivog oživljavanja i proširenja ideje Petera Dayaninog „predstavljanja nasljednika“ Sema Gershmana, Ida Momennejad, Kim Stachenfeld i kolege. Na računu reprezentacije nasljednika ne postoji jedna jednostavna greška između onoga što ste predvidjeli i onoga što ste dobili, već čitava vektorica pogrešaka predviđanja za promjene različitih značajki svijeta - od kojih je jedna nagrada. od Gershmana i njegovih kolega pokazuje kako razmišljanje o brzom odgovoru na dopaminski neuron kao zbroj tih grešaka može objasniti neka zbunjujuća nedavna otkrića o dopaminskim neuronima koji šalju brze signale promjenama u svijetu koje nisu nagrade.)

Ali nije postojala potreba za postojanjem dvostrukog neuronskog korespondencijskog i teorijskog signala pogreške. Algoritmi učenja ojačanja temelje se na promatranjima ponašanja životinja. I mogu biti vrlo uspješni: životinje, uključujući i ljude, često se zaista ponašaju kao da koriste grešku predviđanja u nagradama da bi naučile o svijetu. Ali samo zato što možemo opisati ponašanje pomoću pogreške u predviđanju nagrade, ne slijedi da u mozgu mora postojati takav eksplicitni signal pogreške

Jer, savršeno je moguće konstruirati sustav koji o svijetu uči koristeći povratne informacije koje u svojim predviđanjima nemaju eksplicitni signal za pogrešku. Jedan primjer ovih sustava je Bayesov agent, onaj koji uči o vjerojatnostima u budućnosti, a ne o sigurnostima.

Takav bajezijski agent mogao bi predstavljati nesigurnost kakva će biti vrijednost poduzimanja akcije A. Ova nesigurnost kodirana je raspodjelom vjerojatnosti - koju bismo mogli napisati P (vrijednost | akcija A) - za moguće vrijednosti poduzimanja akcije A. Na primjer, može postojati velika vjerojatnost da će akcija A imati malu vrijednost, i mala vjerojatnost da će imati visoku vrijednost; ili obrnuto; ili nešto daleko složenije.

Našeg jadnog bajezijskog agenta svrstavamo u najdublji svijet koji smo mogli zamisliti. Čitav životni vijek sastoji se od izbora koje tri poluge treba povući kako bi ponovo i ponovo dobivao novčić. Kako su šanse za osvajanje kovanice različite između tri poluge, tako agent mora razraditi koje treba izvući kako bi dugoročno dobio najviše novca. Tri poluge, tri moguće akcije, tri odgovarajuće distribucije vjerojatnosti za vrijednost svake poluge. Svako kolo agent odabere polugu na temelju tih raspodjela vjerojatnosti - možda ima tendenciju da odabere onu koja trenutno daje najveću vjerojatnost najveće nagrade - i gleda novac.

Kovanica ili ne, agent koristi rezultat da bi ažurirao svoju distribuciju vjerojatnosti. Kovanica je dokaz da je poluga dobra, pa agent povećava vjerojatnost da povlačenje poluge ima visoku vrijednost; nijedan novčić nije dokaz da poluga nije dobra, pa agent povećava vjerojatnost da povlačenje poluge ima malu vrijednost. Bilo kako bilo, agent sada ima više informacija o odabranoj radnji, bez obzira na to je li to bio dobar ili loš ishod. Raspodjela vjerojatnosti za tu radnju ažurira se kako bi odražavala te podatke promjenom parametara distribucije.

Nema signala pogreške Agent uči od povratnih informacija o svijetu i može ga koristiti za donošenje odluka, ali nema signala pogreške pogreške predviđanja. Sigurno, mogli bismo je konstruirati - računajući razliku između raspodjele vjerojatnosti prije i nakon što je novčić stigao - ali on nam ne treba. Signal pogreške je implicitan.

Opet, to je ponašanje, još ne mozak. Ali mnogi vjeruju da mozak predstavlja svijet koristeći raspodjelu vjerojatnosti; i postoje vjerodostojne teorije kako predstaviti i ažurirati distribucije vjerojatnosti pomoću neurona. Oni se svode na prilagodbu pucanja populacije neurona koji predstavljaju raspodjelu vjerojatnosti. A to radite prilagođavajući snage ulaza tim neuronima (bilo da su ti ulazi unutar populacije ili izvan nje). Dakle, mozgu je potreban signal o tome je li se dogodila nagrada ili ne i to iskoristite za podešavanje veza. Nije potreban komplicirani signal o pogrešci u predviđanjima.

Tako bi mozak mogao naučiti od pojačanja sa ili bez izričitog signala za pogreške u predviđanju tog pojačanja. Ali mozak ima eksplicitni signal pogreške koji je kodiran dopaminskim neuronima. Što nam to govori?

Mislim da nam to govori tri zanimljive ideje kako mozak funkcionira. Mislim da ste u potpunosti spremni pogriješiti oko toga i da postoji vodonepropusni argument zašto ne možete stvoriti mozak bez izričitog signala za pogreške u predviđanju nagrade.

Prva ideja je da postojanje izričitog signala pogreške podrazumijeva postojanje jednostavnog predstavljanja svijeta u mozgu. Takozvani prikaz „bez modela“ koji ne predstavlja svaki mogući ishod neke akcije, a vjerojatno ne koristi ni vjerojatnost. Brzo dostupna tablica za pregled vrijednosti radnji koja se koristi za odabir radnji kad vrijeme pritiska ili svijet ne mijenja. Već imamo nekoliko dobrih ideja gdje žive takve reprezentacije u mozgu. A svi oblici tako jednostavnih prikaza o kojima znamo su izričit signal za pogrešku između stvarnih i predviđenih vrijednosti.

Druga ideja je da je ono što je jedan pojam u učenju pojačanja zapravo dva procesa u mozgu. Jedan koncept učenja ojačanja je da koristite pogrešku u svom predviđanju za promjenu svoje procjene vrijednosti akcije. Zašto su ova dva procesa u mozgu? Zato što bi mozak možda htio zasebno kontrolirati kratkoročne i dugoročne promjene u procjenama vrijednosti akcije. A eksplicitni signal pogreške koji donira dopamin dopušta mu da radi s jednim signalom.

Da bismo postigli dugoročne promjene, mogli bismo prilagoditi svoju procjenu vrijednosti akcije promjenom snage ili veze prema neuronima koji predstavljaju tu akciju. Prilagođavanje naše procjene vrijednosti na ovaj način mijenja dugoročno ponašanje. A brzi dopaminski signal doista se misli da kontrolira mogu li i u kojem smjeru neke veze u mozgu mijenjati snagu. Ovdje vam je potreban znak signala pogreške da biste rekli vezama u koji se smjer treba mijenjati.

Ali mozak ne želi da svaki dio povratne informacije promijeni vezu između neurona. Zbog toga se zaključava u put s kojeg bi se moglo biti teško oporaviti. Doista, kada sami pokušamo i promijenimo snagu ovih veza, stimulišući ulaze u neuron, neke od njih mogu se pokazati izuzetno teškim za promjenu. Što povećava mogućnost da bi mozak, kratkoročno, mogao zaštititi svoje oklade mijenjajući svoje procjene vrijednosti akcije bez promjene snage povezivanja. A to mogu učiniti tako da promijene način na koji su neuroni osjetljivi na njihove inpute. Ako napravite neuron za vjerojatnost da će pucati, tada ste povećali njegovu predviđenu vrijednost; i obrnuto. Pogodite koji odašiljač u mozgu ima stotine radova koji pokazuju kako mijenja osjetljivost neurona koji kontroliraju djelovanje? Da, dopamin.

Skupa, argument ovdje je da eksplicitni signal pogreške postoji kako bi mozak mogao kontrolirati promjene predviđene vrijednosti na dvije vremenske skale. I učinite to koristeći jedan signal pogreške kodiran dopaminom: kako biste dugoročno omogućili promjenu snage veze i promijenili koliko su neuroni kratkoročno osjetljivi.

Treća ideja je da je eksplicitni signal pogreške u mozgu evolucijska slučajnost. Izgraditi sustav za učenje iz povratnih informacija lakše je s eksplicitnim signalom pogreške nego s prikazom vjerojatnosti u grupi neurona. Drevne su životinje vjerojatno imale neurona ili dva koji su prskali dopaminom ili nešto slično kao dio kontrole kretanja. Možemo pronaći obilje beskralježnjaka sa samo nekoliko tisuća neurona u kojima dopamin mijenja kretanje mijenjajući načine na koje neuroni reagiraju na njihove unose. Kad je uspostavljen ovaj dopaminski sustav, možda je put najmanjeg otpora za evoluciju bio kooptirati ovaj emitirani signal da promijeni vezu između neurona nakon pogreške. Što se čini potencijalno lakšim od istog početka, razvijanje distribuiranog sustava za predstavljanje informacija za koje nije potreban izričit signal pogreške.

Doprinos teorije neuroznanosti govori o tome što pokazuje što mozak ne može ili ne može, kao što može učiniti. Da, ako dopustimo bilo kakvu proizvoljnu ideju, ovaj je prostor praktički beskonačan: teorije koje pokazuju da mozak ne upotrebljava žele jagode kao neurotransmiter ili ne računaju na poleđini omotnice i tupim olovkom nisu korisne.

Ali ovdje u mozgu pronalazimo eksplicitni signal pogreške i to isključuje čitavu klasu načina učenja iz povratnih informacija, a vlada i neke. Teorija pogreške dopamina o predviđanju nagrade govori koliko i ono što ne čini , kao što se čini. U vrtu za križanje staza trebalo bi nam biti drago zbog neke pomoći - a nekoliko vrtnih staza više je komplicirano nego mozak.

Želite više? Pratite nas na adresi The Spike

Twitter: @markdhumphries