Zašto mozak ima grešku u predviđanju nagrade?

Dopamin i umjetnost povratnih informacija

Zasluga: Pixabay

Duboka priča o uspjehu moderne neuroznanosti je teorija da dopaminski neuroni signaliziraju pogrešku predviđanja, grešku između nagrade koju ste očekivali i onoga što ste dobili.

Njezin uspjeh ide duboko. Potkrijepljeno je konvergiranjem dokaza o pucanju neurona, oslobađanju dopamina i protoku krvi zabilježenim na fMRI. Dokazi su prikupljeni kod različitih vrsta, od ljudi, majmuna, štakora i pčela. Postoje čak i kauzalni dokazi da prisiljavanje dopaminskih neurona na mozak šalje signale grešaka u mozak, učinke koje možemo vidjeti u ponašanju životinja s kojima se igraju dopaminski neuroni. Teorija premošćuje podatke s razmjera ljudskog ponašanja sve do razine pojedinih neurona. Za razliku od mnogih teorija o mozgu, ova je ispravno izračunava i omogućuje višestruka, nevijalna predviđanja koja su se pokazala istinitim. Dopamin i pogreške u predviđanjima su usko isprepletene.

Ali ta intimna veza postavlja veće, ali rijetko artikulirano pitanje. Potpuno je moguće izgraditi mozak koji uči na greškama bez ikakvog eksplicitnog predstavljanja te pogreške u mozgu. Pa zašto mozak uopće ima signal pogreške za nagradu?

Da bismo razumjeli to pitanje, prvo moramo znati malo o samoj teoriji pogreške predviđanja. Teorija kaže da dopaminski neuroni pucaju na neočekivano dobre stvari. Ako vas iznenada tapšam po ramenu i dam vam slatko, vaši neuroni dopamina počnu pingati! za slatko.

Ako vas stalno tapšam po ramenu i nastavim vam davati slatko, vaši dopaminski neuroni prestaju pipati slatko - super je dobiti slatko, ali više nije neočekivano (i iskreno, radije bih poštovao vaš osobni prostor. malo više). Umjesto toga, dopaminski neuroni idu na ping! za samu slavinu. Ovo je pametni zalogaj: neuron ide na ping! jer tapkanje po ramenu sada pouzdano predviđa da će doći do slatkog (dobra stvar), ali je neočekivano, jer ne znate kada tapa dolazi - tako da tapkanje po ramenu postaje neočekivano dobra stvar.

Teorija također kaže da su dopaminski neuroni, poput ljudi, duboko uznemireni time što se njihove rutine krše. Uspostavio sam taj odnos povjerenja - više puta sam vas potapšao po ramenu i barem ste dobili niz slatkiša iz ove povrede društvenih normi - što se događa ako vas tapšam po ramenu i ne dam vam slatko? Tada se vaši dopaminski neuroni u potpunosti isključe, nakratko prestanite pucati.

Ukratko, dopaminski neuroni šalju brzi signal koji pokriva sve tri moguće pogreške u predviđanju nagrade: da je nagrada bila bolja od očekivane (pozitivna pogreška); da je nagrada bila točno onako kako se očekivalo (nema pogreške); ili da je nagrada bila manja od očekivane (negativna pogreška). Sve to možemo označiti korištenjem jedne od onih mučnih imenskih slogova voljenih znanstvenika: dopaminski neuroni šalju grešku u predviđanju nagrade.

Ova korespondencija između dopamina i „greške u predviđanju nagrade“ ima svoje korijene u grani AI nazvanoj učvršćenje učenja (dobro, tehnički je to grana strojnog učenja, ali kako je sve sada označeno kao AI, uključujući i FitBit, u što sam prilično siguran je samo akcelerometar s remenom, onda je AI to). Učenje ojačavanja je nakupljanje algoritama kako se nešto može naučiti iz onoga što se kaže samo koliko su bila pogrešna ili ispravna vlastita predviđanja.

Svi klasični algoritmi učenja s pojačanjem imaju eksplicitni signal za pogrešku u predviđanju koliko će izbor biti vrijedan (gdje pozivni algoritam uključuje razbojnike, vremensku razliku u učenju, učenje Q, SARSA ili kritičnu ulogu). To je signal između predviđene vrijednosti onoga što se događa sljedeće i stvarne vrijednosti onoga što se događa sljedeće - gdje se vrijednost mjeri očekivanim iznosom buduće nagrade. Čarolija učenja ojačanja je da jednostavnim smanjivanjem ove pogreške između predviđene i stvarne vrijednosti svake sljedeće stvari na svijetu umjetni agent može naučiti nevjerojatno složene sekvence događaja, poput navigacije svijetom ili kako trčati.

A ovo je računski dio dopaminske teorije: da su brzi odgovori dopaminskih neurona samo pogreška predviđanja algoritama učenja učenja. Da su oni pogreška između predviđene i stvarne vrijednosti onoga što se događa sljedeće. I da se koriste za učenje. Ključ ove teorije nije samo u tome što dopaminski neuroni signaliziraju razliku između nagrade koju ste dobili i onoga što ste očekivali. To je da oni signal prenose i na neočekivane stvari koje predviđaju nagradu, upravo onako kako algoritmi za učenje ojačanja kažu da bi trebali.

To ne znači da dopaminski neuron samo kodira ovu pogrešku predviđanja. Postoje mnoge nijanse u tome što bi vas sami dopaminski neuroni mogli zanimati, super skup stvari izvan pogrešaka predviđanja. I doista su pogreške u predviđanju nagrade samo podskup mogućih pogrešaka u predviđanjima o svijetu koji bi mogao postojati u mozgu (priča za sljedeći put). No, taj dopaminski neuron kodira pogrešku u predviđanju nagrade čini se dobro utvrđenim dijelom onoga što čine.

(I ova predložena podudarnost između brzog odgovora na dopaminske neurone i greške predviđanja vrijedi i za složenije algoritme učenja ojačanja, poput uzbudljivog oživljavanja i proširenja ideje Petera Dayaninog „predstavljanja nasljednika“ Sema Gershmana, Ida Momennejad, Kim Stachenfeld i kolege. Na računu reprezentacije nasljednika ne postoji jedna jednostavna greška između onoga što ste predvidjeli i onoga što ste dobili, već čitava vektorica pogrešaka predviđanja za promjene različitih značajki svijeta - od kojih je jedna nagrada. od Gershmana i njegovih kolega pokazuje kako razmišljanje o brzom odgovoru na dopaminski neuron kao zbroj tih pogrešaka može objasniti neka zbunjujuća nedavna otkrića o dopaminskim neuronima koji šalju brze signale promjenama u svijetu koje nisu nagrade.)

Ali nije postojala potreba za postojanjem dvostrukog neuronskog korespondencijskog i teorijskog signala pogreške. Algoritmi učenja ojačanja temelje se na promatranjima ponašanja životinja. I mogu biti vrlo uspješni: životinje, uključujući i ljude, često se zaista ponašaju kao da koriste grešku predviđanja u nagradama da bi naučile o svijetu. Ali samo zato što možemo opisati ponašanje korištenjem pogreške u predviđanju nagrade, ne slijedi da u mozgu mora postojati takav eksplicitni signal pogreške

Jer, savršeno je moguće izgraditi sustav koji o svijetu uči koristeći povratne informacije koje u svojim predviđanjima nemaju eksplicitni signal za pogrešku. Jedan primjer ovih sustava je Bayesov agent, onaj koji uči o vjerojatnostima u budućnosti, a ne o sigurnostima.

Takav bajezijski agent mogao bi predstavljati neizvjesnost oko vrijednosti akcije. Ova nesigurnost kodirana je raspodjelom vjerojatnosti - koju bismo mogli napisati P (vrijednost | akcija A) - za moguće vrijednosti poduzimanja akcije A. Na primjer, može postojati velika vjerojatnost da će akcija A imati malu vrijednost, i mala vjerojatnost da će imati visoku vrijednost; ili obrnuto; ili nešto daleko složenije.

Našeg jadnog bajezijskog agenta svrstavamo u najdublji svijet koji smo mogli zamisliti. Cijeli se životni vijek sastoji od izbora koje tri poluge treba povući kako bi ponovo i ponovo dobivao novčić. Kako su šanse za osvajanje kovanice različite između tri poluge, tako agent mora smisliti što izvući kako bi dugoročno dobio najviše novca. Tri poluge, tako da su moguće tri akcije, tri odgovarajuće distribucije vjerojatnosti za vrijednost svake poluge. Svako kolo agent odabere polugu na temelju tih raspodjela vjerojatnosti - možda ima tendenciju da odabere onu koja trenutno daje najveću vjerojatnost najveće nagrade - i gleda novac.

Kovan ili ne, agent koristi rezultat da bi ažurirao svoju distribuciju vjerojatnosti. Kovanica je dokaz da je poluga dobra, pa agent povećava vjerojatnost da povlačenje poluge ima visoku vrijednost; nijedan novčić nije dokaz da poluga nije dobra, pa agent povećava vjerojatnost da povlačenje poluge ima malu vrijednost. Bilo kako bilo, agent sada ima više informacija o odabranoj radnji, bez obzira na to je li to bio dobar ili loš ishod. Raspodjela vjerojatnosti za tu radnju ažurira se kako bi odražavala te podatke promjenom parametara distribucije.

Nema signala pogreške Agent uči od povratnih informacija o svijetu i može ga koristiti za donošenje odluka, ali nema signala pogreške pogreške predviđanja. Sigurno, mogli bismo je konstruirati - računajući razliku između raspodjele vjerojatnosti prije i nakon što je novčić stigao - ali ne treba nam ga. Signal pogreške je implicitan.

Opet, to je ponašanje, još ne mozak. Ali mnogi vjeruju da mozak predstavlja svijet koristeći raspodjelu vjerojatnosti; a postoje i uvjerljive teorije kako predstaviti i ažurirati distribuciju vjerojatnosti pomoću neurona. Oni se svode na prilagodbu pucanja populacije neurona koji predstavljaju raspodjelu vjerojatnosti. A to postižete podešavanjem snage ulaza na te neurone (bilo da su ti ulazi unutar populacije ili izvan nje). Dakle, mozgu je potreban signal o tome je li se dogodila nagrada ili ne i to iskoristite za podešavanje veza. Nije potreban komplicirani signal o pogrešci u predviđanjima.

Tako bi mozak mogao naučiti od pojačanja sa ili bez izričitog signala za pogreške u predviđanju tog pojačanja. Ali mozak ima eksplicitni signal pogreške koji je kodiran dopaminskim neuronima. Što nam to govori?

Mislim da nam to govori tri zanimljive ideje kako mozak funkcionira. Mislim da - u potpunosti spreman da pogrešite u vezi s tim i da postoji vodonepropusni argument zašto ne možete izgraditi mozak bez izričitog signala za pogreške u predviđanju nagrade.

Prva ideja je da postojanje izričitog signala pogreške podrazumijeva postojanje jednostavnog predstavljanja svijeta u mozgu. Takozvani prikaz „bez modela“ koji ne predstavlja svaki mogući ishod neke radnje i vjerojatno ne koristi ni vjerojatnost. Brzo dostupna pregledna vrijednost vrijednosti radnji koja se koristi za odabir radnji kad vrijeme pritiska ili je svijet nepromijenjen. Već imamo nekoliko dobrih ideja gdje žive takve reprezentacije u mozgu. A svi oblici tako jednostavnih prikaza o kojima znamo su izričit signal za pogrešku između stvarnih i predviđenih vrijednosti.

Druga ideja je da je ono što je jedan pojam u učenju pojačanja zapravo dva procesa u mozgu. Jedan koncept učenja ojačanja je da pogrešku u predviđanju koristite za promjenu svoje procjene vrijednosti akcije. Zašto su ova dva procesa u mozgu? Zato što bi mozak možda htio zasebno kontrolirati kratkoročne i dugoročne promjene u procjenama vrijednosti akcije. A eksplicitni signal pogreške koji donira dopamin dopušta mu da radi s jednim signalom.

Da bismo postigli dugoročne promjene, mogli bismo prilagoditi svoju procjenu vrijednosti akcije promjenom snage ili veze prema neuronima koji predstavljaju tu akciju. Prilagođavanje naše procjene vrijednosti na ovaj način mijenja dugoročno ponašanje. A brzi dopaminski signal doista se misli da kontrolira mogu li i u kojem smjeru neke veze u mozgu mijenjati snagu. Ovdje vam je potreban znak signala pogreške da biste rekli vezama u koji se smjer treba mijenjati.

Ali mozak ne želi nužno da svaki dio povratne informacije promijeni vezu između neurona. Zbog toga se zaključava u put s kojeg bi se moglo biti teško oporaviti. Doista, kad sami pokušamo i promijenimo snagu ovih veza, stimulišući ulaze u neuron, neke od njih mogu se pokazati izuzetno teškim za promjenu. Što povećava mogućnost da bi mozak, kratkoročno, mogao zaštititi svoje oklade mijenjajući svoje procjene vrijednosti akcije bez promjene snage povezivanja. A to mogu učiniti umjesto da promijene koliko su neuroni na njihove reakcije. Ako napravite neuron za djelovanje Veća je vjerojatnost da će pucati, tada ste povećali njegovu predviđenu vrijednost; i obrnuto. Pogodite koji odašiljač u mozgu ima stotine radova koji pokazuju kako mijenja osjetljivost neurona koji kontroliraju djelovanje? Da, dopamin.

Skupa, argument ovdje je da postoji eksplicitni signal pogreške kako bi mozak mogao kontrolirati promjene predviđene vrijednosti na dvije vremenske skale. A napravite to koristeći jedan signal pogreške kodiran dopaminom: kako biste dugoročno omogućili promjenu snage veze i promijenili koliko su neuroni kratkoročno osjetljivi.

Treća ideja je da je eksplicitni signal pogreške u mozgu evolucijska slučajnost. Izgraditi sustav za učenje iz povratnih informacija lakše je s eksplicitnim signalom pogreške nego s prikazom vjerojatnosti u grupi neurona. Drevne su životinje vjerojatno imale neurona ili dva koji su prskali dopaminom ili nešto slično kao dio kontrole kretanja. Možemo pronaći obilje beskralježnjaka s samo nekoliko tisuća neurona u kojima dopamin mijenja kretanje mijenjajući načine na koji neuroni reagiraju na njihov unos. Kad je uspostavljen ovaj dopaminski sustav, možda je put najmanjeg otpora za evoluciju bio kooptirati ovaj emitirani signal da promijeni vezu između neurona nakon pogreške. Što se čini potencijalno lakšim od prvoga razvijanja distribuiranog sustava za predstavljanje informacija za koje nije potreban izričit signal pogreške.

Doprinos teorije neuroznanosti govori o tome što pokazuje što mozak ne može ili ne može, kao što može. Da, ako dopustimo bilo kakvu proizvoljnu ideju, ovaj je prostor praktički beskonačan: teorije koje pokazuju da mozak ne upotrebljava žele jagode kao neurotransmiter ili ne računaju na poleđini omotnice i tupim olovkom nisu korisne.

Ali ovdje u mozgu pronalazimo eksplicitni signal pogreške i to isključuje čitavu klasu načina učenja iz povratnih informacija, a određuje neke u. Teorija pogreške dopamina o predviđanju nagrade govori koliko i ono što ne čini , kao što se čini. U vrtu za razbijanje staza trebalo bi nam biti drago zbog neke pomoći - a nekoliko vrtnih staza složenije je od mozga.

Želite više? Pratite nas na The Spike

Twitter: @markdhumphries