Stvaranje umjetne inteligencije: AlphaZero iz DeepMind-a

11. svibnja 1997., poseban dan za umjetnu inteligenciju. Tog dana prvi je put računalni program nazvan Deep Blue uspio pobijediti vladajućeg svjetskog prvaka u šahu u uvjetima turnira.

Mnogo se toga promijenilo za AI od tada, na dobar način. Posljednjih nekoliko godina uživali smo u ogromnim pomacima i probojima u istraživanju AI. Strojevi postaju inteligentniji i što je još važnije, kroz sva ova istraživanja počinjemo stjecati jasnije razumijevanje što je zapravo ljudska inteligencija. Samo sa konkretnim razumijevanjem inteligencije, mi zapravo možemo graditi inteligentne strojeve.

DeepMind je bio na čelu revolucije AI.

DeepMind

DeepMind Technologies je britanska tvrtka za umjetnu inteligenciju. U 2014. ih je Google kupio zbog vodeće svjetske stručnosti u AI. Otkako su prvi put započeli, oni su rješavali AI najambicioznije pukotine na svijetu.

Njihova najnovija kreacija ujedno je i njihov najimpresivniji: AlphaZero

AlphaZero je AI sustav koji je od samog početka učio kako savladati šah, shogi (japanski šah) i Go. Kako bi dokazao izvrsnost AlphaZera, ona je bila uspoređena sa svjetskim prvakom u svakoj igri. AlphaZero je izašao pobjednički.

Igre i inteligencija

U potrazi za izgradnjom inteligentnih strojeva, istraživačima je postavljeno izazov da prvo odgovore što je zapravo inteligencija. Nije tako jednostavno pitanje odgovoriti!

Na što mislite kad vas netko zatraži da definirate inteligenciju? Moglo bi se zamisliti nekoga za koga smatraju da je pametan. Oni znaju stvari koje drugi ne. Ali čak i više od toga, oni su sposobni koristiti to znanje u obliku neke vještine kako bi ostvarili cilj.

Cilj je obično nešto što je pomalo izazovno postići. Trebalo bi joj neko posebno znanje, vještinu ili dublje razumijevanje: inteligencija.

Sposobnost igranja i pobjede u igri oblik je inteligencije. Igre imaju pravila i ciljeve. Svi igrači igraju po istim pravilima i pokušavaju postići isto: pobijediti u igri. Za pobjedu je potrebno znanje o tome kako igrati igru ​​i kako to znanje koristiti na način da pobijedite protivnika.

Upravo taj zahtjev visoko specijaliziranog i naprednog znanja za pobjedu je upravo razlog zašto se igre na ploči već dugo koriste kao probni ležaj za AI sustave. Ako želimo da naš sustav uspije pobijediti u šahu, ne samo protiv amatera, već i protiv najboljih svjetskih velemajstora, tada taj sustav bolje zna o šahu! Treba gledati mnogo poteza unaprijed, razumjeti pozicije na ploči, prednosti svakog igrača i imati dublje razumijevanje i intuiciju same igre nego njenog protivnika. Treba biti inteligentan.

Kasparov vs Deep Blue (lijevo) i Sedol vs AlphaGo (desno)Šah i Go

Šah je bio glavna studijska igra za AI sve dok nedugo zatim Deep Blue pobijedio Garyja Kasparova. Šahovski motori, računalni programi dizajnirani tako da se u šahu zaista dobro slažu, postali su popularni nekoliko godina kasnije i sada ih možete pronaći na gotovo svim igrama šaha na računalu i telefonu! I tako, iako su AI sustavi još uvijek usmjereni na igru ​​u šahu radi temeljitosti, istraživači su krenuli u stvaranje sustava koji mogu pobijediti u zahtjevnijim igrama: Idi.

Go je još jedna strateška igra u kojoj je cilj okružiti više teritorija nego protivnik. Zvuči jednostavno, ali dubina razmišljanja je vjerojatno mnogo veća od šaha. Samo za jednostavnu usporedbu da biste vidjeli razliku u složenosti, šah se igra na ploči 8x8 = 64 kvadrata, dok se Go igra na mreži 19x19 sa 361 sjecišta (točke na kojima možete igrati)! Broj mogućih poteza u Go-u mnogo je veći od šahovskog.

Ova ogromna složenost je razlog zašto istraživači odlučuju ići nakon igre Go, koja se kreće naprijed. Ako se AI sustav može izgraditi za poraz svjetskog prvaka u složenoj igri kao Go, onda to mora imati neki oblik inteligencije. U najmanju ruku, može nam dati tragove u otkrivanju otkud potječu obrazloženje i intuicija koja zahtijeva inteligenciju.

AlphaZero: Inteligentni stroj

U prošlosti su AI sustavi bili dizajnirani za jednu određenu igru, tako da ne možete koristiti isti AI sustav koji ste napravili za šah za igru ​​Go. Ali AlphaZero nije jedan trik poni! AlphaZero je generički AI sustav koji teoretski može naučiti igrati i pobijediti na profesionalnoj razini u više igara. Do sada se dokazala u igrama Chess, Shogi i Go, a sve se koristi istim algoritmom.

Prikazivanje AlphaZero AI, ljubaznošću DeepMind-a

Najuzbudljiviji iskorak koji je napravio AlphaZero je nevjerojatno učenje samostalnom igrom. Vidite, da uvježbava igre u šahu, shogi-u i Go-u, AlphaZero nije igrao ni protiv stvarnih ljudskih protivnika. Sve svoje vještine naučio je igrajući protiv sebe, bez danih znanja, ali osnovnih pravila igre.

Da bi AlphaZero naučio svaku igru, neuronska mreža će igrati milijune igara protiv sebe. Budući da započinje bez znanja o tome što je dobra igra i strategija, proći će kroz veći dio probne i pogreške pogreške kako bi se započelo, igrajući sasvim nasumično. No, kako se igra nastavlja, proces učenja ojačanja gura sustav da igra više „pozitivnih“ poteza i izbjegava one „negativne“.

Učenje pojačanja AI temelji se na sustavu nagrađivanja. AI će dobiti neku vrstu pozitivne nagrade za pobjedu u igri i negativnu za poraz. S vremenom će sustav naučiti maksimizirati svoje ocjene.

Promatrajući igre u kojima je Alpha Zero igrao jednom potpuno uvježban, svjetski prvaci iz svih igara otkrili su da je AlphaZero uspješno naučio konvencionalne strategije igara koje obično igraju velikaši. Na primjer, AlphaZero je često igrao najčešće strategije otvaranja šaha i pokazao iskusne vještine u obrani svog Kralja kao profesionalca.

Ali zaista posebna stvar u vezi sa Alpha Zeroom nije bila u tome što su znali drugi prvaci, već u tome što nisu znali. Kroz samostalnu igru ​​Alpha Zero nije bila ograničena na igranje samo protiv onoga što čovjek može misliti. Imao je fleksibilnost igrati svaki mogući potez, otvarajući svoje učenje nekonvencionalnim igrama i strategijama koje nikada prije nisu vidjeli.

"Neki od njegovih poteza, poput premještanja kralja u središte ploče, idu u prilog shogi teoriji i - izgleda iz ljudske perspektive - čini se da je AlphaZero doveo u opasan položaj. Ali nevjerojatno ostaje u kontroli ploče. Njegov jedinstveni stil igre pokazuje nam da postoje nove mogućnosti za igru. „
- Yoshiharu Habu, 9-dan profesionalni, jedini igrač u povijesti koji je imao svih sedam glavnih shogi naslova

Stručnjaci takvu vještinu vide kao kreativnu, nešto što bi zahtijevalo super-ljudsku razinu znanja i vještine: inteligenciju. Da bi stvorili inteligentne sustave koji bi mogli riješiti široki raspon problema u stvarnom svijetu, oni moraju biti dizajnirani tako da dobro razumiju pravila, ali također su dovoljno fleksibilni za samostalno istraživanje. Oni također moraju biti sposobni postati vješti u mnogim stvarima i ne biti zaključani u jednoj igri.

AlphaZero pokazuje neke rane znakove toga. To pokazuje da se pomoću jednog algoritma može naučiti kako razumjeti trenutna znanja, a zatim gurnuti dalje od toga. To je korak u pravom smjeru stvaranja inteligencije.

Ako želite saznati više o AlphaZero-u, možete pročitati blog DeepMind-a ili njihov istraživački rad objavljen u Science Journalu.

Volite učiti?

Pratite me na twitteru gdje objavljujem sve o najnovijim i najvećim AI, tehnologijama i znanosti!