A Go játék elsajátítása mély neurális hálózatokkal és fakereséssel

Tárgyak

Absztrakt

A Go játékát régóta a mesterséges intelligencia klasszikus játékainak legnehezebb játékának tekintik, hatalmas keresési terének, valamint a tábla pozícióinak és mozdulatainak értékelésének nehézségei miatt. Itt bemutatjuk a computer Go új megközelítését, amely „értékhálózatokat” használ a tábla pozícióinak értékeléséhez, és a „házirend-hálózatokat” a mozdulatok kiválasztásához. Ezeket a mély ideghálózatokat az emberi szakértői játékok felügyelt tanulásának és az önjátékokból származó megerősítő tanulás újszerű kombinációja képezi. Mindenféle keresés nélkül a neurális hálózatok a Go játékot a legmodernebb Monte Carlo fa kereső programok szintjén végzik, amelyek több ezer véletlenszerű játékot szimulálnak. Bevezetünk egy új keresési algoritmust is, amely egyesíti a Monte Carlo szimulációt az érték- és házirend-hálózatokkal. Ezzel a keresési algoritmussal az AlphaGo programunk 99,8% -os nyerési arányt ért el más Go programokkal szemben, és 5 játékkal 0-ra legyőzte az emberi Európa Go bajnokot. Ez az első alkalom, hogy egy számítógépes program teljes mértékben legyőzte az emberi profi játékost. nagyságú Go játék, egy olyan bravúr, amelyet korábban legalább egy évtizedre vártak el.

Hozzáférési lehetőségek

Feliratkozás a Naplóra

Teljes napló hozzáférést kap 1 évre

csak 3,58 € kiadásonként

Az árak nettó árak.
Az áfát később hozzáadják a pénztárhoz.

Cikk bérlés vagy vásárlás

Időben korlátozott vagy teljes cikkelérést kaphat a ReadCube-on.

Az árak nettó árak.

Hivatkozások

Allis, L. V. Megoldások keresése a játékokban és a mesterséges intelligenciában. PhD értekezés tézisei, Univ. Limburg, Maastricht, Hollandia (1994)

van den Herik, H., Uiterwijk, J. W. és van Rijswijck, J. Megoldott játékok: most és a jövőben. Artif. Intell. 134, 277–311 (2002)

Schaeffer, J. A játék számítógépek (és emberek) játszanak. A számítógépek fejlődése 52, 189–266 (2000)

Campbell, M., Hoane, A. & Hsu, F. mélykék. Artif. Intell. 134, 57–83 (2002)

Schaeffer, J. és mtsai. Világbajnoki kaliberű dáma program. Artif. Intell. 53, 273–289 (1992)

Buro, M. Az egyszerű funkcióktól a kifinomult értékelési funkciókig. Ban ben 1. nemzetközi konferencia a számítógépekről és játékokról, 126–145 (1999)

Müller, M. Computer Go. Artif. Intell. 134, 145–179 (2002)

Tesauro, G. & Galperin, G. On-line politikai fejlesztés a Monte-Carlo keresés segítségével. Ban ben A neurális információfeldolgozás előrelépései, 1068–1074 (1996)

Sheppard, B. Világbajnoki kaliberű Scrabble. Artif. Intell. 134, 241–275 (2002)

Bouzy, B. & Helmstetter, B. Monte-Carlo Go fejlesztések. Ban ben 10. nemzetközi konferencia a számítógépes játékok fejlődéséről, 159–174 (2003)

Coulom, R. Hatékony szelektivitás és mentési operátorok a Monte-Carlo fa keresésben. Ban ben 5. nemzetközi konferencia a számítógépekről és játékokról, 72–83 (2006)

Kocsis, L. & Szepesvári, C. Bandit alapú Monte-Carlo tervezés. Ban ben 15. európai konferencia a gépi tanulásról, 282–293 (2006)

Coulom, R. A mozgásminták Elo-osztályozásának kiszámítása a Go játékában. ICGA J. 30, 198–208 (2007)

Baudiš, P. & Gailly, J.-L. Pachi: Korszerű nyílt forráskódú Go program. Ban ben A számítógépes játékok fejlődése, 24–38 (Springer, 2012)

Müller, M., Enzenberger, M., Arneson, B. & Segal, R. Fuego - a társasjátékok és a Go motor nyílt forráskódú keretrendszere Monte-Carlo fa keresés alapján. IEEE Trans. Comput. Intell. AI a játékokban 2, 259–270 (2010)

Gelly, S. & Silver, D. Az online és az offline tanulás kombinálása az UCT-ben. Ban ben 17. nemzetközi konferencia a gépi tanulásról, 273–280 (2007)

Krizhevsky, A., Sutskever, I. & Hinton, G. ImageNet osztályozás mély konvolúciós neurális hálózatokkal. Ban ben A neurális információfeldolgozó rendszerek fejlődése, 1097–1105 (2012)

Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. Arcfelismerés: konvolúciós neurális-hálózati megközelítés. IEEE Trans. Idegháló. 8., 98–113 (1997)

Mnih, V. és mtsai. Emberi szintű kontroll mély megerősítő tanulással. Természet 518, 529–533 (2015)

LeCun, Y., Bengio, Y. és Hinton, G. Mély tanulás. Természet 521, 436–444 (2015)

Stern, D., Herbrich, R. & Graepel, T. Bayesian minta rangsorolása a mozgás előrejelzéséhez a Go játékában. Ban ben A gépi tanulás nemzetközi konferenciája, 873–880 (2006)

Sutskever, I. & Nair, V. Mimicking Go szakértők konvolúciós neurális hálózatokkal. Ban ben Nemzetközi konferencia a mesterséges neurális hálózatokról, 101–110 (2008)

Maddison, C. J., Huang, A., Sutskever, I. & Silver, D. Az értékelés mozgatása a Go segítségével mély konvolúciós neurális hálózatokkal. 3. nemzetközi konferencia a tanulási képviseletekről (2015)

Clark, C. & Storkey, A. J. mély konvolúciós ideghálózatok képzése a játékra. Ban ben 32. nemzetközi konferencia a gépi tanulásról, 1766–1774 (2015)

Williams, R. J. egyszerű statisztikai gradienskövető algoritmusok a kapcsolati erősítő tanuláshoz. Mach. Tanul. 8., 229–256 (1992)

Sutton, R., McAllester, D., Singh, S. & Mansour, Y. Szakpolitikai gradiens módszerek a tanulás megerősítésére funkció közelítéssel. Ban ben A neurális információfeldolgozó rendszerek fejlődése, 1057–1063 (2000)

Sutton, R. & Barto, A. Megerősítő tanulás: Bevezetés (MIT Press, 1998)

Schraudolph, N. N., Dayan, P. & Sejnowski, T. J. A pozíció értékelésének időbeli különbségtanulása a Go játékában. Adv. Neural Inf. Folyamat. Syst. 6., 817–824 (1994)

Enzenberger, M. Evaluation in Go egy neurális hálózat segítségével, puha szegmentálással. Ban ben 10. előrelépés a számítógépes játékok konferenciáján, 97–108 (2003). 267

Silver, D., Sutton, R. & Müller, M. Időbeli eltérések keresése a számítógépes Go-ban. Mach. Tanul. 87, 183–219 (2012)

Levinovitz, A. A Go rejtélye, az ősi játék, amelyet a számítógépek még mindig nem tudnak megnyerni. Vezetékes magazin (2014)

Mechner, D. Minden rendszer megy. A tudományok 38, 32–37 (1998)

Mandziuk, J. Számítási intelligencia az elme játékokban. Ban ben A számítási intelligencia kihívásai, 407–442 (2007)

Berliner, H. A számítógépes sakk kronológiája és irodalma. Artif. Intell. 10., 201–214 (1978)

Browne, C. és mtsai. Monte-Carlo fa keresési módszereinek áttekintése. IEEE Trans. Comput. Intell. AI a játékokban 4, 1–43 (2012)

Gelly, S. és mtsai. A számítógépes Go nagy kihívása: Monte Carlo fa keresés és kiterjesztések. Commun. ACM 55, 106–113 (2012)

Coulom, R. Teljes történelem szerinti besorolás: Bayesi minősítési rendszer időnként változó erősségű játékosok számára. Ban ben Nemzetközi konferencia a számítógépekről és a játékokról, 113–124 (2008)

Littman, M. L. Markov játékok, mint a multi-agent megerősítő tanulás keretei. Ban ben 11. nemzetközi konferencia a gépi tanulásról, 157–163 (1994)

Knuth, D. E. és Moore, R. W. Az alfa-béta metszés elemzése. Artif. Intell. 6., 293–326 (1975)

Sutton, R. Az előrejelzés megtanulása az időbeli különbségek módszerével. Mach. Tanul. 3, 9–44 (1988)

Baxter, J., Tridgell, A. & Weaver, L. A sakkozás megtanulása időbeli különbségek felhasználásával. Mach. Tanul. 40, 243–263 (2000)

Veness, J., Silver, D., Blair, A. & Uther, W. Bootstrapping a játékfa keresésből. Ban ben A neurális információfeldolgozó rendszerek fejlődése (2009)

Samuel, A. L. Néhány tanulmány a gépi tanulásról a dáma játékával II - a közelmúltban elért haladás. IBM J. Res. Fejleszteni. 11., 601–617 (1967)

Schaeffer, J., Hlynka, M. & Jussila, V. Az időbeli különbségek tanulása nagy teljesítményű játékprogramra vonatkozik. Ban ben 17. nemzetközi közös konferencia a mesterséges intelligenciáról, 529–534 (2001)

Tesauro, G. TD-gammon, egy autodidakta backgammon program, mester szintű játékot ér el. Neural Comput. 6., 215–219 (1994)

Dahl, F. Honte, Go-playing program ideghálókkal. Ban ben Gépek, amelyek megtanulnak játszani, 205–223 (Nova Science, 1999)

Rosin, C. D. Többfegyveres banditák epizódkontextussal. Ann. Math. Artif. Intell. 61, 203–230 (2011)

Lanctot, M., Winands, M. H. M., Pepels, T. & Sturtevant, N. R. Monte Carlo fa keresés heurisztikus értékelésekkel implicit minimumx biztonsági mentésekkel. Ban ben IEEE konferencia a számítástechnikai intelligenciáról és játékokról, 1–8 (2014)

Gelly, S., Wang, Y., Munos, R. & Teytaud, O. Az UCT módosítása a Monte-Carlo Go mintáival. Tech. ismétlés. 6062, INRIA (2006)

Silver, D. & Tesauro, G. Monte-Carlo szimulációs egyensúlyozás. Ban ben 26. nemzetközi konferencia a gépi tanulásról, 119 (2009)

Huang, S.-C., Coulom, R. & Lin, S.-S. Monte-Carlo szimulációs egyensúlyozás a gyakorlatban. Ban ben 7. nemzetközi konferencia a számítógépekről és a játékokról, 81–92 (Springer-Verlag, 2011)

Baier, H. & Drake, P. D. A felejtés ereje: a Monte Carlo Go-ban az utolsó jó válasz politikájának javítása. IEEE Trans. Comput. Intell. AI a játékokban 2, 303–309 (2010)

Huang, S. & Müller, M. Monte-Carlo fa keresési módszereinek határainak vizsgálata a Computer Go-ban. Ban ben 8. nemzetközi konferencia a számítógépekről és a játékokról, 39–48 (2013)

Segal, R. B. A párhuzamos UCT méretezhetőségéről. Számítógépek és játékok 6515, 36–47 (2011)

Enzenberger, M. & Müller, M. zár nélküli, többszálú Monte-Carlo fa keresési algoritmus. Ban ben 12. előrelépés a számítógépes játékok konferenciáján, 14–20 (2009)

Huang, S.-C., Coulom, R. & Lin, S.-S. A Go játékához a Monte-Carlo fa keresésének időgazdálkodása vonatkozott. Ban ben Nemzetközi konferencia a mesterséges intelligencia technológiáiról és alkalmazásairól, 462–466 (2010)

Gelly, S. & Silver, D. Monte-Carlo fa keresés és gyors cselekvési érték becslés a számítógépes Go-ban. Artif. Intell. 175, 1856–1875 (2011)

Baudiš, P. Az MCTS kiegyensúlyozása a komi érték dinamikus beállításával. ICGA J. 34, 131 (2011)

Baier, H. & Winands, M. H. Aktív nyitókönyv-alkalmazás Monte-Carlo fakereséshez 19 × 19 Go-ban. Ban ben Benelux konferencia a mesterséges intelligenciáról, 3–10 (2011)

Dean, J. és mtsai. Nagyméretű elosztott mély hálózatok. Ban ben A neurális információfeldolgozó rendszerek fejlődése, 1223–1231 (2012)

Köszönetnyilvánítás

Köszönjük Fan Huinak, hogy beleegyezett az AlphaGo elleni játékba; T. Manning a játékvezető játékért; R. Munos és T. Schaul hasznos vitákért és tanácsokért; A. Cain és M. Cant a látványterv munkájáért; P. Dayan, G. Wayne, D. Kumaran, D. Purves, H. van Hasselt, A. Barreto és G. Ostrovski a cikk áttekintéséért; és a DeepMind csapat többi tagjának támogatásukért, ötleteikért és bátorításukért.

Szerzői információk

David Silver és Aja Huang: Ezek a szerzők egyformán járultak hozzá ehhez a munkához.

Hovatartozások

Google DeepMind, 5 New Street Square, London, EC4A 3TW, Egyesült Királyság

David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, Nal Kalchbrenner, Timothy Lillicrap, Madeleine Kavukcuoglu, Thore Graepel és Demis Hassabis

Google, 1600 Amphitheatre Parkway, Mountain View, Kalifornia, 94043, USA

John Nham és Ilya Sutskever

A PubMed Google Scholar alkalmazásban is kereshet erre a szerzőre