AlphaGo Zero

Pentru alte sensuri, vedeți Zero (dezambiguizare).

Prezență online
AlphaGo Zero
Modifică date / text

AlphaGo Zero este o versiune a programului Go software a echipei AlphaGo a companiei britanice DeepMind. Echipa AlphaGo a publicat un articol în revista Nature, la data de 19 octombrie 2017, prezentând realizarea programului derivat AlphaGo Zero, versiune creată fără a utiliza niciun fel de date din jocurile go jucate de oameni, dovedindu-se mult mai puternică decât oricare din versiunile anterioare. De data asta, programul a fost conceput să învețe doar jucând împotriva sa.^[1] Printr-o astfel de abordare, programul a depășit spectaculos programul anterior AlphaGo Lee în doar trei zile, câștigând un meci împotriva acestuia cu 100 (o sută) la 0 (zero), atingând nivelul programului AlphaGo Master în 21 de zile și înfrângând cu scoruri semnificativ de mari toate vechile versiuni ale programului după 40 de zile.^[2]

Antrenarea programelor de inteligență artificială (IA), fără folosirea datelor colectate și/sau derivate din jocurile experților umani, are o importanță extrem de mare, cu semnificații profunde asupra dezvoltării inteligențelor artificiale cu calități depășind cele umane, întrucât acest tip de date sunt „adesea scumpe, nesigure sau pur și simplu indisponibile”.^[3] Demis Hassabis, cofondatorul și CEO al DeepMind, a declarat că programul AlphaGo Zero s-a dovedit a fi atât de puternic întrucât „nu mai era constrâns la limitele cunoașterii umane”.^[4] David Silver, unul din primii autori ai seriei de articole publicate de DeepMind despre AlphaGo, în revista Nature, a declarat că progresul a fost posibil prin generalizarea algoritmilor de IA, care nu mai au nevoia de a învăța de la oameni.^[5]

Ulterior Google a realizat programul AlphaZero, versiune generalizată a programului AlphaGo Zero, care poate juca șah și shōgi, în plus de abilitatea de a juca go. În decembrie 2017, AlphaZero a învins AlphaGo Zero cu scorul de 60 la 40, iar după doar opt ore de antrenament (jucând împotriva sa) a depășit AlphaGo Lee pe scala Elo. AlphaZero a învins de asemenea programe de vârf în șah (Stockfish) și în shōgi (Elmo).^[6]^[7]

Costuri de hardware[modificare | modificare sursă]

Costul pentru un singur sistem AlphaGo Zero, incluzând componente special designate pentru acest proiect, au fost menționat ca fiind în jur de 25 de milioane dolari americani.^[8]^[9]

Software[modificare | modificare sursă]

Referințe, note[modificare | modificare sursă]

^ Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Fan, Hui; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis (19 octombrie 2017). „Mastering the game of Go without human knowledge”. Nature. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038/nature24270. ISSN 0028-0836. PMID 29052630. Accesat în 10 decembrie 2017. Format:Closed access
^ Hassabis, Demis; Siver, David (18 octombrie 2017). „AlphaGo Zero: Learning from scratch”. DeepMind official website. Arhivat din original la 19 octombrie 2017. Accesat în 19 octombrie 2017.
^ „Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone”. Yahoo! Finance. 19 octombrie 2017. Accesat în 19 octombrie 2017.
^ Knapton, Sarah (18 octombrie 2017). „AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days”. The Telegraph. Accesat în 19 octombrie 2017.
^ „DeepMind AlphaGo Zero learns on its own without meatbag intervention”. ZDNet. 19 octombrie 2017. Accesat în 20 octombrie 2017.
^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 decembrie 2017). „Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm”. arXiv:1712.01815  [cs.AI].
^ Knapton, Sarah; Watson, Leon (6 decembrie 2017). „Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours”. The Telegraph.
^ Alpert, Bill (4 noiembrie 2017). „Artificial Intelligence's Winners and Losers”. barrons.com. Accesat în 8 decembrie 2017.
^ „Google Artificial Intelligence 'Alpha Go Zero' Just Pressed Reset On How To Learn”. Inc.com (în engleză). 23 octombrie 2017. Accesat în 8 decembrie 2017.

Legături externe[modificare | modificare sursă]

en AlphaGo blog Arhivat în 19 octombrie 2017, la Wayback Machine.
en Singh, S.; Okun, A.; Jackson, A. (2017). „AOP”. Nature. 550 (7676): 336–337. Bibcode:2017Natur.550..336S. doi:10.1038/550336a. PMID 29052631.
en Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Hui, Fan; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). „Mastering the game of Go without human knowledge”. Nature. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038/nature24270. PMID 29052630.
en AlphaGo Zero Games
en AMA on Reddit

[Nature2017-1] Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Fan, Hui; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis (19 octombrie 2017). „Mastering the game of Go without human knowledge”. Nature. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038/nature24270. ISSN 0028-0836. PMID 29052630. Accesat în 10 decembrie 2017. Format:Closed access

[Deepmind20171018-2] Hassabis, Demis; Siver, David (18 octombrie 2017). „AlphaGo Zero: Learning from scratch”. DeepMind official website. Arhivat din original la 19 octombrie 2017. Accesat în 19 octombrie 2017.

[3] „Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone”. Yahoo! Finance. 19 octombrie 2017. Accesat în 19 octombrie 2017.

[4] Knapton, Sarah (18 octombrie 2017). „AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days”. The Telegraph. Accesat în 19 octombrie 2017.

[5] „DeepMind AlphaGo Zero learns on its own without meatbag intervention”. ZDNet. 19 octombrie 2017. Accesat în 20 octombrie 2017.

[preprint-6] Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 decembrie 2017). „Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm”. arXiv:1712.01815  [cs.AI].

[7] Knapton, Sarah; Watson, Leon (6 decembrie 2017). „Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours”. The Telegraph.

[8] Alpert, Bill (4 noiembrie 2017). „Artificial Intelligence's Winners and Losers”. barrons.com. Accesat în 8 decembrie 2017.

[9] „Google Artificial Intelligence 'Alpha Go Zero' Just Pressed Reset On How To Learn”. Inc.com (în engleză). 23 octombrie 2017. Accesat în 8 decembrie 2017.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]