teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]


新着順:21/2470 記事一覧表示 | 《前のページ | 次のページ》

Mastering Chess and Shogi by Self-Play with a General Reinfo

 投稿者:山下  投稿日:2017年12月 6日(水)13時46分6秒
  通報
  DeepMindが世界最強の将棋、チェスを作ったようです。

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
https://arxiv.org/pdf/1712.01815.pdf

AlphaGo Zeroでやったゼロから強化学習だけで強くする手法を一般化して
Chess、将棋、囲碁で試し、
将棋では学習から2時間でElmoを超えたそうです。
チェスは4時間でStockfishを超えています。
囲碁は8時間でセドルと対戦した版を超えています。

探索はMCTSで、将棋だと1秒間に4万局面しか読まないそうです。
Elmoは3500万局面/秒(64スレッド)
Elmoに100戦して90勝8敗2引、だそうです。

MCTSで、AlphaBetaをあっさり抜き去るとは驚きました。
1000倍程度の探索速度の差をあっさり評価関数で埋めた、ということかもしれません。
 
 
》記事一覧表示

新着順:21/2470 《前のページ | 次のページ》
/2470