teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]


新着順:60/3173 記事一覧表示 | 《前のページ | 次のページ》

30手目までの学習局面割合を減らすと、学習初期はやや効果ありですが途中からは微妙

 投稿者:山下  投稿日:2022年 1月 9日(日)19時03分29秒
  通報 編集済
  AobaZeroの棋譜で40手以下で投了してる棋譜の採用率は10分の1、さらに30手以下の局面は
0手目は10分の1、30手目では1分の1、になるように学習させる割合を減らして試してみました。

グラフにすると下図の緑のような感じになります。

ほぼ最新の重みで小さい学習率だとやや弱く、最初から学習させると+30 ELO程度強くなるようです。
ただ計測が24手までは互角局面集を使ってるので当然ともいえますが。
学習途中からだと、多少変更しても変化を見るのは難しそうです。


重みw3670に対する勝率。途中(w3670)から学習。1手100playout。

勝  引  負 局数  ELO
174-22-204 400 ( -26) 0手目を10分の1
170-27-203 400 ( -28) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習
163-25-212 400 ( -42) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習  (再試)

重みw3670から4800万棋譜から50万回(ミニバッチ128、6400万局面)学習。学習率 0.000002


「実際の勝敗」のみの「実際の勝敗と探索勝率の平均」への勝率。最初(乱数)から学習

勝   引  負 局数  ELO
249- 39-328 616 ( -44) 1手100playout
373-102-325 800 (  20) 1手  1playout, Policyのみだと若干弱い。valueのみが正確になってる

「30手以下の割合を小さく」の「制約なしで学習」に対する勝率
350- 73-290 713 (  29) 1手100playout   最初から、だと強い。24手目以降の強さなので当然かも
390-123-287 800 (  44) 1手  1playout,

下の4つは192x10bの小さなモデルで乱数で初期化したネットワークで学習。
すべて互角局面集で24手以降からの対戦成績。
 
 
》記事一覧表示

新着順:60/3173 《前のページ | 次のページ》
/3173