teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]

【重要】teacup. byGMOのサービス終了について
 <思いやりのあるコミュニティ宣言>
 teacup.掲示板は、皆様の権利を守りながら、思いやり、温かみのあるコミュニティづくりを応援します。
 いつもご協力いただきありがとうございます。

 投稿者
 メール
  題名
  内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
    
 URL
[ ケータイで使う ] [ BBSティッカー ] [ 書込み通知 ]


dlshogiのtemperature

 投稿者:山下  投稿日:2022年 3月29日(火)13時00分40秒
  > AobaZero の、temperature の設定は

これはAlphaZeroにはない、dlshogiの独自改良だと思います。
2021年11月の電竜戦版ですと温度140、(100で割ってるので1.4)で
Policyの初期確率をやや平坦になるように修正しているようです。
AobaZeroでは何もしてないので100(1.0)です。

AobaZeroでも一度試してみようと思います。
ノード数が増えると温度を上げる、などすれば全幅探索に近い雰囲気になりそうな気もします。

AlphaZeroで使われてる温度はdlshogiでは RANDOM_TEMPERATURE に相当し、
自己対戦で探索終了後に訪問回数の分布でランダムに選ぶ場合に使ってます。
 
 

Re: AobaZeroの素抜きの筋の見落とし

 投稿者:山下  投稿日:2022年 3月29日(火)12時43分43秒
  > 既知のことかもしれませんがfloodgateで

これを動かしていたのは私ではないですが、
この棋譜の見落としは初めて知りました。ありがとうございます。
現在の最新(w3921)と利きなしの最後(w3880)で見落とした素抜きの手のPolicyを調べてみました。
どちらもほとんど分かっていないようです。
特に、上の▲44角は簡単な手ですが、古い利きなし(w3880)、の方がなぜか成績がよいです。
原因不明でもう少し調べてみます。

w3921 (利きありの最新)
                             順位 着手確率
上の棋譜 43手目▲44角(77)  21番目 0.000427
下の棋譜 37手目▲86角(77)  35番目 0.000329

w3880 (利きなしの最後)
上の棋譜 43手目▲44角(77)   4番目 0.042042
下の棋譜 37手目▲86角(77)  35番目 0.000488
 

ゼロからの強化学習

 投稿者:山下  投稿日:2022年 3月29日(火)11時54分39秒
  > 現在の条件でまたゼロから強化学習させても

完全にゼロからは魅力的なのですが、現在の100万棋譜/月、ですと
現在の棋力近くになるまで半年から8か月ぐらいかかりそうです。
その間は現在より弱い棋譜しか出来ないのであまり利用価値がありません。
現在、5350万棋譜からの100万棋譜だけでw3911から学習率を0.01と大きくしたのを試しています。
もう少し棋譜数が増えれば重みもゼロで初期化した状態からの
再学習も試してみたいと思います。
 

Re:AobaZeroの素抜きの筋の見落とし

 投稿者:masa  投稿日:2022年 3月17日(木)16時53分17秒
  同じ効果を狙って、virtual Loss(通常1)を2,3,4 と試してみましたが、効果が明確でなく止めました。
(メインの枝に効果的に機能するかと思ったのですが。。)
 

Re:AobaZeroの素抜きの筋の見落とし

 投稿者:masa  投稿日:2022年 3月17日(木)16時14分57秒
編集済
  AobaZero の、temperature の設定はいくつなのだろう?

..3004の42手目の44歩と取り込まれた局面
自分で学習した dlshogi-1080ti の場合

temperature=100だと、その後の75飛を見つけるまでに30sec掛かりますが
temperature=190だと、3秒で見つけています。

手順は、33金寄、43歩成、同金、33角成、同桂、75飛 です。

temperatureを大きくすると 読みの深さは若干犠牲になりますが、探索で読み抜けを防ぐ効果が大きくなると思っています。

temperature は、150~250 位の範囲で試して、現在は、190 を使っています。
(最適値は、ネットワークの構造(policy、valueの精度)にも依存すると思います。
また、使用するハードの計算能力(po数)にも依存すると思います。)

 

AobaZeroの素抜きの筋の見落とし

 投稿者:mak  投稿日:2022年 3月17日(木)05時45分21秒
  既知のことかもしれませんがfloodgateでR3600あるAobaZero_w3900_n_p30kが大駒の素抜きの筋を豪快に見落としてるのを連続で見かけました。
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/03/16/wdoor+floodgate-300-10F+dlshogi_HoneyWaffleBook_v100x8+AobaZero_w3900_n_p30k+20220316043004.csa/42
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/03/16/wdoor+floodgate-300-10F+dlshogi_HoneyWaffleBook_v100x8+AobaZero_w3900_n_p30k+20220316173012.csa/37
 

(無題)

 投稿者:tns  投稿日:2022年 3月16日(水)21時37分21秒
  現在の条件でまたゼロから強化学習させても、ここまでの推移と比較できて面白そうです。
Aoba駒落ちのことを考えると半年程度で結果が見えてくるでしょうか。
 

投了の閾値も下がっています

 投稿者:山下  投稿日:2022年 3月16日(水)14時36分54秒
  どこまで宣言勝ちが減るのかは分かりませんけど。
1億か2億、ということは100万棋譜から200万棋譜でしょうか。
+100ELO以上、上がってくれたらうれしいのですが、利きあり、で作った棋譜でゼロから再学習しないと
あまり上がらない気もしています。

下図は投了の閾値の推移ですが、3手詰あり、から急に下がってきました。
30手までで互角に近くなるようにした影響もあるかもしれません。

ちょっと面白いのは「実際の勝敗と探索勝率の平均を学習」で閾値が上がってることです。
棋力に変化はなかったのですが評価が正確になっていた?
ということなのでしょうか。
ただ、3手詰あり、からは最初(w3881)の重みを「実際の勝敗のみ」
で作ったのもあって「実際の勝敗のみ」で学習に戻しています。

投了の閾値は10%の棋譜で投了しないようにして、投了のミス(投了しなければ勝ってた)が5%以下になるように自動調整しています。
 

(無題)

 投稿者:48  投稿日:2022年 3月16日(水)09時22分13秒
  根絶やし流も終焉でしょうか。
一昨年に二番絞りとしてAobaZero教師データを流用した際ですが
やはり宣言勝ちが多いというか詰ませない傾向にありました。
そこから強化学習を開始して評価精度が上がり劇的に強くなった感じです。
同年の電竜戦モデルで1億2千万局面程度を2回です。
AobaZeroも同様に1,2億局面程度で上がってくると思います。
 

AobaZeroの対Kristallweizenの宣言勝ちが減ってきました

 投稿者:山下  投稿日:2022年 3月14日(月)13時08分31秒
  3手詰あり、利き情報あり、に変更してから大きな棋力の変化はないのですが
対Kristallweizenの宣言勝ちは下図のように半分ぐらいに減ってきました。
以前は勝ちの42%ぐらいが宣言勝ちだったのが今では19%まで下がっています。
これは3手詰を導入したせいもあるのですが、それによってネットワークが
宣言勝ちを選びにくく学習されてきているようです。

△91馬(19)の割合も前回の11%から18%まで上がってます。
 

レンタル掲示板
/318