teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]

 <思いやりのあるコミュニティ宣言>
 teacup.掲示板は、皆様の権利を守りながら、思いやり、温かみのあるコミュニティづくりを応援します。
 いつもご協力いただきありがとうございます。

 投稿者
 メール
  題名
  内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
    
 URL
[ ケータイで使う ] [ BBSティッカー ] [ 書込み通知 ]


AobaZeroの初期局面での初手のPolicyの変遷。▲76歩は衰退

 投稿者:山下  投稿日:2022年 1月18日(火)17時33分2秒
編集済
  AobaZeroの初手のPolicyの変遷を調べてみました。
初手▲26歩は最初(500万棋譜)から0.66と高いです。ただ徐々に下がっています。
▲76歩は1000万棋譜では0.31と高かったのですが、その後衰退、5000万棋譜では0.007まで下がってます。
徐々に上がってきたのが▲78金。ただこれは10手後くらいには▲26歩と同じ形になるので
(▲26歩△84歩▲25歩△85歩▲78金△32金・・・・)
手順前後程度の意味しかないかもしれません。

▲16歩や▲38銀がじわっと上がってきています。
▲26歩、▲78金がずっと主流なので相掛かりに似た戦型だらけになっています。
個人的には▲76歩から振飛車の変化をもっと選んで欲しいのですが・・・。
特に初手▲78金には後手は振飛車でとがめて欲しいですが振ってきても銀冠に組んで十分、と思っています。
ちなみに安定してほぼ最下位なのは▲86歩(0.0008)です。
 
 

AobaZeroでの振飛車の採用率と勝率

 投稿者:山下  投稿日:2022年 1月13日(木)22時04分38秒
編集済
  学習で出現する振飛車の局面数と勝率を調べてみました。
20手目までで、王が28にいて飛車が58(中飛車の場合)にいる棋譜の数です。
直近の431万棋譜の統計です。

まず出現割合が少ないです。0.26%、370局に1局程度です。
振飛車の採用率は後手の方が多いです。
これは一時期、後手四間飛車が最善だった名残でしょうか?
向かい飛車は先手、後手、ともに少なく、後手は四間飛車が一番多いです。
勝率では先手の中飛車が0.44と一番勝率が高いです。
ただ全体の先手勝率は0.55程度なので、先手、後手ともに振飛車は選択されにくいです。


431万棋譜(4600万棋譜から5031万棋譜)での振飛車の出現数

         勝ち 局数  勝率
先手 向かい飛車  164  406  0.404
先手 三間飛車    553 1299  0.426
先手 四間飛車    439 1136  0.386
先手 中飛車      743 1687  0.440
--------------------------------
先手振飛車合計  1899 4528  0.419

後手 向かい飛車  169  458  0.369
後手 三間飛車    586 1490  0.393
後手 四間飛車   1079 2882  0.374
後手 中飛車      887 2182  0.406
--------------------------------
後手振飛車合計  2721 7012  0.388

================================
振飛車合計     4620 11540  0.400
 

AobaZeroの棋譜生成を800playout固定でなく可変にしました

 投稿者:山下  投稿日:2022年 1月10日(月)13時43分18秒
  AobaZeroの棋譜生成を800playout固定でなく、
最小100、最大3200までの可変にしました。
この変更で生成される棋譜の棋力は+76ELOほど強くなっています(Kristallweizenでの比較)。
Aoba駒落ちでは作られる重みの強さは +26 ELOでした。

kldgain = 0.0000013
で実験では1手平均777playoutで、ほぼ同じ思考時間になります。
Aoba駒落ちでは
kldgain = 0.000002, 最大5000playoutまで、でした。

1手800playoutだとkldgainは効果ありですがLCBはなし
https://524.teacup.com/yss/bbs/3812
 

30手目までの学習局面割合を減らすと、学習初期はやや効果ありですが途中からは微妙

 投稿者:山下  投稿日:2022年 1月 9日(日)19時03分29秒
編集済
  AobaZeroの棋譜で40手以下で投了してる棋譜の採用率は10分の1、さらに30手以下の局面は
0手目は10分の1、30手目では1分の1、になるように学習させる割合を減らして試してみました。

グラフにすると下図の緑のような感じになります。

ほぼ最新の重みで小さい学習率だとやや弱く、最初から学習させると+30 ELO程度強くなるようです。
ただ計測が24手までは互角局面集を使ってるので当然ともいえますが。
学習途中からだと、多少変更しても変化を見るのは難しそうです。


重みw3670に対する勝率。途中(w3670)から学習。1手100playout。

勝  引  負 局数  ELO
174-22-204 400 ( -26) 0手目を10分の1
170-27-203 400 ( -28) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習
163-25-212 400 ( -42) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習  (再試)

重みw3670から4800万棋譜から50万回(ミニバッチ128、6400万局面)学習。学習率 0.000002


「実際の勝敗」のみの「実際の勝敗と探索勝率の平均」への勝率。最初(乱数)から学習

勝   引  負 局数  ELO
249- 39-328 616 ( -44) 1手100playout
373-102-325 800 (  20) 1手  1playout, Policyのみだと若干弱い。valueのみが正確になってる

「30手以下の割合を小さく」の「制約なしで学習」に対する勝率
350- 73-290 713 (  29) 1手100playout   最初から、だと強い。24手目以降の強さなので当然かも
390-123-287 800 (  44) 1手  1playout,

下の4つは192x10bの小さなモデルで乱数で初期化したネットワークで学習。
すべて互角局面集で24手以降からの対戦成績。
 

Re: AobaZeroで学習される局面の手数の割合

 投稿者:zakki  投稿日:2021年12月30日(木)15時42分27秒
  将棋は終盤も詰みあってPNが外すこと結構あるのかと思ってましたがそうでも無さそうですね  

Re: AobaZeroで学習される局面の手数の割合

 投稿者:山下  投稿日:2021年12月30日(木)12時30分5秒
  自己対戦の途中で、教師局面にするか、の判定にも使っているのですか。複雑ですね・・・。
KataGoの棋譜コメントの「weight」はこれの意味だったのですか。少し謎が解けました。
下にあるように見えますね。左右に揺れるのでなく、強くなると
下に下がっていく感じなのかも。

AobaZeroでも調べてみました。32万局面ぐらいの集計です。
200手以上の長手数ではほぼ0で、難しいのは56手目前後、のようです。
31手目付近でグラフが変なのは30手目まで投了禁止、のせいだと思います。
 

Re: AobaZeroで学習される局面の手数の割合

 投稿者:zakki  投稿日:2021年12月27日(月)22時02分19秒
  75%の確率で少ないプレイアウト数で探索するので教師局面に使わない
25%の確率でフルの探索をして教師局面として使う
その25%の手うち、このウェイトが200だと2局面として使う、50だと50%の確率で教師局面として使う感じだったと思います。

KataGoの最新のネットワークの自己対局棋譜を100くらい持ってきてプロットすると似たような傾向のようです。
何となく下にあるように見えるのはネットワークが大きく賢くなってて探索せずに分かるようになってきてるんでしょうか。
 

Re: AobaZeroで学習される局面の手数の割合

 投稿者:山下  投稿日:2021年12月27日(月)20時34分17秒
  これ面白いですね!
eg的には一番難しいのは130手前後、ということですか。
逆に序盤は200手ぐらいの大ヨセ?ぐらいの難しさ、ですか。

なんとなく囲碁だと序盤が一番難しい気もするのですが。
もっと強くなるとピークがだんだん短手数になるのかも。

AobaZeroだと1局面を1回学習する割合(平均手数128の場合、今は80ぐらいなので1.5回ぐらい)なのですが
egだと400手の局面は少なくとも1回は学習する、130手では3回、みたいな感じなのでしょうか?

いまいちPolicy Surprise Weightingの計算式が分かっていませんが
AobaZeroでもKL情報量で同じようなグラフを作ってみます。

そういえば、1年前のzakkiさんのツイートで既に指摘されてましたね。
https://twitter.com/k_matsuzaki/status/1327926016279523330
> katago方式で棋譜生成する時にランダムな局面じゃなくて最小限探索したあとに
> PNやVNと探索結果の相互情報量の大きい局面でフルの探索数まで進めて教師データに
> するみたいなので効率上がんないかな?

KataGoがやってないことを探すのが難しい・・・。
 

Re: AobaZeroで学習される局面の手数の割合

 投稿者:zakki  投稿日:2021年12月27日(月)15時04分28秒
  egの自己対局(この部分に関してはKataGoと同一)での手数とPolicy Surprise Weightingの平均値のグラフです。
19路の囲碁だと50~150手目ぐらいがネットワークの生出力値と探索結果の差が大きくてそれ以降はどんどんPNやVNとの差が減っていて、囲碁の難しさは中盤>序盤>終盤のようです。
400手目以降はサンプル数10とかでぶれてます。

将棋と囲碁でゲーム性は違いますが似たような統計値使って調整できるんじゃないかと思います。

https://github.com/lightvector/KataGo/blob/master/docs/KataGoMethods.md#policy-surprise-weighting

 

AobaZeroで学習される局面の手数の割合

 投稿者:山下  投稿日:2021年12月26日(日)19時28分59秒
  学習される局面の手数の割合を温度1.0と温度1.3で調べてみました。
どちらも序盤、50手目ぐらいまでを学習してる割合が高く
中盤以上の手数が長い局面は少ないです。

序盤の手数が短いところは10分の1くらいに減らした方がいい気がします。
なんとなく80手ぐらいを中心とした正規分布みたいな形の方が強くなりそうな気がします。
初期局面が一番多いですが、これは単に統計を取っても(着手の回数と勝率)だいたい同じでしょうし、
0手目でなく、10手目ぐらいまでは学習させなくても統計取るだけで十分な気がしてきました。

温度1.3は30手前投了しない、という制約でガクンと下がっています。
200手以上、は200手に含めています。
 

レンタル掲示板
/312