teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]


新着順:25/3080 記事一覧表示 | 《前のページ | 次のページ》

AobaZeroで温度を変えた時のPolicyの平均と重複なしの局面割合(予想)

 投稿者:山下  投稿日:2021年 9月26日(日)14時11分8秒
  通報 編集済
  AobaZeroのw3455(20block)で温度を変えて、30手まで学習棋譜を100棋譜作ったときの
選択された手の平均Policyの確率を調べてみました。

平均確率と重複の割合が同じ、とすると
温度 1.2 ぐらいで重複なしの割合が、34%から80%ぐらいに上昇する?かもしれません。

温度   Policyの平均確率
1.0    0.357
1.1    0.291
1.2    0.253
1.25   0.211
1.3    0.179
1.5    0.148
2.0    0.080

AobaZeroの各重みによるPolicyの平均確率(30手まで)と重複なしの割合(100万棋譜)、温度1、(再掲)
  学習棋譜数  weight  Policyの平均確率  重複なしの割合(%)
  4000万棋譜   w3455  0.35709           34.6%
  2000万棋譜   w2350  0.36059           47.9%
  1500万棋譜   w1850  0.31504           66.2%
  1000万棋譜   w1350  0.25701           79.2%
   400万棋譜   w0750  0.23470           90.1%
 
 
》記事一覧表示

新着順:25/3080 《前のページ | 次のページ》
/3080