|
現在のAobaZeroは初手▲76歩の棋譜をほとんど生成しなくなったので、
その局面でのPolicyの値と、実際に1手指した後の(瞬間的な)Valueの値を比較してみました。
初期局面で▲26歩のPolicyは35.22%で、Value(勝率)は55.9%、
▲76歩はPolicyは0.64%で、Value(勝率)は54.5%
1%程度しか勝率に差がないのにPolicyの確率はかなり小さくなっています。
先手が初手▲26歩と指した場合の△34歩もPolicyが0.64%、Valueが42.5%、とこちらも
△84歩に対して2%勝率が落ちますが、かなりPolicyの値が小さいです。
わずかの勝率の差でPolicyは極端な値が付くことが多い感じです。
強化学習でランダムに局面を生成する場合はPolicyの値ではなく、1手指した後のValueを
使った方が偏りすぎない棋譜を作れる気がします。
1手指してValueを調べるので時間がかかるのが難点ですが・・・。
AobaZero、w3855での結果(Valueは手番から見た勝率です)
平手初期局面 ▲26歩 ▲76歩△34歩▲22角成
Value,Policy V(%) P(%) V(%) P(%)
26歩:55.9,35.22 84歩:44.4,47.19 22銀:51.3,98.45
78金:55.1,31.04 32金:44.2,36.16 22飛:35.6, 0.44
16歩:54.9,12.60 72銀:43.0, 6.44 33桂: 0.1, 0.05
38銀:53.1, 8.87 94歩:41.8, 2.81 32銀: 0.4, 0.05
96歩:53.4, 5.99 14歩:42.2, 2.36 14歩: 0.2, 0.05
76歩:54.5, 0.64 34歩:42.5, 0.64 35歩: 0.1, 0.05
48銀:52.6, 0.60 62銀:41.2, 0.57 94歩: 0.2, 0.04
68王:52.8, 0.57 52金:40.1, 0.37 42金: 0.2, 0.04
66歩:51.7, 0.47 42王:37.1, 0.25 42銀: 0.3, 0.04
58金:52.2, 0.45 62金:36.5, 0.24 72飛: 0.1, 0.04
36歩:48.9, 0.26 42銀:37.5, 0.23 92飛: 0.1, 0.04
58王:47.1, 0.24 52王:34.4, 0.21 62金: 0.1, 0.04
68銀:48.3, 0.24 74歩:34.7, 0.21 12香: 0.3, 0.04
48金:47.5, 0.24 72金:33.9, 0.19 32金: 0.2, 0.03
78銀:47.8, 0.23 64歩:33.4, 0.18 24歩: 0.2, 0.03
56歩:46.9, 0.22 62王:32.0, 0.17 52金: 0.1, 0.03
68金:47.2, 0.21 42金:33.5, 0.17 74歩: 0.2, 0.03
48王:45.9, 0.21 32銀:32.6, 0.16 72金: 0.0, 0.03
46歩:47.9, 0.20 54歩:30.8, 0.15 84歩: 0.2, 0.03
38金:45.3, 0.20 44歩:30.2, 0.15 54歩: 0.1, 0.02
78飛:39.9, 0.14 72飛:28.4, 0.13 92香: 0.0, 0.02
58飛:39.6, 0.14 52飛:25.6, 0.12 72銀: 0.1, 0.02
38飛:39.3, 0.14 92香:22.9, 0.11 42飛: 0.1, 0.02
68飛:41.2, 0.13 42飛:24.8, 0.11 44歩: 0.1, 0.02
98香:37.3, 0.13 92飛:24.7, 0.11 64歩: 0.1, 0.02
48飛:35.8, 0.11 62飛:23.7, 0.11 62王: 0.1, 0.02
58金:38.7, 0.10 12香:22.7, 0.10 52王: 0.2, 0.02
18飛:36.6, 0.10 52金:20.0, 0.09 62銀: 0.1, 0.02
18香:36.1, 0.09 32飛:10.4, 0.06 62飛: 0.1, 0.02
86歩:31.1, 0.07 24歩: 4.9, 0.05 42王: 0.2, 0.02
52飛: 0.1, 0.02
52金: 0.1, 0.02
32飛: 0.2, 0.02
|
|