|
これ面白いですね!
eg的には一番難しいのは130手前後、ということですか。
逆に序盤は200手ぐらいの大ヨセ?ぐらいの難しさ、ですか。
なんとなく囲碁だと序盤が一番難しい気もするのですが。
もっと強くなるとピークがだんだん短手数になるのかも。
AobaZeroだと1局面を1回学習する割合(平均手数128の場合、今は80ぐらいなので1.5回ぐらい)なのですが
egだと400手の局面は少なくとも1回は学習する、130手では3回、みたいな感じなのでしょうか?
いまいちPolicy Surprise Weightingの計算式が分かっていませんが
AobaZeroでもKL情報量で同じようなグラフを作ってみます。
そういえば、1年前のzakkiさんのツイートで既に指摘されてましたね。
https://twitter.com/k_matsuzaki/status/1327926016279523330
> katago方式で棋譜生成する時にランダムな局面じゃなくて最小限探索したあとに
> PNやVNと探索結果の相互情報量の大きい局面でフルの探索数まで進めて教師データに
> するみたいなので効率上がんないかな?
KataGoがやってないことを探すのが難しい・・・。
|
|