teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]

 <思いやりのあるコミュニティ宣言>
 teacup.掲示板は、皆様の権利を守りながら、思いやり、温かみのあるコミュニティづくりを応援します。
 いつもご協力いただきありがとうございます。

 投稿者
 メール
  題名
  内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
    
 URL
[ ケータイで使う ] [ BBSティッカー ] [ 書込み通知 ]


CGFオープンの結果

 投稿者:山下  投稿日:2021年10月16日(土)15時03分9秒
  9路は13勝1敗でRayが優勝、19路は7戦全勝でKohadaが優勝でした。
棋譜や詳細は下記をご覧ください。
http://hp.vector.co.jp/authors/VA012620/cgf2021/result2021.html
 
 

CGFオープン、10月9日、10日開催の締め切りは10月4日(月)です

 投稿者:山下  投稿日:2021年10月 2日(土)10時29分29秒
  10月9,10日のCGFオープン(コンピュータ囲碁大会)の参加申し込み締め切りは10月4日(月)までです。
現在の参加予定者はゲストを含めて9,19路とも7チームです。
http://hp.vector.co.jp/authors/VA012620/cgf2021/list2021.html

今年もオンラインでの開催となります。
LeelaZeroやKataGoなどのオープンソースに独自の改良を加えたソフトでの参加も可能です。
CGFの会員でなくても、どなたでも参加可能です。
参加費は無料ですが賞品はでます。
皆様のご参加をお待ちしております。

CGFオープン
http://hp.vector.co.jp/authors/VA012620/
 

AobaZeroの40 blockの学習を終了し20 blockでの温度を上げた実験を始めました

 投稿者:山下  投稿日:2021年10月 2日(土)10時17分53秒
編集済
  AobaZeroの40 blockの実験を終了しました。
協力していただいた皆様、ありがとうございました。
725万棋譜を作成し、結果は+40 Elo程度の向上と、やや残念な結果ではありました。

引き続き、20 blcokで温度を1.0から1.3に上げた実験を行っています。
100万棋譜で30手目時点での重複なしの棋譜が30%程度だったのが90%以上になると思われます。
つまり似たような棋譜が多いのを減らし、なるべく違った局面を学習させよう、という試みです。

この変更で強くなるかは微妙です。30手目までの悪手を多く生成するので
弱くなる可能性もあります。
40blockで作った棋譜は使わず、現在のw3703はw3459(最後の20block)と同一のものです。
サーバも変更し、以前のv1.9はでは動作しませんので更新をお願いします。
開発側で棋譜生成に使っていたマシン群を縮小しました。
ペースは遅くなりますが気長に楽しんでいただければ、と思います。

http://www.yss-aya.com/aobazero/
 

Computer Olympiad 2021の結果

 投稿者:山下  投稿日:2021年 9月28日(火)12時54分19秒
編集済
  8月23日から30日にかけてComputer Olympiadが開かれていたそうです。

14競技が参加者が2チームだけでした。
参加者が多かったのは下です。

Chinese Dark Chess  6チーム
Outer Open Gomoku   5チーム
Connect6            4チーム
麻雀                4チーム
Go 9x9              3チーム

麻雀が開催されてたのが意外でした。
Outer Open Gomoku は15路盤を使った5目並べで
黒は最初の1手を1線か2線に打つ、以外は普通の5目並べのようです。
黒の33禁止の制限とかもない?みたいです。

結果
https://drive.google.com/file/d/1_1lQ8uE6VtbBvtB3JRh_qc51EB6w8a1N/view
Computer Olympiad 2021
https://www.tcga.tw/icga-computer-olympiad-2021/en/
ICGA
http://icga.org/
 

kldgain適用後のハンデELOの推移

 投稿者:山下  投稿日:2021年 9月28日(火)11時47分1秒
編集済
  下はkldgain適用前後(794万棋譜)のハンデELOの推移です。
ほとんど変化がないですが、6枚落ちだけはわずかに上がっています(788 -> 803)。
逆に角落ちは下がってます(393 -> 385)。

棋力(平手)は+40ぐらい上がっているようにも見えますが変動が大きくてまだ何とも言えません。
http://www.yss-aya.com/komaochi/index.html

しかし、香落ちと角落ちのハンデの差が300点ぐらいあって大きいです。
この中間の手合い割(香車2枚落とし?)があってもいいのかもしれません。
 

AobaZeroで温度を変えた時のPolicyの平均と重複なしの局面割合(予想)

 投稿者:山下  投稿日:2021年 9月26日(日)14時11分8秒
編集済
  AobaZeroのw3455(20block)で温度を変えて、30手まで学習棋譜を100棋譜作ったときの
選択された手の平均Policyの確率を調べてみました。

平均確率と重複の割合が同じ、とすると
温度 1.2 ぐらいで重複なしの割合が、34%から80%ぐらいに上昇する?かもしれません。

温度   Policyの平均確率
1.0    0.357
1.1    0.291
1.2    0.253
1.25   0.211
1.3    0.179
1.5    0.148
2.0    0.080

AobaZeroの各重みによるPolicyの平均確率(30手まで)と重複なしの割合(100万棋譜)、温度1、(再掲)
  学習棋譜数  weight  Policyの平均確率  重複なしの割合(%)
  4000万棋譜   w3455  0.35709           34.6%
  2000万棋譜   w2350  0.36059           47.9%
  1500万棋譜   w1850  0.31504           66.2%
  1000万棋譜   w1350  0.25701           79.2%
   400万棋譜   w0750  0.23470           90.1%
 

Re: 重複なしの局面の割合、と選択されたPolicyの確率の関係

 投稿者:山下  投稿日:2021年 9月25日(土)11時28分55秒
編集済
  AobaZeroでも調べてみました。
Policyの平均確率で比較してます。
同じ曲線上に載るか、と思ったのですがAobaZeroとAoba駒落ちでは傾向が違うようです。
重複が多いほど平均確率は高い、は一緒ですが。
(AobaZeroは100万棋譜での重複、Aoba駒落ちは50万棋譜での重複です)

Policyの平均確率  重複なしの割合(%) 学習棋譜数  weight
0.35709           34.6%             4000万棋譜   w3455
0.36059           47.9%             2000万棋譜   w2350
0.31504           66.2%             1500万棋譜   w1850
0.25701           79.2%             1000万棋譜   w1350
0.23470           90.1%              400万棋譜   w0750
 

第35回身体知研究会で渡辺名人の対談

 投稿者:山下  投稿日:2021年 9月24日(金)11時57分6秒
編集済
  2021年10月23日(土)に下記の対談が行われるとのことです。
Zoomで行われ、聴講は無料で下のページから申し込み可能です。

【特別対談2】
「将棋と身体知」
招待話者:渡辺 明(わたなべ あきら)

渡辺名人は、押しも押されもせぬ当代トッププロ棋士です。高度な思考を要求される
将棋というゲームをどのように思考し、この地位を維持していらっしゃるのか、思考
法、学習法を伺うとともに、身体と思考の関係についてお話を伺っていきたいと考え
ています。特に近年現れた将棋AIと人間の思考との関係、それをどのように使える知
識に変えて対戦に活かしていくのかについても掘り下げてみたいと思います。カーリ
ングもお好きとのことなので、カーリングの戦略的思考と将棋との類似点などについ
ても、可能であれば小笠原さんも交えてお話を伺えればと考えています。
(聞き手:伊藤 毅志(いとう たけし)ゲームを題材とした認知科学研究者。)

第35回身体知研究会
http://www.sigskl.org/activity/pg143.html
 

重複なしの局面の割合、と選択されたPolicyの確率の関係

 投稿者:山下  投稿日:2021年 9月23日(木)21時23分6秒
  下は学習用の自己対戦で、最初の30手で選択された手のPolicyの値を
30回掛けた値(100棋譜の平均)と、重複なしの局面の割合です。
ぼんやりと関係性があるように見えます。

例えば、飛車落ちだと重複なしの割合は72.33%、
この時、実際に選択された手のPolicyの確率の平均は
-45.59 / 30 = -1.368,  e^(-1.368) = 0.218

つまりAlphaZero方式で温度1で30手まで訪問数の分布で手を選んだ場合(Rootノイズあり)
1手の平均確率が0.218だとほぼ30手後は72.33%でばらばらになる、という感じです。
Policyの値はノイズを足す前です。

2枚落ちは0.129と確率が低く、各局面で盤上この1手、といった手が少なく
どれを選んでも1局、という感じなのかもしれません。

Aoba駒落ちの50万棋譜における重複なしの割合から(700万棋譜時点)
Policyの計算にはw754を使用。

    logの平均  Policyの平均確率  重複なしの割合(%)
平手     -37.89       0.282         59.35
香落ち   -38.04       0.281         66.39
角落ち   -51.74       0.178         93.81
飛落ち   -45.59       0.218         72.33
2枚落ち  -61.36       0.129         99.8
4枚落ち  -48.05       0.201         86.33
6枚落ち  -56.59       0.151         93.41
 

Re: 重複なしの(ユニークな)局面が50%を割ると棋力は上がらない?

 投稿者:山下  投稿日:2021年 9月22日(水)19時19分39秒
  うろ覚えでしたので論文読み直してみました。
仮に100playoutして、Polciyが0.30(ノイズで大きな値に)という手の場合、

nForced(c) = sqrt( k*P(c)*Sum(All visits) )   , k=2

nForced(c) = sqrt( 2*0.30*100 ) = 7.7

なので8回は必ず探索する、という感じでしょうか。800playoutなら22回。
最後に、最大回数で選ばれなかったら、PUCT(best) の値を超えないようにノイズで探索したplayout数を引く。
1playout、の手は削除。

30手目以降もこの手法なら枝分かれがしやすい感じはします。

AlphaZeroの30手に相当する部分は下のようになってるようです。

19路だと 0.04 * 19^2 = 14手まではPolicyの分布で打つ(これはノイズを足した後の分布?)。
9路だと  0.04 *  9^2 =  3手まで。
19路だと15手目以降は温度が0.8から0.2まで下がる(19路なら平均手数220手の半分の110手ぐらいまで?)

他にも
・ 5%の棋譜で9手後付近で3手から10手のランダム候補の中から最善を1手打って開始。
・ 2.5%の局面で70%で温度1、25%で温度2、5%で温度無限大で選ぶ。

色々やってますね・・・。

今考えてるのは激指の確率探索のように、Policyの確率が高い手を選んだ場合は温度が上がりやすい、
つまり、実現確率が高い局面ほど、温度が高い、
みたいな感じで30手目まで分布させてはどうか、と思ってます。
 

レンタル掲示板
/307