teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]

【重要】teacup. byGMOのサービス終了について
 <思いやりのあるコミュニティ宣言>
 teacup.掲示板は、皆様の権利を守りながら、思いやり、温かみのあるコミュニティづくりを応援します。
 いつもご協力いただきありがとうございます。

 投稿者
 メール
  題名
  内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
    
 URL
[ ケータイで使う ] [ BBSティッカー ] [ 書込み通知 ]


dlshogiとの固定playoutでの棋力差

 投稿者:山下  投稿日:2022年 6月28日(火)22時12分25秒
編集済
  dlshogiとの1手のplayoutを固定して棋力差を調べてみました。
互角局面集(プロの棋譜から)と、
Aoba駒落ちの平手局面集(ゼロからの強化学習に出てきやすい局面)
の2つで比較しています。

1手1playout(Policyのみ)で -173 ELO負けてます。AobaZeroの1手1playoutは将棋クエストで
6段(2250点, :Fu-riJirouBot)なので7段にはなると思われます。
1手100playoutだと-257と差が広がります。Valueの精度で負けてる感じです。
ただ、Aoba駒落ち局面集を使うとすべて差は縮まります。
1手1000playoutでは -123 ELO(+174差)まで強くなります。

互角局面は穴熊や振飛車などAobaZeroが不得意な局面も多く、Aoba駒落ち局面は
相掛かりや角換わりだらけなので、その影響と思われます。
何を基準に強さを測るかは難しいのですが、個人的には人間の棋譜ベースで
測るのが正しいような気がしてます。

1手のplayoutを固定でdlshogiとのELO差(AobaZeroから見て)

playout数  互角局面集  Aoba駒落ち局面集 (差)
     1       -173        -134          +39
    10       -248        -211          +37
   100       -257        -171          +86
  1000       -297        -123         +174
 10000       -194

*dlshogiは電竜戦2版、model-dr2_exhi、192x15block
*AobaZeroはw4061、                   256x20block
*ミニバッチ1、スレッド1。1手10000plyaoutのみdlshogiはデフォルトのミニバッチ128、AobaZeroはミニバッチ7
*対局数は800局。1000playout、10000playoutは200局。
*局面集からランダムに400棋譜選んで先後入れ替えて800局。

互角局面集(24手まで)
https://yaneuraou.yaneu.com/2016/08/24/
Aoba駒落ちの平手局面集(16手目まで。学習局面で出現回数の多いもの)
https://github.com/yssaya/komaochi/blob/master/opening/20211003_hirate.sfen
 
 

250手以上でのAobaZeroの駒の価値

 投稿者:山下  投稿日:2022年 6月21日(火)23時38分15秒
編集済
  250手以上の手数の局面だけから駒の価値を計算してみました。
盤上の歩の価値が下がりすぎたので、持ち駒の歩を100点としています。

面白いのは盤上の歩、香と桂はマイナスになっています。
おそらくは取られるだけで、存在するだけで損な駒、のようです。
持ち駒は取れらることはない?ので安定してます。

ルールは27点法(先手は28点、後手は27点で宣言勝ち)です。
400手以上などでは持駒の小駒と大駒の差は5倍に近づくと思われます。

これだけ駒の価値が変動すると将棋は手数が伸びると別のゲームですね。
100手以内、200手以内、300手以上、などで評価関数を場合分けする方が理にかなってるかもしれません。

250手以上の局面での駒の価値(持ち駒の歩を100点)
  歩   香   桂  銀  金   角   飛   と 成香 成桂 成銀   馬   龍
 -37 -123  -83 208 267  599  736  245  164  165  281  744  813
  歩   香   桂  銀  金   角   飛 (持駒)
 100  263  187 526 481 1560 1493

全局面での駒の価値(盤上の歩を100点) 比較のため再掲
  歩   香   桂  銀  金   角   飛   と 成香 成桂 成銀   馬   龍
 100  198  367 562 674  775  871  496  364  459  649 1133 1408
  歩   香   桂  銀  金   角   飛 (持駒)
 106  351  403 663 889  924 1257

*AobaZeroの棋譜1100万棋譜から5265万棋譜までの250手以上の159万局面から計算
*(7月2日追記)局面を重複して計算して割合が高かったので再計算しました。
 

棋聖戦第2局の△97銀のPolicy順位

 投稿者:山下  投稿日:2022年 6月21日(火)23時15分49秒
  棋聖戦第2局は終盤に藤井聡太棋聖の鮮やかな逃げ道封鎖の△97銀、という
捨て駒が出ました。
詰将棋ならよくある手筋なのですが実戦で▲同~と取られても詰むわけではないので
棋譜中継で見ていた私にはかなり難解な手に見えました。
プロには△97銀は「普通の手」でその後の△48歩で勝ち、を読んでいたのがすごい、とのことですが。

AobaZeroとdlshogiで、この局面のPolicy(探索なしでの着手候補)を調べてみました。
△97銀は2番目(AobaZero)、3番目(dlshogi)とどちらも上位に来て
それほど難しい手ではないようです。
どちらも最善は△96桂で、こちらも捨て駒の退路封鎖でした。

Policyの順位
     AobaZero(w4055)     dlshogi(電竜戦2版、model-dr2_exhi.zip)
候補順位      着手確率            着手確率
1番目 △96桂    0.33      △96桂    0.29
2番目 △97銀    0.18      △67歩成  0.25
3番目 △67歩成  0.12      △97銀    0.09

藤井聡太棋聖が名手△9七銀の後に回避した「幻の妙手」
https://news.yahoo.co.jp/byline/tooyamayusuke/20220618-00301497
渡辺名人のツイート「△97銀自体はプロ的には普通の手だけど」
https://twitter.com/watanabe_1984/status/1537020808815845376
2022年6月15日、棋聖戦第2局、永瀬-藤井聡太戦
https://shogidb2.com/games/e5c3d5ec0240527a9fc7dbde8bc8a681d88e94b8
 

隠岐の駒の価値

 投稿者:都万  投稿日:2022年 6月21日(火)06時04分58秒
編集済
  ちなみに隠岐の駒の価値は以下のようになってます。

歩 香 桂 銀 金 角 飛 玉 と 成香 成桂 成銀 成金 馬 龍
2   5   5  10  14  18  20  50   5     7     7    10        22  24

点が他のソフトより低いのは、8ビット時代から作っていたので、-128~127を超すことはできないためです。
実際は、歩を取るとこっちは歩が増えて、敵は歩が減るので、その2倍の4点になります。銀と成銀の価値が同じ理由は、成った方がいいか、成らない方がいいか微妙な問題があって、成ったら、行ける場所が1ヵ所増えるのですが、敵玉に横に近づく速度が遅くなるので、結局同じ価値にしてます。
参考までに。
 

AobaZeroの駒の価値

 投稿者:山下  投稿日:2022年 6月19日(日)19時54分25秒
編集済
  AlphaZeroの論文で駒得だけの評価関数を作って駒の価値を計算してたので
AobaZeroでもやってみました。
下はNNの評価関数は一切使わず、評価関数は盤上の駒、持ち駒の枚数の差、と
した時の値です。歩を100点としてます。

比較としてBonanza、YSSも並べてます。
持ち駒はおそらく枚数で価値は変わるとは思いますが、全部同じ価値としてます。

AobaZeroの駒の価値(駒の価値のみで評価関数を作った場合)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 198 367 562 674 775  871  496  364  459  649 1133 1408
  歩  香  桂  銀  金  角   飛 (持駒)
 106 351 403 663 889 924 1257

Bonanza 6.0(プロの棋譜からの機械学習、同時に3駒関係も評価してるので単独の値ではない)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 266 295 424 510 654  737  613  562  586  568  950 1086

YSS(私の感覚で設定)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 430 450 640 690 890 1040  420  630  640  670 1170 1330
  歩  香  桂  銀  金  角   飛 (持駒)
 115 480 510 720 780 1130 1310

*1. AobaZeroの5500万棋譜から5680万棋譜の21万局面を勾配法で計算
*2. (追記)計算量を20倍に増やしたら桂、銀が成ると価値が下がる、は消えました。

Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess
https://arxiv.org/abs/2009.04374

盤上の駒の数の差(自分 - 相手)を d1,d2, ... ,d20 とする。
(歩、香、桂、銀、金、角、飛、と、成香、成桂、成銀、馬、龍、 持駒:歩、香、桂、銀、金、角、飛)
d0 = 1 は固定。w0,w1,w2, ... w20 が求めたい重み。
評価関数は g(s) = tanh(w T d)
対局結果を z (-1,0,+1)  とすると
[z - g(s)]^2
がすべての局面 s に対して最小になるように最適化。
tanh(x) の微分は 4/(e^x+e^-x)^2
x = w T d = w0*d0 + w1*d1 + ... w20*d20 とすると
w0 に対する偏微分は 2(z-tanh(x))*(-1)*d0*( 4/(e^x+e^-x)^2 )
傾きの逆方向に学習率を小さくしつつ更新。符号のみを見てます。
 

韓国でのコンピュータ囲碁大会の予選で上位8チームはすべて中国勢に

 投稿者:山下  投稿日:2022年 6月18日(土)19時15分31秒
編集済
  韓国でのコンピュータ囲碁大会
「Gangwon Province World AI Baduk Championship」の予選が
18日行われ、17チームが参加し、スイス式3回戦の結果、上位8チームが
2日目の決勝トーナメントに進みました。
8チーム全部中国勢でした。さすがに上位8を決めるのに3回戦は少ない感じがします。
決勝戦は20日に3試合で行われる予定です。
私もAyaで参加したのですが、順当に2連敗(1不戦勝)でした。
負けた2局は時間の関係からか、人間による審判判定で負けになってます。

1手20秒。韓国ルール、コミ6.5。

予選順位             勝敗
  1 YILEGO      中国 3-0
  2 ChaoRanGo   中国 3-0
  3 DaPangGo    中国 2-1
  4 Symplect Go 中国 2-1
  5 WUWEIGo     中国 2-1
  6 LegendGo    中国 2-1
  7 FishGo      中国 2-1
  8 TianHuGo    中国 2-1

  9 SmartOro    韓国 2-1
 10 BearGo      中国 1-2
 11 Engawa      日本 1-2
 12 Aya         日本 1-2
 13 Yi Xiaotian 中国 1-2
 14 CyberGo     韓国 1-2
 15 SyaoranGo   中国 1-2
 16 BSK         日本 1-2
 17 不戦敗           0-3
 18 DeepEsper   日本 0-3

Gangwon Province World AI Baduk Championship
http://ai.baduk.or.kr/ENG/app/app.asp
 

矢倉の6手目△74歩をAobaZeroも指すように

 投稿者:山下  投稿日:2022年 5月28日(土)19時03分14秒
編集済
  5月26日の連盟アプリの棋譜中継で下の2局で矢倉の6手目△74歩が出てきました。
▲渡辺正和ー△徳田拳士  (棋聖戦)
▲岡崎 洋ー△斎藤明日斗 (棋聖戦)

6手目△74歩は棋譜コメントによると
2017年の棋王戦第5局▲渡辺明棋王ー△千田翔太6段戦が出発点、
とのことで2020年の秋ごろから急に増えた、とのことです。

AobaZeroのノイズなしの自己対戦(w3970)でもこの手が出てきました。
その後の18手目、△44角まで▲岡崎ー△斎藤明、戦と一致してます。
6手目△74歩にどういう狙いがあるのか個人的にはさっぱり分かりませんが・・・。

最新のw4010では飛車先を交換した後に、後手が原始棒銀を指してます。
この単純な棒銀が出てきたのは初めてな気がします。
もっとも△85銀まで銀を進めて、その後ずっと銀交換をせずに、この△85銀は202手目まで
動かないのですが。

w3970、6手目△74歩が登場。18手目の△44角まで岡崎ー斎藤明戦と同じ。
http://www.yss-aya.com/aobazero/no_noise/sample.html#3970
もう少し調べると2021年9月の▲行方△斎藤明、戦の26手目△86歩まで一致してました。
https://shogidb2.com/games/35b96e046dc8e8aa9d3ecc49e3cde41174934618#l2gk2nl%2F1rs3gs1%2Fp1n1ppb1p%2F2pp5%2F5P3%2F1pP6%2FPPSPP1P1P%2F1BG4R1%2FLN2KGSNL%20b%202P1p%2027
w4010、後手が原始棒銀。銀は△85銀まで進むも交換せず。
http://www.yss-aya.com/aobazero/no_noise/sample.html#4010
 

左右反転して学習させても効果なし

 投稿者:山下  投稿日:2022年 5月28日(土)18時24分42秒
  AobaZeroの棋譜で左右反転させて学習させて強くなるか調べてみました。
約700万局面からランダムに128局面を選びミニバッチを作って学習させているのですが
この時、60手以上の局面なら半分の確率で左右を反転させたものを学習する、という感じです。

すべて反転(0手目以上)、30手目以上、60手、90手、120手、150手、180手、210手、240手、
と試したのですが、反転なしを明確に上回ることはありませんでした。
120手目以上なら反転させた方が強くなるか、と思ったのですが。

囲碁だと8対称にすると学習棋譜数が8分の1になるくらい効果があるのですが。

他には棋譜の結果と探索結果の混合割合を変えて試してみました。
単なる平均の5:5の割合を使うのが一番強いです。
0手目では探索のみ、最終手では棋譜結果のみ、と線形で変化させるのも -77 でいまいちでした。
囲碁でも昔試したのですが、その時も線形は効果なかったです(Policyと一体化でなくValueのみのNNで)。

棋譜結果 : 探索結果  5:5 に対するレート差(ELO)
      10:0         -177
       7:3         -114
       5:5            0  (基準)
       3:7          -55
       0:10         -26
      線形          -77  (0手目で0:10、最終手で10:0)

他に40手までで投了した棋譜の採用確率を25%、0手目から30手目での採用確率を
(3000 - exp((8/30)*(30-手数)))/3000   ... (0手目で0.6%、1手目で24%、10手目で93%)
のように変化させると +81 ELO ほど強くなります。
ただ、この条件で5500万棋譜から1400万局面をw3969で追加学習したのですが強くはなりませんでした。

探索結果との平均も学習初期は効果があるのですが、
最終的には棋譜の結果だけ、とほぼ同じような棋力になるような気もします。


実験はAobaZeroの5500万棋譜から5520万棋譜を1280万局面
(ミニバッチ128で10万step、学習率0.01,、Replaybuffer 10万棋譜)
を学習させたもので比較です。ResNetで 192 x 10 blockです。
weightの初期値や局面選択は乱数なので、同じ条件でも変動します。

Value教師ラベルの配合率検証(Miacisさん)
https://github.com/SakodaShintaro/Miacis/issues/6
dlshogiの学習則
https://tadaoyamaoka.hatenablog.com/entry/2020/05/31/114435

AobaZero同士の自己対戦、1手100playoutを400局、の結果
反転なし、に対する勝率(ELO)
 

韓国の囲碁大会の締め切りは5月15日

 投稿者:山下  投稿日:2022年 5月12日(木)08時33分13秒
  韓国で6月18-20日に開催されるコンピュータ囲碁大会の
申し込み締め切りは5月15日までです。

現時点で14チームの参加申し込みがあります。
http://ai.baduk.or.kr/ENG/team/team_list.asp
UEC杯で優勝したYILEGOの名前もあります。

16位まで50万ウォン(約5万円)の賞金が出ます。
オンラインのみでの大会となっています。
私も参加する予定です。
当初は17-19日でしたが変更になってます。

2022 Gangwon Provincial Governor Cup World AI Baduk Championship
http://ai.baduk.or.kr/ENG/app/app.asp
 

AobaZeroの重複なしの局面の割合と30手目以上の棋譜の割合

 投稿者:山下  投稿日:2022年 5月 9日(月)10時46分50秒
編集済
  下図は30手目での重複なしの局面の割合と30手目以上の棋譜の割合です(100万棋譜ごと)。
5393万棋譜から30手目までの乱数性をAlphaZero方式に戻しましたが、重複なしは96%、と
ほぼすべてばらばらになっています。
RootのPolicy温度を1.0から1.8に上げた影響で
多くの候補手を探索するようになり、それによって序盤の枝分かれも増えたようです。
ただ、30手以上の棋譜は51%で半分近くは30手までの投了で終わってます。
訪問回数で選択する温度は1.0ですが、0.8とかもう少し下げて悪手を指しにくくしても大丈夫かもしれません。

30手以上の棋譜が2000万、2200万付近で下がっているのは10%で投了、投了の閾値の自動調整、をしたためです。

また初手の最善が久しぶりに▲26歩から▲76歩(w3965、5490万棋譜)に変わっています(1手800playoutのノイズなし棋譜)。
最後に▲76歩が最善だったのはw3020(2070万棋譜)なので3400万棋譜ぶりです。

w3965のノイズなしの棋譜。初手▲76歩から相矢倉の脇システムに。
http://www.yss-aya.com/aobazero/no_noise/sample.html#3965
 

レンタル掲示板
/319