teacup. [ 掲示板 ] [ 掲示板作成 ] [ 有料掲示板 ] [ ブログ ]

 投稿者
 メール
  題名
  内容 入力補助画像・ファイル<IMG>タグが利用可能です。(詳細)
    
 URL
[ ケータイで使う ] [ BBSティッカー ] [ 書込み通知 ]


続・Aobaくんレポート

 投稿者:tss  投稿日:2019年 5月24日(金)20時27分4秒
  やはり、私の予想どおり、w524.txtにてAobaくんの▲7八金を確認しました。
まだ、レート3000の対局者には勝てませんが、手数が延びて粘り気が出てきたように思えます。
ようやくお兄ちゃんのBonanza6.0(レート2800)の背中が見えてきたところでしょうか。
w624.txtくらいで、Aobaくんから、Aoba先生と呼ばなければいけないのかもしれませんね。(見たんかいなぁー)(^^;
 
 

CLBlast のベンチマーク

 投稿者:HiraBot  投稿日:2019年 5月23日(木)00時23分21秒
編集済
  OpenCL で動く出来合いの blas ライブラリを探したところ CLBlast を見つけました
cublas, CLBlast 及び自作プログラムの3種類について行列積のスピードを測定した
(CLBlast はコンパイル済みのバイナリとヘッダファイルを使用した)

           (133, 9*133) x (9*133, 19*19)       (1024, 1024) x (1024, 1024)
cublas  cublasSgemm()      0.21ms                                1.1ms
CLBlast CLBlastSgemm()     0.27ms                                2.0ms
自作プログラム OpenCL      0.53ms                                6.4ms

cublas が1番早かった、CLBlast は小さい行列では cublas の3割程度遅いが
HiraBot で十分使用できると思います、大きな行列では2倍くらい遅くなっています
自作プログラムは一番遅いですね。
GTX960 にて測定しました

 

LeelaZeroのネットワークサイズ変更のタイミング

 投稿者:山下  投稿日:2019年 5月22日(水)11時18分8秒
  LeelaZeroのELOのグラフにネットワークのサイズを変更したタイミングを書いてみました。
15x192まではサイズを大きくすることで大きな上昇がみられますが
20x256、40x256ではそれほどでもない感じです。
40x256、はResnetが40block(80 Layers)、3x3のFilterが256個、という意味です。
 

CUDAと多スレッド

 投稿者:山下  投稿日:2019年 5月21日(火)11時06分50秒
編集済
  応援、ありがとうございます!

ご指摘の通りでNVIDIAのGPUだとcuDNNを使った方が速いので対応する予定です。
今はminibatch=1でしか渡していないのでスレッド化やマルチプロセスによる
バッチを組むのも予定しています。

現在でも2080Tiだとautousi.cfgで
Device -1 -1
と2つaobazを起動してGPU1枚を使うと1.4倍程高速に作れます。
ただ、1080Tiや1050Tiだと1.1倍程度にまで落ちて恩恵が少ないです。

Chess Engine Performance With OpenCL vs. CUDA + cuDNN vs. FP16 With Tensor Cores
https://www.phoronix.com/scan.php?page=news_item&px=LCZero-NVIDIA-Benchmarks
 

(無題)

 投稿者:48  投稿日:2019年 5月20日(月)13時24分14秒
  引用ありがとうございます。
元々同様のプロジェクトを考えていたので絶賛応援しております。(お仲間に入れて頂きたいレベルで)

次はCUDA化と多スレッド化が課題と思います。
前者はリソース有効利用の観点から必須,後者はDL勢上位陣の争点のひとつとなっているようです。
Quadra P6000でも試しましたが一手3秒近く,全く有効利用されていない感じでした。
 

AobaZeroのOpenCLでの速度

 投稿者:山下  投稿日:2019年 5月20日(月)11時16分22秒
  OpenCLのベンチマークデータ、ありがとうございます。
AobaZeroのOpenCLだとIntel内臓GPUも最近のもの(第7世代?)だとCPU版より高速で動きます。
Windows 8.1          Thinkpad X1 Carbon  + Intel HD Graphics 4000
だとそれほど速くない+動かすと計算誤差が大きくてLeelaZero内部のSelfCheckでエラーで止まってしまいます。


                    1秒で読める速度
GPU
1050Ti               155/s                        (Win64版)
1080                 265/s
2080Ti               558/s
Intel Graphics 620    27/s    ThinkPad X1 Carbon  (Win64版)

CPU
i7-8700(3.2GHz)       10/s                       (Win64版)
i7-8550(1.8GHz)        7/s    ThinkPad X1 Carbon (Win64版)
i7-8550(1.8GHz)        7/s    ThinkPad X1 Carbon  VMWare
i7-980X(3.3GHz)        5/s    2010年
i7-8700(3.2GHz)        9/s


今年のコンピュータ将棋選手権で準優勝の48さんのによると下の結果とのことです。

AobaZeroベンチ
一手2秒クラス:GTX1080Ti  Titan X
一手5秒クラス:GTX1060
一手30秒クラス:インテル内臓GPU(第7世代以降)
一手100秒超クラス:CPUのみ
https://twitter.com/bleu48/status/1126500809531723778
 

Intel iGPU の OpenCL 速度(再測定)

 投稿者:HiraBot  投稿日:2019年 5月19日(日)22時42分41秒
編集済
  昨日掲載したデータは測定ミスが有ったため再測定しました

Intel 内蔵 GPU にて OpenCL が使えることを知り、速度測定しました
DCNN 計算の中心は行列積です
(133,9*133) と (9*133,361) 行列の積を使用しました
そこで各種デバイスでこの行列積計算時間を測定しました

1.eigen i7-3770k にて測定, CPU での計算 (AVX 命令)
    3,5ms

2.cublas GTX960 cublasSgemm()
    0.21ms (データ転送時間は含まない)

3.cuda GTX960 自作プログラム
    0.40ms (データ転送時間は含まない)

4.OpenCL GeForce GTX 960 自作プログラム
    0.53ms (データ転送時間は含まない)

5.OpenCL Intel(R) HD Graphics 4000 自作プログラム
    6.8ms (データ転送時間は含まない)

6.OpenCL Intel(R) Core(TM) i7-3770K CPU @ 3.50GHz 自作プログラム
    8.7ms (データ転送時間は含まない)

インテルの内蔵 GPU に期待したのですが GTX960 の 1/13
の速度になり残念ながら実用にはならないようです。

cublas に対して自作 cuda プログラムではスピードが半分になっています
やはり cublas は性能が良いようです
GTX960 で cuda に対して OpenCL では 3割ほど遅くなっています
両者はほぼ同じプログラムです、OpenCL より cuda の方が性能が良いようです
OpenCL プログラムを CPU で動かすと eigen に対して速度が 1/2.5
になりました OpenCL では AVX 命令を使用していないためだと思われます。
 

Re: 豊島名人誕生!

 投稿者:山下  投稿日:2019年 5月18日(土)21時38分59秒
  豊島さんが名人位を取られたのはしみじみうれしいです。  

豊島名人誕生!

 投稿者:tss  投稿日:2019年 5月18日(土)09時51分19秒
  私の予想どおり、豊島棋士が名人を4-0のストレートで奪取しました。
おめでとうございます。
豊島棋士はAIを研究に使用していると公言している棋士。
かたや無冠の羽生棋士はAIを研究に使用することを疑問視する棋士。
今後、AIを研究に使用する棋士としない棋士では、
明暗が別れるかもしれませんね。(ほんまかいなぁー)(^^;
 

Aobaくんレポート

 投稿者:tss  投稿日:2019年 5月15日(水)00時07分51秒
  w501.txtで、Aobaくんとの棒銀対局での△1四歩を確認しました。銀、角交換は損と学習したようです。
ちょっと感動しました。
相がかりはまだ▲2四歩を指します。
△5七角成の局面を損と学習するまで時間がかかるように思えます。
w520.txtくらいまでいかないと、▲7八金は学習できないかもしれませんね。(見たんかいなぁー)(^^;
▲7八金を指すようになると、序盤の穴が埋まり、簡単には崩れない序盤を指すようになり、
レートがドーンと上るかもしれません。(ほんまかいなぁー)(^^;
 

レンタル掲示板
/271