Chainerが分散処理に対応 - Vengineerの妄想

引用
　32ノード/128GPUの環境で分散バージョンのChainerを使って画像認識を学習したところ、
　1ノード/1GPUの環境で20日以上かかっていた学習が、4.4時間で完了したという。

スケールしていますね。

MPIとInfinibandを上手く使っていると、HPCの基本ですね。

NVIDIAは商売として、GPUやそのシステムを売っていますよね。
Google、Amazon、Microsoft、Baidoは、自分のシステムように開発したものを一般ユーザーにも
サービス(有料)で提供していますよね。

で、PFNのChainerはオープンソースで開発していますが、どうやって儲けていくでしょうかね。