その39頁に、次のようにあります。
引用します。 ハードウェアアクセラレータとの親和性 ・Convolution - 4重ループで、外側2重は並列実行、内側2重は積和演算でリダクション実行可能 ・ReLu - 並列実行可能な2重ループで、max()を実行 ・MaxPooling - 4重るぷで、外側2重は並列実行、内側2重は最大値を求めるリダクション実行可能 ・Full connection - 2重ループで、外側は並列実行、内側は積和演算でリダクション実行可能 比較的決まった処理で、並列処理が追いので、 ハードウェアアクセラレータ向き 特に、計算量の多いConvolutionを高速化したい
これらをハードウェアにして、CPUが実行しているノード部分とのデータの移動をどうするかが問題なんだよね。
GPGPUに勝つには、そこができるかどうかなんだろうね。。