OpenMPのコードをOpenCLのコードに変えていき、速くするというもの。
OpenCLにすると、GPUでの実行時間よりUpload+Downloadの時間の方が50倍ぐらい長いので、そのままだと高速化できない結果に。
そこで、4つの処理を全てOpenCLに置き換えることで全体を高速化しています。
OpenCLにすると、GPUでの実行時間よりUpload+Downloadの時間の方が50倍ぐらい長いので、そのままだと高速化できない結果に。
そこで、4つの処理を全てOpenCLに置き換えることで全体を高速化しています。
GPUでの高速化のポイントは、データの移動をどうするか!
そうそう、HSA Platform System Architecture Specification Version 1.0 Provisionalは、SlideShareにアップされています。