@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった
NVIDIA A100にて、TensorCoreにてSparsityをサポートしましたよね。
学習時にPruningしてもGPUではほとんど美味しくないと思っていましたが、A100のTensorCoreのように Sparsityをサポートすれば、計算時間が短縮できますよね。
A100の場合はそれなりの条件があって、1/2 にしかできないですが。。
では、どんな時に、Trainingでも Pruning をすればお得なのでしょうか?
その例がこのビデオの中の最後のセッションでの Graphcore に出てきました。
「Why SPARSE Training」
Graphcore C2 IPUの場合は、各コアが同じ命令を実行するのじゃないので、Pruningして計算する量を減らせば減らすほど処理時間が短くできそうです。学習しながらPruningすればどんどん計算量を減らせます。といってもある程度でPruningは終わるでしょうが。。。
ということで、Graphcore の C2 IPS は、NVIDIAのA100の先を行ってたんですよ。
1年以上前に。。。。
本当かな。。。