はじめに

先週、AWS Trainiumの実物、ということでブログを書きましたが、推論チップの Inferentia2 が Trainium とほぼ同じような構成でした。

上記のサイトからそれぞれの絵を説明のために引用します。違いは、NeuronLink-v2の本数だけっぽいです。

Inference2

を読んでみたら、推論でもマルチチップ構成になるLLM対応のためっぽいですね。

Inferentia2 x 6、x12構成がとれて、NeronLink-v2 で接続されています。

AWSのInference2って、Trainium をそのままつかっているのではないでしょうか？

と、思っています。