Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

AWSのGraviton3とTrainium

はじめに

AWS re:Invent にて、Arm系CPUの Graviton3 と学習用チップ Trainiumがアナウンスされました。

Graviton3

下記の記事によると、

  • 最大25%のコンピューティングパフォーマンス
  • 最大2倍の浮動小数点パフォーマンス
  • 最大2倍速い暗号化ワークロードパフォーマンス
  • CPUベースの機械学習ワークロードで最大3倍優れたパフォーマンス
  • bfloat16およびfp16命令のサポート
  • 常時オンの256ビットメモリ暗号化に加えセキュリティを強化するためのポインタ認証のサポート

そして、DDR5をサポート。

dev.classmethod.jp

Amazon公式のYoutube : EC2 G7g

Introducing AWS Graviton3 Processors and Amazon EC2 C7g Instances | Amazon Web Services www.youtube.com

いろいろ出てきたので追記、2021.12.02

  • 7 die
  • どうやら、パッケージは、Intel。となると、die 間は、EMIB ?
  • Arm Neoverse V1 x 64コア (Graviton2 は、Neoverse N1 x 64コア)、TSMCの7nm/5nmで製造可能な設計、メモリはDDR5ないしはHBMに対応し、I/O周りもPCI Express Gen 5とCICX 1.1に対応している。
  • DDR5 x 8枚、4 die
  • PCIe Gen5、2 die (こちら、Intel FPGAのAgilexのR-Tile(PCIe) は、Gen5 x 15 EP/RPなので、これを使っているとか?ないだろうか)

追記、2021.12.03

Youtube Video : Graviton3 のところ

Trainium

推論チップ Inferentia に続き、学習用チップ Trainium を発表

AWS Trainium : EC2 trn1 は、16基搭載可能。各 Trainium は、3GHz、32GBのHBM2Eを搭載。チップ間インターフェースは、800 Gbps

https://aws.amazon.com/jp/about-aws/whats-new/2021/11/amazon-ec2-trn1-instances/

Trainium で学習し、Inferentia で推論って感じですかね。

www.youtube.com

追記、2021.12.05

GPT-3の学習を2週間で終わらせるには、

  • 600 INSTANCES : P3dn : 8x NVIDIA V100 (32GB), 100Gbps networking
  • 128 INSTANCES : P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
  • 96 INSTANCE : TRN1n : 16x AWS Trainium, 1.6 Tbps networking w/ EFA

1ノードに、16個のTrainium 。8個のOAMなので、OAMには、2個の Trainium が載っている?それとも、2ノードが1つの Trn1 なの?

おわりに

そして、AWSも - Gravition3 + Trainium

NVIDIAは、2023年にGRACE + Ampere Nextのシステムを出してきますが、AWSは2年先だって、ARM系CPU + 学習用チップを出してきたわけです。 NVIDIAは基本的にはシステムを売らないといけませんが、AWSは自社用に開発しているので早く動けているんでしょうね。。。 性能的にはNVIDIAのシステムにはまだ追いついてはいないと思いますが、自社内のシステムであれば、コスパがすべてだと思うので、そのために、自社で作ったんでしょうから?

NVIDIAIntelAMDとは違う立ち位置のAWSは、ある意味、中国のBaiduやAlibabaみたいな感じなんでしょうね。