はじめに

AWS re:Invent にて、Arm系CPUの Graviton3 と学習用チップ Trainiumがアナウンスされました。

Graviton3

下記の記事によると、

最大25％のコンピューティングパフォーマンス
最大2倍の浮動小数点パフォーマンス
最大2倍速い暗号化ワークロードパフォーマンス
CPUベースの機械学習ワークロードで最大3倍優れたパフォーマンス
bfloat16およびfp16命令のサポート
常時オンの256ビットメモリ暗号化に加えセキュリティを強化するためのポインタ認証のサポート

そして、DDR5をサポート。

dev.classmethod.jp

Amazon公式のYoutube : EC2 G7g

Introducing AWS Graviton3 Processors and Amazon EC2 C7g Instances | Amazon Web Services www.youtube.com

いろいろ出てきたので追記、2021.12.02

7 die
どうやら、パッケージは、Intel。となると、die 間は、EMIB ?
Arm Neoverse V1 x 64コア (Graviton2 は、Neoverse N1 x 64コア)、TSMCの7nm/5nmで製造可能な設計、メモリはDDR5ないしはHBMに対応し、I/O周りもPCI Express Gen 5とCLX 1.1に対応している。
DDR5 x 8枚、4 die
PCIe Gen5、2 die (こちら、Intel FPGAのAgilexのR-Tile(PCIe) は、Gen5 x 16 EP/RPなので、これを使っているとか？ないだろうか)

Graviton3は、7 die chiplet design だって、
開発したのは、買収したAnnapurna Labsみたい(ロゴが見える) https://t.co/915ilid6mr
— Vengineer＠ (@Vengineer) 2021年12月2日

こちら、TSMCではなく、Intel Foundry Service ？
「ちなみにIntel Foundry Serviceの最初の顧客の1つとして、Amazonがこのパッケージング技術を利用すると明らかにした。。。。」
とある。https://t.co/3Blvyu6qAq
— Vengineer＠ (@Vengineer) 2021年12月2日

Agilex FPGAのR-Tile(PCIe) は、
- Gen5 x 15 EP/RPhttps://t.co/dN92tn3GPq
— Vengineer＠ (@Vengineer) 2021年12月2日

Graviton2 は、Arm Neoverse N1
Graviton3 は、Arm Neoverse V1
かな？ https://t.co/U4TQpQMNKw
— Vengineer＠ (@Vengineer) 2021年12月2日

追記、2021.12.03

The Next Platformによると
AWS Graviton3は
TSMC 5nm, Arm Neoverse N2 https://t.co/6llwNet59a
— Vengineer＠ (@Vengineer) 2021年12月2日

Youtube Video : Graviton3 のところ

追記、2022.12.01

Armが公式にNeoverse V1 使っているといっています。

AWS Graviton3 featuring Arm Neoverse V1 is up to 1.8x faster than x86 for deep learning inference workloads

community.arm.com

Trainium

推論チップ Inferentia に続き、学習用チップ Trainium を発表

AWS Trainium : EC2 trn1 は、16基搭載可能。各 Trainium は、3GHz、32GBのHBM2Eを搭載。チップ間インターフェースは、800 Gbps

https://aws.amazon.com/jp/about-aws/whats-new/2021/11/amazon-ec2-trn1-instances/

Trainium で学習し、Inferentia で推論って感じですかね。

www.youtube.com

追記、2021.12.05

GPT-3の学習を2週間で終わらせるには、

600 INSTANCES : P3dn : 8x NVIDIA V100 (32GB), 100Gbps networking
128 INSTANCES : P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
96 INSTANCE : TRN1n : 16x AWS Trainium, 1.6 Tbps networking w/ EFA

P3dn: 8x NVIDIA V100 (32GB), 100Gbps networking
P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
TRN1n: 16x AWS Trainium, 1.6Tbps networking w/ EFA

Trainium, systolic array design, and has 16 fully programmable inline data processors, to implement custom operators in C and C++. pic.twitter.com/1O2fOpKPCW
— Longhorn (@never_released) 2021年12月5日

1ノードに、16個のTrainium 。8個のOAMなので、OAMには、2個の Trainium が載っている？それとも、2ノードが1つの Trn1 なの？

AWS Trainium
1ノードのOAMが8個https://t.co/K2GCEGK4PY

この部分では、Trn1のメモリが512GB、Trainiumは32GBのHBMeということなので、512GBは、16個に相当https://t.co/wqAu2YB09y
— Vengineer＠ (@Vengineer) 2021年12月5日

おわりに

NVIDIA : x86-64 (AMD ROME) + A100
Intel : Xeon + Ponte Vecchio
AMD : EPYC + MI250/MI250X

そして、AWSも - Gravition3 + Trainium

NVIDIAは、2023年にGRACE + Ampere Nextのシステムを出してきますが、AWSは2年先だって、ARM系CPU + 学習用チップを出してきたわけです。 NVIDIAは基本的にはシステムを売らないといけませんが、AWSは自社用に開発しているので早く動けているんでしょうね。。。性能的にはNVIDIAのシステムにはまだ追いついてはいないと思いますが、自社内のシステムであれば、コスパがすべてだと思うので、そのために、自社で作ったんでしょうから？

NVIDIA、Intel、AMDとは違う立ち位置のAWSは、ある意味、中国のBaiduやAlibabaみたいな感じなんでしょうね。

Vengineerの妄想

人生を妄想しています。

AWSのGraviton3とTrainium

はじめに

Graviton3

Trainium

おわりに