はじめに
AWS re:Invent にて、Arm系CPUの Graviton3 と学習用チップ Trainiumがアナウンスされました。
Graviton3
下記の記事によると、
- 最大25%のコンピューティングパフォーマンス
- 最大2倍の浮動小数点パフォーマンス
- 最大2倍速い暗号化ワークロードパフォーマンス
- CPUベースの機械学習ワークロードで最大3倍優れたパフォーマンス
- bfloat16およびfp16命令のサポート
- 常時オンの256ビットメモリ暗号化に加えセキュリティを強化するためのポインタ認証のサポート
そして、DDR5をサポート。
Introducing AWS Graviton3 Processors and Amazon EC2 C7g Instances | Amazon Web Services www.youtube.com
いろいろ出てきたので追記、2021.12.02
- 7 die
- どうやら、パッケージは、Intel。となると、die 間は、EMIB ?
- Arm Neoverse V1 x 64コア (Graviton2 は、Neoverse N1 x 64コア)、TSMCの7nm/5nmで製造可能な設計、メモリはDDR5ないしはHBMに対応し、I/O周りもPCI Express Gen 5とCLX 1.1に対応している。
- DDR5 x 8枚、4 die
- PCIe Gen5、2 die (こちら、Intel FPGAのAgilexのR-Tile(PCIe) は、Gen5 x 16 EP/RPなので、これを使っているとか?ないだろうか)
Graviton3は、7 die chiplet design だって、
— Vengineer@ (@Vengineer) 2021年12月2日
開発したのは、買収したAnnapurna Labsみたい(ロゴが見える) https://t.co/915ilid6mr
こちら、TSMCではなく、Intel Foundry Service ?
— Vengineer@ (@Vengineer) 2021年12月2日
「ちなみにIntel Foundry Serviceの最初の顧客の1つとして、Amazonがこのパッケージング技術を利用すると明らかにした。。。。」
とある。https://t.co/3Blvyu6qAq
Agilex FPGAのR-Tile(PCIe) は、
— Vengineer@ (@Vengineer) 2021年12月2日
- Gen5 x 15 EP/RPhttps://t.co/dN92tn3GPq
Graviton2 は、Arm Neoverse N1
— Vengineer@ (@Vengineer) 2021年12月2日
Graviton3 は、Arm Neoverse V1
かな? https://t.co/U4TQpQMNKw
追記、2021.12.03
The Next Platformによると
— Vengineer@ (@Vengineer) 2021年12月2日
AWS Graviton3は
TSMC 5nm, Arm Neoverse N2 https://t.co/6llwNet59a
Youtube Video : Graviton3 のところ
追記、2022.12.01
Armが公式にNeoverse V1 使っているといっています。
AWS Graviton3 featuring Arm Neoverse V1 is up to 1.8x faster than x86 for deep learning inference workloads
Trainium
推論チップ Inferentia に続き、学習用チップ Trainium を発表
AWS Trainium : EC2 trn1 は、16基搭載可能。各 Trainium は、3GHz、32GBのHBM2Eを搭載。チップ間インターフェースは、800 Gbps
https://aws.amazon.com/jp/about-aws/whats-new/2021/11/amazon-ec2-trn1-instances/
Trainium で学習し、Inferentia で推論って感じですかね。
追記、2021.12.05
GPT-3の学習を2週間で終わらせるには、
- 600 INSTANCES : P3dn : 8x NVIDIA V100 (32GB), 100Gbps networking
- 128 INSTANCES : P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
- 96 INSTANCE : TRN1n : 16x AWS Trainium, 1.6 Tbps networking w/ EFA
P3dn: 8x NVIDIA V100 (32GB), 100Gbps networking
— Longhorn (@never_released) 2021年12月5日
P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
TRN1n: 16x AWS Trainium, 1.6Tbps networking w/ EFA
Trainium, systolic array design, and has 16 fully programmable inline data processors, to implement custom operators in C and C++. pic.twitter.com/1O2fOpKPCW
P3dn: 8x NVIDIA V100 (32GB), 100Gbps networking
— Longhorn (@never_released) 2021年12月5日
P4d: 8x NVIDIA A100, 400Gbps networking w/ EFA
TRN1n: 16x AWS Trainium, 1.6Tbps networking w/ EFA
Trainium, systolic array design, and has 16 fully programmable inline data processors, to implement custom operators in C and C++. pic.twitter.com/1O2fOpKPCW
1ノードに、16個のTrainium 。8個のOAMなので、OAMには、2個の Trainium が載っている?それとも、2ノードが1つの Trn1 なの?
AWS Trainium
— Vengineer@ (@Vengineer) 2021年12月5日
1ノードのOAMが8個https://t.co/K2GCEGK4PY
この部分では、Trn1のメモリが512GB、Trainiumは32GBのHBMeということなので、512GBは、16個に相当https://t.co/wqAu2YB09y
おわりに
そして、AWSも - Gravition3 + Trainium
NVIDIAは、2023年にGRACE + Ampere Nextのシステムを出してきますが、AWSは2年先だって、ARM系CPU + 学習用チップを出してきたわけです。 NVIDIAは基本的にはシステムを売らないといけませんが、AWSは自社用に開発しているので早く動けているんでしょうね。。。 性能的にはNVIDIAのシステムにはまだ追いついてはいないと思いますが、自社内のシステムであれば、コスパがすべてだと思うので、そのために、自社で作ったんでしょうから?
NVIDIA、Intel、AMDとは違う立ち位置のAWSは、ある意味、中国のBaiduやAlibabaみたいな感じなんでしょうね。