はじめに
Microsoft Maia 200 の Deep Dive の内容から Maia 100 との差分がどのくらいあるのか、見てみます。
Maia 100 の振り返り
Maia 100 の詳細は、Hot Chips 2024 で公開された情報から下記にまとめています。
Maia 200 Architecture
図なのは無いのですが、文章では下記のような内容が書いてあります。
- Tile Tensor Unit (TTU)
- Tile Vector Processor (TVP)
- Tile SRAM (TSRAM)
- a tile-level DMA subsystem
- Tile Control Processor (TCP)
下記は、Maia 100 の図です。上記の5つは、名称は違いますが、同じものがあります。

また、
- Multiple tiles compose into a cluster, which introduces a second tier of shared locality and coordinated movement.
とあります。これも上記の Maia 100 の図にもあります。Maia 100 の時は、1つの Cluster には 4つの Tile を含みます。
そして、
- Each cluster contains a large multi-banked Cluster SRAM (CSRAM) accessible across the tiles in that cluster, along with a dedicated cluster DMA subsystem that stages traffic between CSRAM and co-packaged High Bandwidth Memory (HBM).
とあり、こちらは、Maia 100 の L2 SRAM に相当するものだと思います。a dedicated cluster DMA subsystem は、Maia 100 の CDMA に相当するものだと思います。
下記は、Maia 100 の 複数Tile が2次元にレイアウトされているものです。Maia 200では、いくつの Tile があるは公開されていませんが、
- Maia accelerators feature a highly optimized data movement infrastructure, centered around its Direct Memory Access (DMA) subsystem coupled with a hierarchical Network-on-Chip (NoC). The DMA engines are architected for multichannel, high-bandwidth transfer and support 1D/2D/3D strided movement, enabling common ML tensor layouts to be moved efficiently between on-chip SRAM, HBM, and external interfaces while overlapping data movement with compute.
のようになっています。

SRAM の容量
Maia 200 のトータルのSRAMサイズは、278MB です。一方、Maia 100 は、下記のように ~ 500MB です。ざっくり半減です。

Maia 100 では、TSMC 5nmで、Maia 200 では、TSMC 3nm です。5nm => 3nm になって、SRAMのサイズはほぼ変わらないので、Maia 200では半分にして、その分を計算力に割り当てたのでしょうね。
- This layered DMA architecture enables concurrent, overlapped transfers across memory tiers and across nodes, ensuring compute tiles remain well‑fed under diverse workload conditions.
とありますね。
おわりに
Maia 200 は、Maia 100 のアーキテクチャを踏襲し、計算能力を6bit 3 PFLOPS => 4bit 10 PFLOPs に強化したものなんでしょうね。。