Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Phytiumの64コアARM HPCプロセッサー



FT-2000/64 は、2.0GHzで動作するARMv8互換でコアを64個搭載しているようですね。
512GFLOPS = 64(コア)*4(バイト)*2.0(GHz)ということですかね。

プレゼンテーション資料もアップされています。

特徴(Page.6)

 ・64コアのXiaomi
 ・8個のコアが1つのPanelという単位で、それが8個搭載されている。
 ・各PanelにCMC(Cache & Memory Chipsが付いている。
 ・CMCには、L3 Cacheとして、各16MB、DDR3-1600が2 Channel接続できる
 ・2つPanelにPCIe 3.0(x16)
 ・メモリ帯域は204GB/s(25.5GB/s x 8)

Panel(Page.7)には、
 ・8個のXiaomiコア
 ・4つのXiaomiコアに対して、L2 Cacheが2MB、合計4MB
 ・Directory-based cache coherency (DCU : Directory Control Unit)

Xiaomi Core(Page.8-12)には、
 ・32KB/32KB L1 I-Cache/D-Cache
 ・ハイブリット分岐予測器
 ・4つのデコーダ
 ・4つのキュー(SCInt/VT, MCI/VT, FP/VT, LD/ST)

Cache coherence protocol(Page 13)
 ・分散型のディレクトリーベースなキャッシュコヒーレンシ

Network on Chip (Page.14)
 ・2D Concentrated Mesh Architecture
 ・チップ内の各Panelへのレイテンシーは、3〜15サイクル
 ・帯域は各384GB/s

Cache & Memory Chip (Page.15)

Latency (Page.16)
 ・Local L1 cache hit       〜  2 ns
 ・Local L2 cache hit       〜  8 ns
 ・Affinitive L2 cache hit  〜 20 ns
 ・Affinitive L3 cache hit  〜 36 ns
 ・Affinitive DDR access    〜 70 ns

   Panel: 2.0GHz, NoC: 2.0GHz, CMC: 15GHz

Panel全体やNoCが2.0GHzで動くの?

Scalable Debug System (Page.18)