Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Intel Xeon Sapphire Rapids って、HBMとDDR5、なんだって。

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

早いもので、今年も半分が過ぎ、今日7月です。夏が本番になる時期になりました。まだ、梅雨ですが、夏を楽しみましょう!。

はじめに

この記事。

www.anandtech.com

ちょっと前から、Sapphire Rapidsって、DDR5だけでなく、HBMも載っているというのは Twitter の TL に流れてきてたけど、Intelが正式に発表。

Sapphire Rapids

  • DDR5
  • PCIe Gen5
  • CXL 1.1
  • AMX (Advanced Matrix Extensions)
  • High Bandwidth Memory (HBM)
  • support Crow Pass, the next generationof Intel Optane memory
  • 10nm Enhanced SuperFin

ということのようです。

記録のために、下図を引用します。

f:id:Vengineer:20210630091923p:plain

Aurora

Sapphire Rapids は、Aurora で Ponte Vecchio と共に使われるようです。確か、このブログでも紹介した気がします。

記録と説明のために、下図を引用します。2個の Sapphire Rapids と 6個の Ponte Vecchio が搭載されています。

f:id:Vengineer:20210630092312p:plain

DGX A100の対抗になる?

この Aurora は、NVIDIAの DGX A100 との対抗になるのでしょうか? DGX A100は、AMD EPYC ROME x2 + A100 x 8 + NVSwitch x 6 です。 Sapphire Rapidsは、DDR5、PCIe Gen5 をサポートするので、CPU側はAMD EPYC ROME より性能よさそうですが、Ponte Vecchio は6個なので、A100 x8 より性能いいのでしょうか? おまけに、NVIDIA DGX A100 SUPERPOD では、計算ノード間をMellanoxのInfiniBand HDR (200G) で接続していますか、Auroraの場合はどうなっているんでしょうかね?

Auroraの Interconnect を調べたら、Slingshot というのが出てきました。

Slingshot uses a 64-port switch (called Rosetta) with 12.8 Tb/s/dir per switch coming from 64 200 Gbps ports.

とありました。この64ポートって、何台のAuroraが接続するんでしょうかね。

Cray Slingshot; Dragonfly; 8 fabric endpoints per node

とありました。各ノードから8本出ていることになりますね。

製品もありました。Switchが水冷になっています。

www.hpe.com

おわりに

Intel、CPUではAMDで攻められっぱなし、GPUではNVIDIAAMDにはなかなか追いつけない状態でしたが、今回正式に発表になった Sapphire Rapids と Ponte Vecchio でどこまで追い上げられるかがポイントじゃないでしょうかね。。。

さあ、どうでしょうか?

Intelx86 の呪縛から逃げられるでしょうかね。。。。

2021年6月の映画鑑賞

6月、57本、アマゾン100(6本)

  • 5月、50本、アマゾン100円(7本)
  • 4月、37本、アマゾン100円(9本)
  • 3月、32本、アマゾン100円(12本)、DVD(3本)
  • 2月、25本、アマゾン100円(10本)
  • 1月:26本、アマゾン100円(5本)

  • 6月までの映画鑑賞、225本

しあわせの百貨店へようこそ (2018) / LADIES IN BLACK、アマゾン,100円 オーストラリア映画、1959年のシドニーが舞台。古き良きアメリカの1950年代と全然違う雰囲気 移民の国だよね。

初体験/リッジモント・ハイ (1982) / FAST TIMES AT RIDGEMONT HIGH 懐かしい。ジョーン・ペン、フィービー・ケイツだけでなく、フォレスト・ウィテカーも高校生役で出ている。ニコラス・ケイジが ニコラス・コッポラとしてデビュー。 最後まで観てわからなかったので、Google君に聞いたら、ハンバーガーショップの定員として、ワンショットだけ出ていた模様。 フィービー・ケイツのバストが観られる作品でした。。古き良き、アメリカ青春映画の典型ですよ。

時をかける少女 (2006) アニメ。舞台は現在だから、かなり明るい。原田知世主演、下記の1997年に比べて、めっちゃ明るいよー。

時をかける少女 (1997) 角川春樹監督作品。中村俊介出ている。主演の中本奈奈って、デビュー作か。その後、それほど出ていない。演技、うまくないしね。

国家が破産する日 (2018) / DEFAULT、アマゾン、100円 韓国がIMFの配下に入ったときのお話。。。生々しい。

シャレード (1963) / CHARADE モノクロ版を観た。。

フルメタル・ジャケット (1987) / FULL METAL JACKET 観た記憶があるのか、ないのかは不明。。。

バルカン超特急 (1938) / THE LADY VANISHES この時代。。まだ、あたしの両親が生まれてそれほど経っていない時代に。。。こんな映画を作っていたとは、ヒッチコックはすごいなー。

事故物件 恐い間取り (2020)、アマゾン、100円。 主演、亀梨和也。。監督は、中田秀夫。全然怖くないし、映像が中途半端なB級映画っぽくて、とっても残念だった。。。

アルゴ (2012) / ARGO 事実だったとは、よく考えたもんだよ。確か、当時テレビでアメリカ大使館が乗っ取られたのを見たきかする。

モンスター上司 (2011) / HORRIBLE BOSSES コメディとして、面白かった

モンスター上司2 (2014) / HORRIBLE BOSSES 2 続編。

パークランド ケネディ暗殺、真実の4日間 (2013) / PARKLAND パークランドは、病院の名前。

汚名 (1946) / NOTORIOUS ヒッチコック作品だけど、初めて観ました。

ヴィジット (2015) / THE VISIT シャラマン監督作品

インサイド・ルーウィン・デイヴィス 名もなき男の歌 (2013) / INSIDE LLEWYN DAVIS 1961年のニューヨーク・グリニッジ・ヴィレッジ。日本の1980年代ぐらいな感じ。やっぱり20年違うね。

素晴らしきかな、人生 (2016) / COLLATERAL BEAUTY 2回目だった。。。監督は、「プラダを着た悪魔」のデヴィッド・フランケル

アロハ (2015) / ALOHA ハワイもアメリカ合衆国に併合されちゃったんだよね。

疾走 (2005) 手越祐也のデビュー作?

イーストサイド・寿司 (2015) 自分自身はその資格があるという主張をするというのを感じた作品

ソウル・キッチン (2009) / SOUL KITCHEN 2回目。ソウルは、Soul だよ。ドイツ映画。

ザ・マスター (2012) / THE MASTER 2回目。ホアキン・フェニックス。癖のある役だよね。

屍人荘の殺人 (2019) 浜辺美波がめっちゃ、よかった。

ファーストラヴ (2021) 堤幸彦監督作品。今年の2月11日に公開されたばかりの映画だよ。

MEG ザ・モンスター (2018) / THE MEG 2回目。 ジェイソン・ステイサムのマッチョ度が凄い。 リー・ビンビンがとっても良かった。

十二人の死にたい子どもたち (2018) 橋本環奈でていた。

アダムス・ファミリー (2019) / THE ADDAMS FAMILY クロエ・グレース・モレッツが娘役のウェンズデー・アダムス

ドリームキャッチャー (2003) / DREAMCATCHER 何となく観ちゃったよう。

ファイナル・デスティネーション (2000) / FINAL DESTINATION 3回以上観ていると思う。

ジゴロ・イン・ニューヨーク (2013) / FADING GIGOLO ウディ・アレンが出ている。

カルテット! 人生のオペラハウス (2012) / QUARTET ダスティン・ホフマン監督。引退した音楽家がクラス(ビーチャム・ハウス)でのイベントのお話。

新しい靴を買わなくちゃ (2012) 中山美穂って、あんな喋り方だったのか。。。

俺たち喧嘩スケーター (2011) / GOON 何でカナダのプロアイスホッケーって、乱闘になるのだろうか?

エスター (2009) / ORPHAN 2010年にDVD観ていたが、ほとんど覚えていない。。。

エンツォ レーサーになりたかった犬とある家族の物語 (2019) / THE ART OF RACING IN THE RAIN、アマゾン、100円 レーサーに飼われている犬のお話

レディ in ホワイト (2018) 罪の余白 (2015)の 吉本実憂主演。ここまでお気楽なら楽しそう。

カツベン! (2019) 成田凌、演技うまいよね。。。

レベッカ (1940) / REBECCA こんな感じの映画だったんだ。初めて観た。

ザ・ゲーム (2008) / DEVIL'S GAME 脳と脊髄の移植のシーンはすごかった。このとき、なんで拒絶反応ないのかな?と思ったのがラストに繋がったんだね。なかなか良かった。。

センター・オブ・ジ・アース2 神秘の島 (2012) / JOURNEY 2: THE MYSTERIOUS ISLAND センターには行かないんだよね。。。変な感じ。 ドウェイン・ジョンソンは、マッチョな役だけでなく、コメディっぽいのもできるのはイイね。 新しい方のジュマンジでもいい感じの役やっているしね。

ロープ (1948) / ROPE 昔、テレビかなんかで観たときあるけど、覚えていなかった。ほとんどカット無しで撮っていたんだ。1948年だよ。

エジソンズ・ゲーム (2019) / THE CURRENT WAR: DIRECTOR'S CUT 邦題は、エジソンズだけど、原題は THE CURRENT WAR 。。。これだと、日本ではなんだかわからないから、エジゾンズなる訳の分からないタイトルになったのね。 ウェスティングハウスのことを知ることができてよかった。ジョージ・ウェスティングハウス役のマイケル・シャノンがいい人を演じているのがなかなか良かった。

天地明察 (2012) 岡田准一の演技が今とは違っていた。SPと図書館戦争の間なので、あえて、あのような演技をしたんだね。宮崎あおいの演技はいつも同じような気がした。

フレディVSジェイソン (2003) / FREDDY VS. JASON オリジナルのエルム街の悪夢のフレディ観たときは、特撮なかなかだった気がするが、この作品の最初にそのシーンが出てくるんだけど、え、こんなだったの?って感じ。 ジェイソン、なかなか死なんよ。。。

スノーホワイト/氷の王国 (2016) / THE HUNTSMAN WINTER'S WAR シャーリーズ・セロンは美しい。氷の女王のエミリー・ブラントの子供たちのサラ役のジェシカ・チャステインはかなり年上だというのが気になってしょうがなかった。

リベンジ・マッチ (2013) / GRUDGE MATCH デニーロ69歳、スタローン66歳、共に元世界ボクシングチャンピオン

めがみさま (2017) 松井玲奈新川優愛のダブル主演。新川優愛は幻想の世界????

ぐらんぶる (2020) わが青春って感じで楽しそう。アニメが先っぽい。

THE 4TH KIND フォース・カインド (2009) / THE FOURTH KIND DVDで観たので、2度目。。実話でかつ、実際に撮影したビデオを使っている。人間が浮いているし。。。本当なんだろうか。。。

マリオネット 私が殺された日 (2017) / MARIONETTE 韓国映画。最初、2つのストーリーが平行して進むのだと思っていたら、どうやら、過去のことと現在のことだというのを中盤でやったわかった。。。なんだか。。

モダンライフ・イズ・ラビッシュ ~ロンドンの泣き虫ギタリスト~ (2017) / MODERN LIFE IS RUBBISH レコードは分かるのだが、CDはいいけど、iTune はダメだという。まー、個人の趣味であればいいけどね。でもね。彼女ができ、なおかつ、一緒に生活するということになったのだから。。 とはいえ、最後はデジタル(Youtube)に救われたという、かなり矛盾な感じがしますね。ハッピーエンドで終わったのでいいけど。。。

アナザー (2015) / LA DAME DANS L'AUTO AVEC DES LUNETTES ET UN FUSIL / THE LADY IN THE CAR WITH GLASSES AND A GUN モダンライフ・イズ・ラビッシュ ~ロンドンの泣き虫ギタリスト~ (2017) / MODERN LIFE IS RUBBISHのフレイア・メイヴァー主演のサスペンス映画。フランス語もOKなのね。。。

ジュディ 虹の彼方に (2019) / JUDY、アマゾン、100円 ジュディ・ガーランドの映画。ブリジット・ジョーンズの日記」シリーズのレネー・ゼルウィガーが2019年の映画賞を総なめした作品。 観たことあるなーと思って観ていたけど、まさかの。。。それにしても、歌も上手かったよ。。。2歳からこの業界に入っていると、いろいろと大変だよね。

メリッサ・マッカーシー in ザ・ボス 世界で一番お金が好き! (2016) / THE BOSS タイトルにある、メリッサ・マッカーシーって、日本で有名なのかな。。。 クリステン・ベルが40歳過ぎているのにびっくりした。ヴェロニカ・マーズを見たのは、何年前かな。。。

インクハート/魔法の声 (2008) / INKHEART 本を声を出して読むと、登場人物(動物でも何でも)出てきちゃうのって、楽しそう。 あたしの場合は、なんの本がいいかな。

デンジャラス・ビューティー (2001) / MISS CONGENIALITY 10年間FBIで仕事やっているといえ、サンドラ・ブロックなのでもともとキレイ。。。

デンジャラス・ビューティー2 (2005) / MISS CONGENIALITY 2: ARMED & FABULOUS 4年後に作られたけど、ストーリー的にはすぐの設定っぽい。

ニューオーリンズ・トライアル (2003) / RUNAWAY JURY 陪審評決で陪審員を選んだり、承認したり、どちらに近づけるかというお話。。。 アマゾンプライムでは、原題の Runaway jury のままだった。 ジョン・キューザックが若い。痩せているっておもった。

テスラ道場への道?

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

はじめに

あの、TESLA が自社のスーパーコンピュータである 'Dojo' の情報を公開しましたね。下記のツイートにて知りました。

このツイートだけ見ると、NVIDIA A100 を 5760 個搭載したスーパーコンピュータ。8個搭載の4Uサーバーにすると、720台です。 NVIDIA DGX A100 が 20万ドルということなので、ざっくり14400万ドル。。。150憶円????。ひえー、と思いましたが、株価を見る限る大したことなさそうです。

サーバー

ツイートの左側の写真は、4Uサーバーの背面でしょうか?ファンが並んでいます。1 ラックに3~5台搭載されています。結構スカスカなんですね。 ツイートの右側の写真は、計算ノード(GPU)間のインターコネクトであるInfinibandのケーブルっぽいです。

講演ビデオ

上記のツイートの写真は、Andrej Karpathy details Tesla's Self Driving Car Strategy. CVPR 20th June 2021 の講演からのもののようです。 下記のYoutubeのビデオのところ(1:46:06~)

youtu.be

ビデオも下の方に、

Next up : Dojo

とあるので、これは、Dojo じゃないんですかね。

最後に

GAFAM の他でも、スーパーコンピュータを持っていますが、TESLAのこのスーパーコンピュータも凄いですね。。。。

Marvell OCTEON 10は、NVIDIAのBlueField-3の対抗馬か?

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

はじめに

NVIDIA が Mellanox を買収して、Bluefield-2 を発表しました。NVIDIAはネットワーク用のチップを DPU と言っています。

今回、Marvellが OCTEON 10 DPU Family というものを発表しました。

www.anandtech.com

Marvell OCTEON シリーズ

上記の記事の中のスライドによると、Marvell OCTEON シリーズは 2005年(この頃って、CPUコアはMIPS?)からはじまっているようです。2015年にArmコアになる、今回第7世代として OCTEON 10 をアナウンス。

  • TSMC 5mn
  • DPU ML Engine
  • Hardware VPP acceleration
  • Arm Neoverse N2がたくさん(24個)
  • PCIe Gen5
  • DDR5
  • 16x 50GbE Switch、
  • 56G SerdDes で 400GbE までサポート

BlueField-3 DPU は?

www.anandtech.com

によると、

  • 2023
  • Arm Cortex-A78 x 16コア
  • 400Gbps

OCTEON 10 DPU Development Platform

Q4に出てくる OCTEON 10 DPU の開発用ボード。上記のスペックに対して、

  • 2 x 100GbE QSFP56

になっているようです。

OCTEON 10 Family とは?

  • CN103XX : N2 x 8, DDR5 x 2, PCIe Gen5 x 6
  • CN106XX : N2 x 24, DDR5 x 6, PCIe Gen5 x6
  • CN106XXS : N2 x 24, DDR5 x 6, PCIe Gen5 x 4
  • DPU400 : N2 x 36, DDR5 x 12, PCIe Gen5 8

おわりに

NVIDIA の BlueField-5 が 2023年に出る前に、Marvell の OCTEON 10 で出てくると、こっちの方を使うんじゃないですかね。。。

Google TPU v4i、Inference Onlyチップ

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

はじめに

Google2021 ACM/IEEE 48th Annual International Symposium on Computer Architecture (ISCA) にて、

Ten Lessons From Three Generations Shaped Google’s TPUv4i

なるタイトルで講演したようです。TPU v4 ではなく、TPU v4i です。

論文は、ここ にありました。

TPU v4i の特徴

  • 7nm (v2/v3 : 16nm)
  • Perf/CapEx ではなく、Perf/TCO が重要
  • v2/v3 と Compiler compatibility, not binay compatibility (推論だけど、bf16, fp32をサポート)、int8もサポート
  • v2に対して、v3と同じぐらいの性能向上があるが、消費電力費ではv3 に比べて2.3倍以上いい。
  • v4iの命令は、v3の命令 より25%ワイド
  • 4 MXU/1コア
  • SRAM 144MB (Vector Memory : 16MB + Common Memory : 128MB <= 新規)
  • TensorCore DMA は、v2/v3の two-dimensional (single-strided) から four-dimensional (triple-strided)
  • TPUv4i unifies the DMA architecture across local (on-chip), remote (chip-to-chip), and host (host-to-chip and chip-to-host) transfers to simplify scaling of applications from a single chip to a complete system.
  • 内部でデータ幅は、512B
  • 1.0GHz で動いて、TDP が 175W
  • HBM2 8GB (4GB x 2)
  • tracing and performance counter の追加
  • 1コア/1チップ (チップサイズは、v1 = 330 mm2, v2 = 625 mm2, v3 = 700 mm2, v4i = 400mm2)
  • 4チップ/1ボード (4チップはリングで接続)
  • 2ボード/1ホスト
  • 空冷

MXU は、128x128 なので、x4だと、256 x 256 になり、TPU v1 と同じ感じになりますね。

下記に説明のために、Figure 7. を引用します。

Google TPU v2 の写真と比較すると、かなり似ています。(比較のために、ここ から引用します)

チップ間のインターコネクトは、4本から2本になっています。このため、ボード外への接続が無くなっています。

タイトルにある、10個のレッスンとは?

  1. Logic, wires, SRAM, & DRAM improve unequally
  2. Leverage prior compiler optimizations
  3. Design for performance per TCO vs per CapEx
  4. Support Backwards ML Compatibility
  5. Inference DSAs need air cooling for global scale
  6. Some inference apps need floating point arithmetic
  7. Production inference normally needs multi-tenancy
  8. DNNs grow ~1.5x/year in memory and compute
  9. DNN workloads evolve with DNN breakthroughs
  10. Inference SLO limit is P99 latency, not batch size

この論文では、この10個のレッスンについて、語られています。

おわりに

今回の TPU v4i を知ったのは、Tensor Processing Unit の Wikipedia です。ここに、TPU v4 なるものの詳細が載っていました。その出典が今回の論文こちら, スライド もだったわけです。Wikipedia では TPUv4 とありますが、TPU v4i です。Inference Onlyということでした。

論文の最後に、

With Moore's Law diminishing and Dennard scaling dead, hardware/software/DNN co-design is the best chance for DNN DSAs to keep vaulting accelerator walls.

とありました。そうなんだ。

P.S 論文の中に、

Google deployed the single core TPUv4i for inference and the dual core TPUv4, which scales to 4096 chips, for training. Google previewed TPU v4 as part of the MLPerf Training 0.7 in July 2020, where it was 2.7X faster than TPUv3.

とありました。となるということは、TPU v4 は v4i の2倍って感じなんですかね。。。たぶん、HBM2メモリの容量は2倍の16GBということはないでしょうが。

Arm Cortex X2, A710, A510、complex とは?

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

はじめに

Arm が ARMv9-A を発表しました。Armv9-A の特徴は、

  • SVE2

です。

Arm A710, A510 は、ARMv9-A なので SVE2 をサポートしているようです。 Cortex-X2 も ARMv9-A のようですが、Armのサイトには Cortex-X1 の情報しかないんですよね。なんででしょうか? あ、わかりました。日本語のサイトでは、Cortex-X1 ですが、英語のサイトでは、Cortex-X2 になっていました。

Cortex-X2

Cortex-X2 は、ARMv8-A の Cortex-X1 に対して。

になるようです。と言っても、Cortex-X シリーズは特別なチューニングをしたコアなので特別ですね。

Cortex-A710/A510

1つのクラスタの中には、最大8個なんですが、1つのcomplexには2個までおけるということです。となると、4個のcomplexで8個のコアが最大構成になります。 A55ではクラスタの中のコア数は同じ8個なんですが、complex という概念は無さそうです。一方、A75/76/77/78はクラスタには最大4個で、同じように complex という概念は無さそうです。

おわりに

ARMv8-A から ARMv9-A になって、SVE2 が追加されて、機械学習性能が向上しました。 また、ARMv8-A では bigコアのクラスタ、LITTLEコアのクラスタはそれぞれ最大4コアまででしたが、ARMv8-Aでは bigコアのクラスタ、LITTLEコアのクラスタはそれぞれ最大8コアまで搭載でき、2つのコアを complex としても使えるようです。ただし、complex というものがどういうものかまでは、調べてもわかりませんでした。

Armは、big.LITTLE 、DynamIQ という2つの技術をうまく使って、スマホ用のCPUの性能と消費電力のバランスをとっています。 ARMv9-Aのコアでは、complex という概念はこの中でどのような役目をするのでしょうか?

Dynamic Scheduling in Verilator Presented by Antmicro の講演ビデオとスライド

@Vengineerの戯言 : Twitter SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

記録のために、

2021年6月15日に行われた、「Dynamic Scheduling in Verilator Presented by Antmicro」の講演ビデオとスライドが公開されたので、記録のために。

講演ビデオ:CHIPS Alliance - Dynamic scheduling in Verilator presented by Antmicro - 2021-06-21 スライドは、こちら

関連ブログ:What You Need to Know About Verilator Open Source Tooling | Rob Mains, CHIPS Alliance

riscv.org