Vengineerの戯言

人生は短いけど、長いです。人生を楽しみましょう!

x86-64とArmの新しい時代が始まった2020年

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

先週の金曜日、AMDXilinxを買収するというニュースを飛び込んできた。

ちょっと前、NVIDIAがArmを買収する話もあり、2020年はCOVID-19だけではなく、コンピュータ業界(半導体業界)のとっても重要な年になるのだろうか?

2013年初頭、あたしのブログのタイトルを

「Verification Evangelistから@Vengineerの戯言」

へ、変更したときに書いた内容は、

vengineer.hatenablog.com

そういうことで、これからは、半導体の最先端アプリケーションである
マルチコア
GPGPU
FPGA
に関する内容も書いていきます。どれもコンピュータですから。

です。

その後、IntelがAlteraを買収し、ArmをSoftbankが買収し、AMDが復活し、NVIDIAGPUがディープ・ラーニングに普通に使われるようになりました。

 

Armを買収したSoftbankは、投資案件の企業の業績不振のため手持ち資産の現金化のために、ArmをNVIDIAに売ることになり、こちらもうまくいきませんでした。

 

FPGAでは、AlteraとXilinxの2大勢力でありましたが、AlteraがIntelに買収され、Intel内での統合を進めている間に、Xilinxがいつ買収されるのかは業界での噂話の一つでした。

それが現実になりそうなので、先週のAMDによるXilinxの買収ということに。

 

これにより、x86-64ベースのデータセンター(IBMのPOWERが残っていますが、一般的なデータセンターは x86-64ベースということで)では、

の3社のデバイスが重要な要素になっています。この3社に対するあたしのイメージは、

 感じです。

 IntelがAlteraを買収してからかなり経ちますが、

ですね。

AMDx86-64 の資産を最大限に利用できるように、いろいろな戦略、戦術、技術を投入し、復活をしたと思っています。そのAMDXilinxを買収ということは、IntelがAlteraを買収と同じになるのか?と思うかもしれませんが、AMDの中長期的な戦略の一部として必要なのかな?と思っています。

 

NVIDIAがMellanoxを買収し、GPUとNetworkの密接な関係を構築し始め、先週のGTCでの発表では、BlueField-2、2X、そして、これからリリースするBlueField-3、3X、そしてBlueFieldとGPUを統合する BlueField-4 まで。

ちなみに、BlueFieldで使用しているCPUコアは、Arm Cortex-A72。

また、NVIDIAは、Tegra => Jetson 系で ArmのCortex-AシリーズのCPUを搭載しています。

そんな中で、NVIDIAがArmを買収した本当の目的はどこにあるのかはわかりませんが、Jetsonの強化、BlueFieldの強化だけのために、Armを買収するということはないと思うので、データセンターのでx86-64のCPUをArmに置き換えるというのもありえますが、それならArm系のサーバー用SoCベンダーを買収した方がかなりお安く買えると思います。

 

そのヒントは、

www.nextplatform.com

の後半にある。

“There are so many different datacenters, and the number of different CPUs is going to be quite diverse. This is exactly the reason why Arm is going to be successful in datacenters. But no one company can build it all. And when the market fragments, that is exactly when Arm does perfectly well, they do incredibly well, because of the soft IP approach.”

 がポイントなのかもしれません。

今後、5年ぐらいで、x86-64 vs Arm (AArch64) のデータセンターの攻防になる可能性があります。スマホはArm、PCはx86-64、データセンターはx86-64だった2010年代からスマホはArm、PCはx86-64/Arm、データセンターはx86-64/Arm になっていくのではないでしょうか?

 

PlayStation 5本体の中の人による分解。GDDR6 DRAMの配置に注目

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

ある意味、衝撃を受けた、中の人による TearDown

 だいたい分解されちゃうんですから、それなら、中の人がやった方が分かりやすいですからね。

 

で、一番気になったのは、SoCの周りのDRAMの配置、PlayStation 4では SoC の周りのDRAMは 矩形に配置されていましたが、

ビデオの5:20のところを記録のためにキャプチャしました。これ。全部でGDDD6 16GB、1チップ8GB(64Gbit)がSoCの背面のところに放射状に配置されています。

これなら、等長配線もラクチンっぽい。斜め配線もできますからね。

f:id:Vengineer:20201010121524j:plain

 

NVIDIA TLT 2.0 と DeepStream SDK 5.0

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

記録のために

NVIDIAGPUの性能だけでなく、CUDAをベースとしたエコシステムが充実している。

Intelx86-64関連のソフトウェアと同じ感じ。

news.developer.nvidia.com

DeepStreamがサポートするデバイスって、

  • Tesla T4
  • AGX Xavier
  • Xavier NX
  • Nano

とかなり広範囲なんですね。

developer.nvidia.com

いろいろと用意されているけど、こういうの使いこなしているところって、どこだろうか?

Groq、x8サーバー

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

GroqのPCIeボードを8枚刺したサーバーを正式アナウンス

www.nextplatform.com

PCIeボード、初期のものとかなり変わっているっぽい。

電源コネクタも3つ付いている。

ホストは、AMD Rome。何故なら、PCIe Gen4 をサポートしているのは現時点、AMDだから、Xeonはまだ。NVIDIA A100 DGX もそう。

下図は、URL組み込みで引用しています。

1つのRomeに4個のGroqボードが接続しています。

4個を2組、あるいは 1個を8組という使い方ができるらしい。

推論用なので、そんなにいっぱい繋げる必要が無いのかな?

https://3s81si1s5ygj3mzby34dq6qf-wpengine.netdna-ssl.com/wp-content/uploads/2020/09/Groq2.jpg

 

次の図も、URL組み込みで引用します。

https://3s81si1s5ygj3mzby34dq6qf-wpengine.netdna-ssl.com/wp-content/uploads/2020/09/Groq3.jpg

各PCIeボードから3本のケーブルにて、ボード間を接続しているっぽいです。

 

GraphcoreのDELLサーバー(8倍のPCIeボード)がざっくり100Kドルだったので、それ以下になるとは思うけど、どうなんだろうか?

 

追記)、2020.10.10

この記事によると、Groq の ASIC ベンダーは、Marvellの模様。

ascii.jp

 

 

PyTorch/XLAがGoogle Cloud TPUで利用可能に

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

この記事、

medium.com

 

Google、これで TensorFlowとPyTorchの2大フレームワークで TPU を使えるようにしたので、当分、勢力拡大ができそう。

 

11月のSC2020で、TPUv4の詳細発表があるかな。

 

このブログでの、PyTorch/XLAの関連記事。

vengineer.hatenablog.com

Apple A14

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

後藤さんの記事、Applrの発表以外の情報はそれほどないけど

なので、TSMCの 5nm のお話になっている。

pc.watch.impress.co.jp

とりあえず、CPUとGPUについて、

CPUコアは、ビッグコアが2個にスモールコアが4個のヘテロジニアス(Heterogeneous:異種混合)構成で、ディープラーニング向けのマトリックス和算命令拡張を備える。Arm命令セットアーキテクチャでは「Armv8.6-A」相当と推測される。CPU性能は40%アップとAppleは説明する。

マトリックス和算命令拡張って、Arm命令セットに定義されているのかしら?

 GPUコアはAppleアーキテクチャコアで4コア構成、30%の性能向上。もっとも拡張されたのはニューラルネットワークエンジンでユニット数はA13の8コアから16コアへと倍増。性能は11TOPS(Tera Operations Per Second)と、A13の5TOPSの倍以上に上がった。

GPUのコア数はもう4コアで十分。

強化すべきは、NPUで8コアから16コアへ。

 

この記事にある A13のシリコンの写真を見ると、NPUを倍増するとCPUコア(2+4)よりも大きくなりそう。数値見たら、A13で既に大きくなっている。

 

www.anandtech.com


おっと、記事をよく読んだら、AMXなるものが、

 Wiki見たら、A13には AMX なるものが入っていると。。。

 

en.wikipedia.org

 関連ブログ

vengineer.hatenablog.com

OpenNCCは、Intel Myraid Xを使っている

@Vengineerの戯言 : Twitter
SystemVerilogの世界へようこそすべては、SystemC v0.9公開から始まった 

OpenNCCなるカメラ。Intel Myraid Xを使用。

www.hackster.io

USB 接続のカメラ。Intel Myraid Xのサイトによると、

構成可能な MIPI レーン 16 本により、

最大 8 台の HD 解像度 RGB カメラを接続でき、画像信号処理スループットは最大で 1 秒間に 7 億ピクセルまで対応しています。

 と、このカメラは1台ですが。

また、

強化されたビジョン・アクセラレーターにより、

20 個以上のハードウェア・アクセラレーターを使用し、さらにコンピューティングのオーバーヘッドを増加させることなく、オプティカルフローとステレオデプスなどのタスクを実行します。例えば、新しいステレオ・デプス・アクセラレーターは、それぞれ 60Hz のフレームレート 720p の解像度で実行している 6 台のカメラ入力 (ステレオ 3 ペア) を同時処理することが可能です。

 ということで、昨日のHailo-8のようにCV専用回路も搭載されている。

 

ニューラルネットワーク部分は、OpenVINOにて開発ということ。

USB 3.1版は299ドル、