Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

graphcore の検索結果:

Graphcore の TSMC 3nm チップと1Uサーバー

…に、下記のように、「GraphcoreがDDRメモリを使う理由?」という内容をアップしました。 vengineer.hatenablog.com Graphcoreは チップに直接HBMを接続するのではなく、チップからちょっと離れたところに DDR(DDR4)メモリを置く、ということ。 では、TSMC 3nm で現在開発中であろうチップ。MK1(GC2)は TSMC 16nm、MK2(GC200)は TSMC 7nm。1世代飛ばしているので、次は TSMC 3nm なんでしょ…

GraphcoreがDDRメモリを使う理由?

…ips 33 にて、Graphcoreが講演しました。 タイトルは、"Graphcore Collossue Mk2 IPU" 。Mk2 IPU なので既にいろいろと発表しているので、追加で何か?あるのかな。。。と 講演ビデオは、Youtube で公開されています。 www.youtube.com 気になったのは、”Why No HBM?" スライドの最初の方は既に発表があった内容ベースだったのですが、後半の "Why No HBM" からの4スライド。説明のために引用します…

Cerebras Systems は、CS-2と一緒に使うMemoryXとSwarmXなる装置を発表

…イトルのあるように、Graphcore => Cerebras Systems => SambaNova Systems => Anton3 の順番になっています。 www.anandtech.com 下記がMemoryXの発表時のスライドです。説明のために引用します。MemoryXを使うことにより、120T parameters のモデルを CS-2 にて学習できるようにするようです。 下記のスライドもCerebrasのものです。モデルがどんどん大きくなっているのを示してい…

AI ASIC は、ハードウェアよりもソフトウェアなんですよ。。。。

…(2021.04) Graphcore $710M (2020.12) Cerebras $450M (2020.11) Groq $367M (2021.04) TensTorrent $234M (2021.05) ちなみに、Intelが買収した Habana Labs は $75Mの資金調達して、$2B で買収されましたが、その時に開発していたGoyaとGaudiの後のプロダクトのアナウンスもなく、Intelの新しいGPUが出ればほぼお役目終了というイメージです。 In…

Tesla Dojo D1 chip と D1 chip を利用してシステムで次のステップに進んだディープラーニングの学習インフラ

…す。 実はもう一つ、Graphcore M2000 と似たシステム プレゼンテーションではちょこっとしか触れられていませんが、Dojo Interface Processorというものが Host System (PCIe Gen4で接続) と D1 chip (112Gbps SERDESで接続)と接続し、この他にメモリとネットワークが接続するあります。 実はこのようなシステムとしては、Graphcore の M2000 があります。M2000ではホストとの接続は 100G…

NeuReality という会社は、何を提供しようとしているのか?

…は、Cadence、Graphcore、Habana、Intel、SambaNovaです。なんで、HabanaとIntel別々なんでしょうかね。別会社だからですかね。 Gold Partner は、brainchip、Cerebras、deepvision、Flexlogic、Imagination、IMEC、Memverge、NeuReality、Qualcomm、Rambus、Samsung、Siemens、SK hynix です。 Event Partner は、Ach…

GraphcoreのTensorFlow XLAを覗いてみた。

…まった はじめに GraphcoreのTensorflowのコード眺めました。2020年7月15日なので、11カ月ぶり? vengineer.hatenablog.com このブログに書いた内容さっぱり覚えていない。。。とりあえず、記録として。 Compiler HloRunner::CreateExecute メソッドから呼び出されるのが、下記の2つのメソッド。 backend().compiler()->Compile メソッド backend().compiler()-…

Cloud用AIチップベンチャーへの投資額

…021.04.13)Graphcore:$710M (2020.12.29)Cerebras:$450M, (2020.11.19)Groq:$367M, (2021.04.16)おまけTensTorrent:$34M, (2020.02)Simple Machine Inc. 情報が無いっす。— Vengineer@ (@Vengineer) 2021年4月16日 4社はすべて、チップ、ボード、システムを公開しています。Simple Machie Inc. に関しては、チッ…

話題の Jim Keller さんが President and CTO, with a seat on the board になった 会社、Tenstorrent のチップってどんな感じ?

… Cerebras、Graphcore、Samba Nova などのデータフロープロセッサの仲間なんですよ。(ブログにも、tenstorrent も書いています) vengineer.hatenablog.com下図(16:11頃のスライド)は、Software Stack Overview です。AI Chip なので、入力は PyTorch/ONNX のモデルです。Grayskullは Inference 用チップなので、学習済みのモデルを入力して、そのモデルを Fron…

2020年を振り返る

…、Cerebras、Graphcore、Samba Nova、Tenstorrentなどです。これらのチップでは、各コアはそれぞれ違う働きをするように動作し、モデルの各処理を各コア(物理的な)にマッピングし、コア間の配線(データの流れ道)をすることになります。この配置・配線の技術は、FPGAの配置・配線の技術なので、FPGA業界の人がAIチップベンダーに移動しているっぽいです。ディープラーニング用アクセラレータの王者、NVIDIAは GTC2020 Chinaの講演にて、NV…

Tenstorrentのコンパイラ技術、RESPAPE/TRANSPOSE/SQUEEZEをデータ移動に押し込む

…erebras や Graphcore でもできるので、AI アクセラレータとしては当たり前の機能になってきたと思います。また、Tenstorrent の Graph Compiler では、1つの Tensor を Mini-Tensor に分解して、分解した Mini-Tensor を1つのPacket として扱い、この Packet の コア間で移動するためのスケジューリングもやっているようです。 Packetには、 Packet headers Packet IDs …

Graphcore IPU-M2000(IPU POD64)がNvidia A100 DGXの性能を上回るベンチマーク値を公開

…から始まった 以下のGraphcoreのブログによると、IPU POD(64)、IPU-M2000が16台のPODが NVIDIA A100 DGXの性能より高いと www.graphcore.aiBERT-LARGE Training では、NVIDIA DGX A100に対して、5.3倍 RESNET-50 Training では、NVIDIA DGX A100に対して、2.6倍NVIDIA DGX A100 には、8台のA100が搭載。一方、Graphcore IPU-…

Linkey Fall Processor Conference 2020 の講演ビデオが公開されている(限定かも)

…856 cores Graphcore 1,216 cores NVIDIA A100 : 112 cores Hauwei : 32 cores Qualcomm : 16 cores Habana : 8 cores Alibaba: 4 cores TPUv3 : 2 cores Groq : 1 core と分類しています。NVIDIA A100 の 112cores は何をもってコアとしているのがよくわかりません (Streaming Processor なら 10…

Graphcore、AlibabaのCloud’s Open Deep Learning API (ODLA)をサポート

…た これ。 www.graphcore.ai BaiduのPaddlePaddleには対応しているっぽいんだけど、Alibabaにも対応するのね。 Huaweiは独自のAscendを持っているので。。。 vengineer.hatenablog.com 下記の図は、URL組み込みで引用しています。 にあるように、NVIDIA、Intel、Alibaba Groupのデバイス、Cambricon、Qualcommなんかもサポートしているのね。 Alibabaはハードウェアは、外…

Groq、x8サーバー

…ているっぽいです。 GraphcoreのDELLサーバー(8倍のPCIeボード)がざっくり100Kドルだったので、それ以下になるとは思うけど、どうなんだろうか? 追記)、2020.10.10 この記事によると、Groq の ASIC ベンダーは、Marvellの模様。 ascii.jp ICYMI: Last week, Groq’s CEO Jonathan Ross presented “The Fastest Path to Performance” at the @A…

Graphcoreの利用事例の論文が出てきたそうな。

…から始まった 下記のGraphcoreのブログの中にあった論文から www.graphcore.ai arxiv.org 内容はよく読んでいないのでわからないのですが、Summaryには This paper represents the first study of IPUs, a new processor type optimised for ML applications, in the context of particle physics. TensorFlow …

Graphcore、TSMC 3nm で Chip 作るとか。

…を発表したばかりの Graphcore。今度は、TSMC 3nmで作るとか。 MK1 (16mn) のSRAM 300MB を MK2 (7nm)では、3倍の900MBにしたんだけど、3nm だとどうなるのだろうか? 7nm に対して、2倍ぐらい入るのかしら? ロードマップの図(記録のために、組み込みURLで引用します)では、N3 とだけありますね。この N3 は、プロセスの N3 のことなんでしょうね。 それから、次の図(記録のために、組み込みURLで引用します)の下の方に…

HotChips32を振り返る:Cerebras Systems の WSE Programming

…ne で実行します。Graphcoreと同じです。図には Batch Size = 16 でに 4-Layer BERT Performance のグラフが載っていて、コア数が100k, 200k, 300k, 400kとキチンとスケールしていることを示しています。400k を超えるとダメなんでしょう。。 でも、2nd Gen WSE (最後のスライド)では、850k コアになるので、今の2倍までスケールしそうです。今のWSEが 16nm に対して、2nd Gen WSE が…

GraphcoreのBaidu’s Deep Voice 3モデルのベンチマーク

… こちら。 www.graphcore.ai ベンチマークの結果は、記録のために引用します。ここに出ているGPUって、12nmのもととあるので、NVIDIA V100 ですかね。 MK1 IPU で、6倍以上、MK2 IPUでは14倍以上の処理能力と。 - With data-parallel training on a C2 card with 2 MK1 IPUs (batch-size of 4) - With a single MK2 IPU in an IPU-M2…

Graphcore IPU-Server4は、推論用?

…9公開から始まった Graphcore IPU-Server4は、どうやら推論用。 Dellの2Uサーバーに、PCIe Boardを2倍刺したもの。 Graphcore 740 IPU Server www.graphcore.ai 何れ写真は無くなっちゃうので引用します。DELLEMCのロゴがありますね。 PCIeカードは、8枚のサーバーと同じ、Graphcore C2 PCIe IUP Cardで MK1 の方。 8枚の方では、PCIeカード間を接続するコネクタがありまし…

GraphcoreのGraph Compile Domain (GCD)

…9公開から始まった Graphcoreのサイト、最近、よく更新されていて、なおかつ、いろいろと情報がでているんですよね。 で、今回は、これ。Poplar のページにある。記録のために、この部分を引用します。 Multi-IPU Scaling & Communication Poplar takes on the heavy lifting, so you don't have to, in a world of growing model sizes and complex…

NSFのAI supercomputer

…ワードが出てきます。Graphcoreの Poplar API みたいなものですかね。 調べてきたら、知らないプレゼンテーション資料が出てきました。 Generating SIMD Instructions for Cerebras CS-1 using Polyhedral Compilation Techniques 論文も。 LAIR code + LAIR map => DTG codegen => C-level code のようです。 資料見ても、分かりません。。…

Graphcore : Poplar API から探ってみる

…9公開から始まった Graphcore Poplar API から Hardware 関連を探ってみます。 class Target にいろいろ書いてありました。引用します。 Target creation options ipuLinkConfiguration (Default, BarleyTwist, SlidingWindow, None) [=None] The configuration used for the IPU to IPU connections (…

GraphcoreのIPU-Gateway SoCとは?

…9公開から始まった GraphcoreもIPU-Machine M2000 に搭載されている IPU-Gateway SoC。 この SoC には、DDR4が x2 + x1 接続されています。 このブログの一番上にある写真(記録のために引用します)です 左下の黒のヒートシンク(このヒートシンクは、これみたい)の下に IPU-Gateway SoC があり、左側に2枚のDDR4、右側に 1枚のDDR4があります。DDR4だと、ECC付では64GBまでありますね。そうなると、3…

Graphcore の IPU-Machine M2000 の前に、IPU-Machine があったのだ

…を知ってから、再度、Graphcoreのサイトのこのブログを読み直して、気が付きました。 IPU-PODを気にかけていて、IPU-Machine のことを全く持ってスルーしていたわけです。 www.graphcore.ai IPU-Pod は、32 1U IPU-Machines から構成される、とあります。 IPU-Machine には、4個の Collossus GC2 IPU (現在のMK1)が載っていると。 その写真がこのブログに載っています(記録のために画像を引用し…

GraphcoreのIPU-FABRIC内の IPU-SYNC/IPU-GWLINKS とは何か?

@Vengineerの戯言 : TwitterSystemVerilogの世界へようこそ、すべては、SystemC v0.9公開から始まった 昨日の続きです。 IPU-FABRICにある - IPU-SYNC - IPU-GWLINKS とは何か? そのヒントは、ブログの中にあるビデオにありました。その8:00に IPU-Machine M2000のケーブルが刺さっている部分が映し出されます。その中で、オレンジ色のケーブルが刺さっているコネクタの上に、 - SYNC 1-8 …

Graphcore : MK2 GC200 および IPU-Machie M2000 発表

…から始まった 突然、Graphcore から MK2 GC200 および IPU-Machie M2000 発表があった。 www.graphcore.ai 何故?このタイミングだったかの? 6/25の INTERNATIONAL WORKSHOP ON MACHINE LEARNING HARDWARE (IWMLH), CO-LOCATED WITH ISC2020 で講演したばかりなのに。 新しいチップが MK2 GC200 になったので、今までの IPU は、MK1に…

Graphcore 中国にて IPU DevCloud を始めたっぽい

…このブログ www.graphcore.ai MicrosoftのAzureでサポートした DELL DSS 8440 IPU SERVER の他に、INSPUR NF 5568M5 IPU SERVER を。INSPUR という会社のサーバーに IPU を差したものっぽい。 パートナーは、Kingsoft Cloud 。え、あの Kingsoft ? Office っぽいもの出していた。 お、中国語での説明もあった。読めないけど。あ、これ、申込のページね。 www.grap…

Graphcore の TensorFlow XLA コード

…た 昨日のブログで、Graphcore の IPU が ホストのメモリを使う addRemoteBuffer を紹介しました。その中で、GraphcoreのTensorFlowでも使っていたのですが、その使っていた部分のコードは、XLA の中だったのです。 ということで、今日は、Graphcore の TensorFlow XLA のコードを見ていきます。 コードは、ここ。 3rd party XLA devices のディレクトリにあります。最新のTensorFlowにも同…

GraphcoreのIPUでも、ホストのメモリを使う?

…9公開から始まった Graphcoreが POPLIBS をオープンソース化したというのが昨日のブログ。 今日のブログでは、IPU でも ホストのメモリを使うというお話。 Graphcoreの IPU は内部SRAMをたっぷり持っているので、外部メモリ(DRAM)を接続するインターフェースを持っていません。ということは大きなモデルになってくると、そのモデルのパラメータがIPUの内部SRAMに乗りきらなくなるということ。そこで、今日のブログの内容になるのですが、ホストのメモリを…