Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

Groq で LIama 2 70B を推論システムとして使った時の規模とお値段を妄想する

はじめに 昨日のGroqp祭りに便乗したことにより、昨日のブログのアクセスが1,554と通常の2~3倍になりました。 vengineer.hatenablog.com また、Google からの流入が増えているので、Groq で Google検索してみたら、なんと、2番目に出るようになっていました…

NVIDIA H200のメモリ帯域は 4.8TB/s、B100のメモリ帯域は、どうなる?

はじめに NVIDIAのH200。H100に対しての変更点は、メモリが HBM3の96GBからHBM3eの141GBになっただけ? で、メモリ帯域は?と調べてみたら、下記の記事では、4.8TB/s とありました。 gigazine.net HBM Roadmap 下記のTrendforceの記事によると、 HBM3 : Sams…

GroqのLLM Inferenceが超絶速い件に対する感想

はじめに Xの投稿にて、GroqのLLM Inferenceが超絶速いというのが流れてきます。 groq.com にアクセスすると、 Mixtral 8x7B-32K LIama 2 70B-4k が動きます。デフォルトは、Mixtral 8x7B-32K のようです。 とりあえず、質問してみました。 GroqのTSPがLLM推…

SambaNova SystemsもGbEを付けてくる?

はじめに 昨日、SambaNova SystemsがLLM Inference に PIVOT していたということを書きました。 vengineer.hatenablog.com 今日は、その先、どうするかを見ていきます。 募集 SambaNova Systemsの募集、Principal Engineer, Memory and Interface IP Integra…

SambaNova Systemsは、LLMの推論にPIVOTしたの?

はじめに このブログでも何度も紹介している SambaNoa Systems。 今回は、下位の The Nextplatm の記事を読んだ感想を残します。 www.nextplatform.com SambaNova Systemsの振り返り SambaNova Systemsの振り返り vengineer.hatenablog.com SN10 => SN20 => …

半導体開発で、久しぶりにXの投稿で盛り上がったので、記録に残します。

はじめに 昨日、お昼に、大宮公園の梅園にて、梅を見ながら、南インド料理を堪能しているときに、Xの投稿した下記の内容が久しぶりに盛り上がったので記録として残します。 1989年からお仕事で半導体開発やってきて35年経ちますが今が一番盛り上がっている気…

Tenstorrentのまとめ

はじめに 今日の「半導体チップ雑談」でTenstorrentのことをお話するので、今までブログに書いたものをまとめておきます。 Company Hardware Software に分類して、まとめておきます。 Tenstorrent がこのブログに初めてでてきたのは、 LightMatter (2018.04…

NVIDIA関連のまとめ (2023年版)

はじめに 2023年1月から2023年12月までにこのブログにアップした NVIDIA 関連のもののまとめです。 サマリー 1月 : 2 2月 : 1 3月 : 2 4月 : 5 5月 : 6 6月 : 8 7月 : 5 8月 : 8 9月 : 6 10月 : 2 11月 : 5 12月 : 7 57回です。6日に1回なので、かなり多いで…

書籍 : 夕暮れをすぎて & 夜がはじまるとき

はじめに スティーブン・キング原作の短編集 夕暮れをすぎて 夜がはじまるとき を Kindle本で読み終えたので、記録に残します。 異能機関を読み終えたのは、1月28日だったので、3週間ぐらいですね。 vengineer.hatenablog.com 夕暮れをすぎて : 339頁 夜がは…

NVIDIA Eos Supercomputer は、Aurora の 1/5 の性能?

はじめに 下記のGTC 2022にて発表された NVIDIA Eos Supercomputer に関するブログがアップされています。 NVIDIAがGraceとHopperという名のスーパーチップとEOSスパコンを発表 (2022.3.25) Eos Supercomputer とは、 576台のDGX H100システム In Network Co…

Tenstorrent Worm Holeの動作周波数

はじめに TenstorrentのWohm Holeの動作周波数が分かったので記録として残します。 クロックは3種類 下記の Tenstorrent / TT-Metal の このIssue に Wohm Hole のクロックが載っていました。 Device Telemetry * Device 0: - Core Voltage (V) : 0.72 / 0.9…

Tenstorrent の D2Dは、Blue Cheetah ?

はじめに Tenstorrent は、自社のAI chiplet および RISC-V CPU chiplet を接続するための Die to Die Interface として、Blue Cheetah の IP を選んだようです。 Tenstorrent Selects Blue Cheetah Chiplet Interconnect IP For Its AI and RISC-V Solution…

OpenAI ChatGPTとGoogle Gemini Advancedは、$20/月だけど、内容が違う

はじめに Google が Bard を Gemini というプロダクトとしてリリースしましたね。 japan.googleblog.com そして、Gemini Advanced は、$20/月 で OpenAI の ChatGPT と同じ価格です。 今回は、Gemini Advanced の内容について、見ていきます。 Gemini Advanc…

GPGPUのL3 Cacheは、LLMの性能にどのような影響を与えるのか?

はじめに NVIDIAの下記の論文を見直して、気が付きました。 GPU Domain Specialization via Composable On-Package Architecture GPGPUのL3 Cacheって、LLMの性能にどのような影響を与えるのか? グラフを見てみたら、 下図は上記の論文の Figure 9 です。こ…

NVIDIA H100 と H200 の Inference Performanceの違いについて

はじめに NVIDIA H100に対して、H200の LLM Inference 性能が向上すると、NVIDIAは下記のように言っています。 www.nvidia.com LIama2 13B で、1.4X GPT-3 175B で、1.6X LIma2 70B で、1.9X です。 H100 => H200 になって変わったもの H100からH200になって…

Intel HabanaLab Gaudi2 / Gaudi3 の売上が $2B ?

はじめに Xの下記の投稿に、Intel HabanaLab Gaudi2/Gaudi3に関することが書いてあったので、記録として残します。下記の投稿を説明のために引用します。 Pat Gelsinger: Our accelerator pipeline for 2024 grew double digits QoQ in Q4 and is now well a…

Tenstorrent : Grayskull の lspci

はじめに Xの下記の投稿に、Tenstorrent の Grayskull dev kit を動かしたときの lspic の情報がアップされていたので、記録として残します。 Good evening @tenstorrent pic.twitter.com/oxTtHP1LXO— Jon Masters ‍☠️ (@jonmasters) 2024年2月11日 lspci 無…

Tenstorrent : TT-Budabackend をビルドして、テストコードを動かしてみた

はじめに Tenstorrent : TT-Budabackend を Windows 11 Pro + WSL2 + Ubuntu 22.04 LTS にてビルドして、テストコードを動かしてみました。 TT-budabackendをclone github.com を clone して、ビルドしてみました。 git clone https://github.com/tenstorren…

Tenstorrent : TT-Metal (その1)

はじめに Tenstorrentのソフトウェアとしては、TT-Budaについてはこのブログでも紹介しました。今回は、もう一つのソフトウェアである TT-METALIUM について調べてみます。 TT-METALIUM 下図は、Tenstorrent のソフトウェアのTT-METALIUM のサイトから説明の…

ブログの記事が「FPGAの部屋」を超えました

はじめに ブログの記事、2024年1月31日の時点で、あと、3つという状況でした。 昨日、追いつき、今日、これで3つ目なので、2つ追い越したということになりました。 どうにか、ブログの件数、FPGAの部屋と並びました。 https://t.co/syklf9kxm9— Vengineer@ …

Ampere Computing Altra Max 搭載のGigabyteのサーバー

はじめに GigabyteのAmpere ComputingのAltra Max搭載のサーバー、G242-P36 www.phoronix.com G242-P36 下図は、上記の記事から説明のために引用します。 メモリチャネルは、8.DIMMの数は16枚。 PCIe は、x16 が 6 SLOT CPUとメモリを全部搭載した時の写真…

Tenstorrent : TT-Buda : Saving and Loading Models

はじめに Tenstorrent の TT-Buda の Model の生成およびその Model のローディングの部分を見ていきます。 TensTorrent Device Image (TTI): Saving/Loading User GuideのTensTorrent Device Image (TTI): Saving/Loadingに Tenstorrent Deveci Image (TTI)…

Ampere ComputingのAltra (64コア)のサーバーが $1,500

はじめに このブログでは、何度も、Ampere Computingについて取り上げました。 今回は、Ampere Computing の Altra (64コア) とマザーボードで $1,500 と、Xの投稿で流れてきたので、記憶のために残します。 Ampere arm 64 core CPU + ASRock Rack mATX mobo…

Tenstorrent : TT-Buda : PyBuda Compiler Architecture とは?

はじめに Tenstoorentのソフトウェアとしては、TT-Buda というものがあります。下図は、Tenstoorentのサイトから引用しています。 TT-Buda は、Tenstorrent の github にて、公開されています github.com TT-Buda の実態は、PyBuda です。PyBuda のドキュメ…

NVIDIA H20のスペックとお値段

はじめに NVIDIAのH20のスペックの情報が下記の記事にあったので、記録として残します。 www.tomshardware.com お値段に関しては、REUTERS の下記の記事にありました。 Exclusive: Nvidia's new China-focused AI chip set to be sold at similar price to H…

Tenstorrent の Compute Tile : Tensix

はじめに Tenstorrent の Compute Tile は、Tenisix と呼ばれています。今回は、Tensix について、みていきます。 Tensix の構成 Tenstorrent の Compute Tile : Tensix は、下記のような構造になっています。Tenstorrentの Tensix AI IP の頁から説明のため…

Microsoft DIrectML にて、Intel NPUをサポート

はじめに Intel Core Ultra には、NPU が搭載されています。この NPU が Microsoft DIrectML でも使えるようになったようです。 blogs.windows.com DirectML 1.13.1 and ONNX Runtime 1.17 リリースでは、DirectML 1.13 にて、NPUをサポートしたと書いてあり…

Tenstorrent の Wohm Holeの内部構成

はじめに 昨日のブログでは、TenstorrentのGrayslullの内部構成を探ってみましたが、今日は Wohm Hole の内部構成を探っていきます。 Wohm Hole の内部構成 Wohm Holeの内部構成は、このファイルからわかります。下記のような内容になっています。 # Note ta…

Tenstorrent の Grayskull の内部構成

はじめに Tenstorrentのgithubに公開されているtt-budaのドキュメントの中に、Grayskull の内部構成の図を見つけたので、ブログに残しておきます。 Hardware Overview 下図は、Hardware Overview にあります。説明のために引用します。 13 x 12 の Tile の構…

AMD XDNA Driver for Linux を覗いてみる (その3)

はじめに AMD XDNA Driver for Linux を覗いてみる (その3) 今回は、mailbox 関連を見ていきます。 amdxdna_mailbox.c amdxdna_mailbox.c で、Host と XDAN 間の mailbox を実装しています。 memcpy(&record->re_x2i, x2i, sizeof(*x2i)); memcpy(&record->r…