はじめに

Naveen Rao さんは、現在 Databricks の VP GenAI です。

その前は、MosaicML の CEO and Founder でした。

DatabricksがMosaicMLを買収したことは、下記のブログで書きました。

vengineer.hatenablog.com

2023年6月、DatabricksはMosaicMLを $13B で買収しました。

Databricks を辞めて、新会社を創業？

Xの下記の投稿。元ネタは、ブルームバーグの記事

Meet Naveen Rao, the Indian-origin AI leader stepping down from $62B Databricks to launch a new startup.🚀

His venture will focus on cutting the soaring costs of AI computing, even as Databricks powers ahead with record funding and growth.

🔑 Key Details:
🔸 Naveen Rao, ex-AI… pic.twitter.com/GVlpqMhRPD
— NETSNIX (@NetSnix) 2025年9月12日

MosaicML を創業したのが、2021年。2年ちょっとで、$13B で買収ですよ。

vengineer.hatenablog.com

8年以上AI HWを開発してきて、もうHW開発は儲からないからと、MosaicMLを創業し、モデルの最適化を行っていました。

その前は、こんな感じ。

あれ、Nervana Systems が Intel に買収(2016年)され、https://t.co/YGCZZxTgJR
2020年3月、Intel退社
その後、カスタムハードウェアの開発にNGを出し、MosaicMLを創業(2020.12)、https://t.co/z3nyEo90aE
その後、2023.06にDatabricksに$1300Mで買収https://t.co/aTi09nxjLo

2020.12 : 創業… https://t.co/NWxMP4b5oA
— Vengineerの妄想 (@Vengineer) 2025年9月12日

おわりに

下記のXの投稿

Lessons learned after being in AI HW for 8+ years…

Every chip startup talks about perf...It was the game 4 years, but now we need to look at perf/$.

If I were to build a new AI chip today, it would be built out of the cheapest technologies I could find. Let me explain:
— Naveen Rao (@NaveenGRao) 2021年10月8日

上記の投稿のスレッドをGrokによる日本語訳にしたものを下記に引用します。

 8年以上AIハードウェアに携わって学んだ教訓…

すべてのチップスタートアップは性能について話します…4年前はそれがゲームでしたが、今は性能/コストを見る必要があります。

もし今日、新しいAIチップを作るなら、最も安価な技術を使って構築します。説明させてください：

 ニューラルネットワークの文脈では、、計算を希望するデバイスに分割する方法を見つけることができます。そのため、すべてを一つの巨大なプロセッサにめ込む単一的な考え方をする必要はありません。

 非常に大きなシリコンチップは製造コストがはるかに高。ファブはウェハーごとに支払います。チップ面積を2倍にすると、可能なダイの数が半分になります。欠陥密度とダイサイズの関係、面積が2倍になると欠陥の確率は4倍になる可能性があります。新しいノードに対して大きなコスト影響があります。

 最新のプロセスノードは、複雑さ（EUVを除く）によりウェハーあたりのコストくなります。クアッドパターニングのようなものは、工程が増えることで複雑さを増します。これによりコスト、エネルギー、増加します。密度が高まるとチップが小さくなる可能性があるため、歩留まりが良ければコスト面で有利になるかもしれません。

 複雑なパッケージングには同様の問題があります。メモリ帯域幅を2倍にことは、それが2倍未満のコストで実現できる場合にのみ意味があります。手順が増える＝コスト、エネルギー、時間が増える。

 多くの場合、各ノードでの計算はメモリ依存であり、メモリ依存にすることができます。乗算累積（MAC）操作を行うことはそれほど多くの面積を必要としませんが…SRAMはそうではありません。したがって、計算量を利用可能なメモリ帯域幅に合わせる必要があります。

私が欲しいのは、1) 最も安価なビット/秒のメモリ技術（おそらくDDRx）を使用し適切な計算量に合わせたチップです。2) その計算ダイは、コストパフォーマンスが最も高いMACs/$で構築されるべきです。

 3) おそらくPCIeの物理的な接続性以外に何も必要ないが、スケールするためにはRDMAまたはそれに類するものが必要だろう。これは製造コストが安く、システムレベルでの性能/価格比で勝つことができる部品になるだろう。

 一般的に、量が増えるとコストは大幅に下がります。したがって、大量の量を扱う技術を使用することが、性能/価格比で通常勝ちます。誰かこれを私に作ってください！

もしかしたら、これを実現するために、新しい会社を創業したのかもしれませんね。