Bot image for Claude-3-Sonnet

Shared conversation

Claude-3-Sonnet ·

https://twitter.com/corbtt/status/1772392525174620355
Kyle Corbitt @corbtt
Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they're having provisioning infiniband-class links between GPUs in different regions.

Me: "why not just colocate the cluster in one region?"
Him: "Oh yeah we tried that first. We can't put more than 100K H100s in a single state without bringing down the power grid." 🤯

Simon Mahan @SimonMahan
I've read an H100 uses 700 watts.

100k of them would be 70 MW.

That's about as big as a small solar or wind farm.

Kyle Corbitt @corbtt
The rest of the server and the cooling tho. Also, you really don't want to be powering these bad boys with intermittent power. FLOPs depreciate fast.

Jessassin @Jessassin
I still don’t understand how this is supposed to generate positive cash flow long term.

Kyle Corbitt @corbtt
my general understanding of the business model is "whoever builds agi first wins the whole game." you can agree with them or not, but openai really does believe they're playing for all the marbles here.


上記のツイートを日本語で説明してください。

このツイートのやり取りは、大規模な言語モデルであるGPT-6をトレーニングするために必要なコンピューティングリソースの規模が、従来の発電所の能力を超えていることを示しています。

マイクロソフトの技術者は、GPT-6のトレーニングクラスターを構築する際、GPUの相互接続に高速のインフィニバンドリンクを使おうとしたが、異なる地域間での接続が難しいことを嘆いています。

技術者は、1つの地域に10万台以上のH100 GPUを集約することはできず、その消費電力が州の送電網を麻痺させてしまうと述べています。1台のH100 GPUが700ワットを消費するため、10万台で7,000万ワット(70メガワット)にもなり、小規模な太陽光または風力発電所に相当する規模になります。

また、トレーニングにはGPUの他にもサーバーや冷却設備が必要で、さらに電力を要します。そしてAI性能は絶えず進化するため、電力供給の途絶は許容できません。

最後に、こうした莫大な投資に対して、どのようにキャッシュフローを生み出すのかが分からないという指摘があります。しかし、OpenAIはAGI(人工般人工知能)を最初に実現した者が「全てを獲得する」と考えており、そのための投資を惜しまない姿勢が垣間見えます。

This conversation may have been edited by the sharer.

Bot image for Claude-3-Sonnet
Talk to Claude-3-Sonnet on Poe