Astăzi 29 octombrie 2024
Cel mai puternic supercomputer AI al lui Elon Musk, xAI Colossus, cu 100.000 Nvidia H100, a fost prezentat din interior. Noul proiect scump al lui Elon Musk — supercomputerul xAI Colossus pentru sistemele de inteligență artificială — a deschis pentru prima dată ușile pentru public. Jurnaliștii au avut ocazia să exploreze clusterul pe servere Supermicro, asamblarea căruia a durat 122 de zile, și care funcționează deja de aproape două luni.
Serverele cu procesoare grafice sunt construite pe platforma Nvidia HGX H100. Fiecare server include opt acceleratoare Nvidia H100 și un sistem de răcire cu lichid Supermicro 4U, cu suport pentru înlocuirea la cald a componentelor. Serverele sunt instalate în rackuri câte opt, rezultând 64 de acceleratoare pe rack. Fiecare rack include un modul Supermicro 4U cu un sistem de pompă de rezervă și monitorizare.
Rackurile sunt grupate câte opt, oferind 512 procesoare grafice pe masiv. Fiecare server are patru blocuri de alimentare redundante, cu blocuri de alimentare trifazate și switch-uri Ethernet. Clusterul Colossus conține peste 1500 de rackuri sau aproximativ 200 de mase. Acceleratoarele pentru acestea au fost instalate în doar trei săptămâni, conform declarațiilor șefului Nvidia, Jensen Huang.
Din cauza cerințelor ridicate de lățime de bandă ale superclusterului AI, inginerii xAI au depus eforturi în optimizarea rețelei. Fiecare placă grafică dispune de un controler de rețea dedicat de 400 GbE, ceea ce înseamnă că fiecare server Nvidia HGX H100 are o viteză totală de 3,6 Tbit/s prin Ethernet.
Supercomputerul pentru antrenarea modelelor AI, inclusiv Grok 3, necesită nu doar procesoare grafice, ci și stocare și procesoare centrale, dar detaliile despre acestea sunt parțial disponibile. Videoclipurile disponibile sugerează utilizarea serverelor cu cipuri x86, echipate cu răcire prin lichid, destinate stocării de date și sarcinilor de lucru.
Pe obiectiv sunt instalate și baterii Tesla Megapack, care funcționează ca un buffer energetic, având o capacitate de până la 3,9 MWh fiecare, pentru a stabiliza fluctuațiile de energie în timpul funcționării clusterului.