ICE Datacenter vätskekylning energieffektivitet generativ AI

Generativ AI måste köras med vätskekylning!

Optimal prestanda för Generativ AI kräver implementering av vätskekylning!

I två föregående blogginlägg, grävde vi ner oss i utmaningarna och den betydande energiförbrukningen i samband med träning och användning av utökade AI-modeller, som i fallet med ChatGPT. I det här blogginlägget är vårt mål att gå djupare in i termiska behandlingsstrategier.

Optimal prestanda för Generativ AI kräver införandet av vätskekylning! I våra två tidigare blogginlägg, " Kör generativ AI bara på luft?" och " Generativ AI kör inte på luft!" utforskade vi utmaningarna och den betydande energiförbrukningen vid träning och användning av avancerade AI-modeller, som exemplifierat av ChatGPT. Denna utveckling signalerar en ökad efterfrågan på energi, nya processorer, servrar, kylteknik och ökad yta i datacentret.

I detta blogginlägg strävar vi efter att fördjupa oss i strategierna för termisk hantering för att adressera värmeutvecklingen från avancerade mikroprocessorer (XPU) som används vid träning och inferens av storskaliga språkmodeller. De konventionella metoderna, som utnyttjar luft för att kyla servrar och avlägsna värme från datacenter, står inför utmaningar på grund av ökande värmeflöden i den senaste generationens mikroprocessorer. Innehållet i detta blogginlägg baseras på presentationen av Jon Summers vid DCD London 2023.

En annan förestående utmaning involverar att förse racken med dessa energikrävande servrar med tillräcklig kraft. Dock kommer denna diskussion att behandlas i en kommande bloggpost.

Omkopplingsenergi

Vårt första fokus ligger på omkopplingsenergin hos transistorerna i CMOS-mikroprocessorer. För närvarande ligger omkopplings-energiförlusten på cirka 10 aJ (1 aJ = 1000 zJ = 10^-18 J). Enligt tidigare rapporter från International Technology Roadmap for Semiconductors (ITRS) förväntas denna teknik nå 1 aJ år 2030. Dessa siffror blir centrala när vi beräknar effektbehovet för en mikroprocessor.

Thermal design power (TDP)

Genom snabba och förenklade beräkningar för termiska designeffekter med formeln Effekt (W) = Switch Energy (J) x Switching Rate (s-1) kan vi fastställa det maximala värmeflödet. Betrakta A100 SXM4 Nvidia GPU som ett exempel, baserat på en uppskattad energiförlust på cirka 15 aJ per transistor och utrustad med 54,2 miljarder transistorer som omkopplar med 1,4 GHz (7nm). Användning av formeln Power = (54 x 10^9) x (1,4 x 10^9) x (15x10^-18) resulterar i 1134W – en grov uppskattning av den maximala effekten om alla transistorer omkopplade samtidigt. Medan den kända TDP för GPU:n är 400W, indikerar ett maximum på 1134W en potentiell mängd på 65 % mörkt kisel. Därefter beräknas värmeflödet (HF) som TDP/area, vilket ger ett maximalt värmeflöde på 484 kW/m2, baserat på en ytstorlek på 826 mm2.

Låt oss nu jämföra detta med H100 SXM5 Nvidia GPU, där den uppskattade energiförlusten är runt 10 aJ per transistor. Med 80 miljarder transistorer som omkopplar med 1,8 GHz (4nm) kan effekten beräknas till ungefär 1440W. TDP är specificerad som 700W, vilket indikerar potentiellt för 51 % mörkt kisel. Det maximala värmeflödet beräknas sedan som HF = 860 kW/m2, baserat på en ytstorlek på 814 mm2.

Vart är TDP på väg?

Intel har förutspått att mikroprocessorer år 2030 kommer att innehålla imponerande 1 biljon transistorer. Som tidigare nämnt förväntas ITRS att omkopplingsenergin når 1 aJ per transistor. Om vi antar en klockhastighet på, låt oss säga, 4 GHz, förväntas uteffekten nå 4000W. Om man räknar med ett antaget 40% mörkt kisel kommer vi fram till 2400W. Givet en formstorlek på till exempel 1000 mm2 blir det resulterande värmeflödet (HF) 2,4 MW/m2. För att upprätthålla optimal funktionalitet är det nödvändigt att hålla temperaturen hos framtida mikroprocessorer under 60°C, särskilt med tanke på HF och att mörkt kisel endast står för 40%.

Låt oss nu jämföra dessa värmeflödesvärden med etablerade riktmärken. Nivåer som överstiger 1 MW/m2 ligger i linje med kärnytorna på kärnkraftverk. Den kommande ökningen av maximala värmeflödesnivåer utgör en betydande utmaning för termisk hantering av mikroprocessorer. Frågan uppstår: Hur kan vi effektivt leda bort värmen från mikrochipsytorna?

Vätskor behövs för att ta bort värmen

Genom att dra insikter från Tummala, R.R.s arbete i "Fundamentals of Microsystems Packaging", kan vi fastställa att temperaturskillnaden (Tc-Ta) mellan mikroprocessorhöljets temperatur (Tc) och den omgivande kylvätsketemperaturen (Ta), avgörande för värmeavledning från kylflänsen, representeras som produkten av det konvektiva termiska motståndet (Rconv för en yta på 10 cm2) och kraften spridd över konvektionsarean i enheter om 10 cm2. Matematiskt uttrycks detta samband som Tc-Ta = Rconv*P/(area/10), se figur.

Uppgifterna från Tummalas bok för olika vätskors konvektiva termiska motstånd, där Rconv per 10cm2 är 1 K/W för forcerad konvektion med vatten, fluorkemiska vätskor eller transformatoroljor (kolväten som traditionellt används i enfasnedsänkning idag), eller kokande vätskor, medan forcerad luft har ett konvektivt termiskt motstånd över 10cm2 på 5 K/W eller högre.

Låt oss ta H100 som ett illustrativt exempel: Med 700W fördelat över en 500 cm2 konvektionsarea, beräknas den erforderliga temperaturskillnaden mellan höljet och omgivande kylvätska som 14 (700/50) gånger det konvektiva termiska motståndet. Med tanke på att H100 har en maximal höljestemperatur på 86°C, ger ett försök att kyla den med forcerad luftkonvektion en nödvändig omgivningstemperatur på 16°C (Ta = 86 – 5*14). Detta innebär att en H100 knappt kan fungera på "tunn luft" eller så måste kylflänsens yta utökas ytterligare, bortom 500 cm2 och tar då upp mer rackvolym.

Men när vi betraktar framtida mikroprocessorer med en uteffekt på 2400 W spridd över en 500 cm2 konvektionsarea, en höljestemperatur på 60°C och en omgivande kylvätsketemperatur på, låt oss säga, 27°C, kräver vi ett konvektivt termiskt motstånd per 10 cm2 av 1 K/W eller lägre. Matematiskt är Rconv < (Tc-Ta)/(2400/50) = (60-27)/48 = 0,7. Detta indikerar att "tunn luft" inte är tillräckligt; istället kommer det att kräva forcerad konvektion av vätskor, troligtvis med riktade vätskeflöden med optimerade konvektionskylare eller kylhuvuden.

Och RISE är på fallet

Vi på ICE datacenter hjälper dig gärna om fler frågor om datacenter, vätskekylning och energianvändning för AI dyker upp — hör av dig om du har några frågor!

Published: 2024-01-08