Die Kühlung des digitalen Gehirns: Warum generative KI eine Revolution der Flüssigkeitskühlung auf Chip-Ebene erzwingt

Feb 14

Über weite Teile des modernen Internetzeitalters folgte die Kühlung von Rechenzentren einer bemerkenswert robusten Grundformel. Server wurden in abwechselnden Gängen angeordnet: Kaltgänge, in die gekühlte Luft eingeblasen wurde, und Warmgänge, in denen die Abluft gesammelt wurde. Aufbereitete Luft wurde über Doppelböden oder Deckenplena von Klimageräten in den Rechneräumen verteilt. Die Server saugten vorne kühle Luft an, gaben hinten Wärme ab, und die erwärmte Luft wurde zu Kühlregistern zurückgeführt. Die Wärme wurde über Kaltwassersysteme oder Direktverdampfung abgeführt und schließlich über Kühltürme, Trockenkühler oder hybride Anlagen an die Umgebung abgegeben. Es war eine elegante Architektur. Sie ließ sich gut skalieren. Und über Jahrzehnte hinweg funktionierte sie.

Die zugrunde liegende Annahme war einfach: Wenn der Raum kühl genug bleibt, verhält sich das Silizium in den Servern stabil. Wärme wurde als ein diffuses, volumetrisches Problem behandelt. Solange Luftströme kontrolliert und Warm- und Kaltgänge sauber getrennt wurden, blieb das System stabil. Die Regelgröße war der Raum.

Dieses Modell profitierte zudem von großzügigen Sicherheitsreserven. Typische Unternehmensserver dissipierten einige hundert Watt, manchmal weniger. Racks überschritten selten fünf oder zehn Kilowatt. Die Lufttemperatur durfte in einem vergleichsweise toleranten Bereich schwanken, ohne unmittelbare Folgen. Selbst gewisse Ineffizienzen waren akzeptabel, da die Wärmelasten moderat und gleichmäßig verteilt waren. Kühlsysteme wurden auf Durchschnittswerte ausgelegt, nicht auf Extremfälle, und der Abstand zwischen typischem und maximalem Betrieb war groß genug, um Überraschungen aufzufangen.

Generative KI durchbricht dieses Modell – nicht allein durch mehr Wärme, sondern durch deren Konzentration. Moderne KI-Beschleuniger dissipieren routinemäßig mehrere hundert Watt pro Chip; führende Modelle erreichen oder überschreiten 700 Watt. (Mit „Beschleunigern“ ist hier im weiteren Sinne jede Recheneinheit gemeint, die speziell dafür entwickelt wurde, Berechnungen schneller auszuführen als eine klassische CPU.) Diese Chips sind dicht auf Leiterplatten gepackt, die wiederum in Racks verbaut sind, deren Leistungsdichten heute 30, 50 oder sogar 100 Kilowatt erreichen.

Die entscheidende Veränderung ist nicht die Rack-Leistung, sondern der Wärmefluss. Hunderte Watt werden in Siliziumflächen von wenigen Quadratzentimetern erzeugt. Innerhalb der Gehäuse entstehen mikroskopische Bereiche mit noch höherer lokaler thermischer Belastung, während Milliarden Transistoren pro Sekunde schalten. In dieser Größenordnung wird Luft zu einem unzureichenden Wärmeträger. Ihre geringe Dichte und Wärmekapazität erfordern enorme Volumenströme, um Energie schnell genug abzuführen. Die Lüfterleistung steigt stark an, der statische Druck erhöht sich, Geräuschentwicklung wird unvermeidlich, und Rückströmungen lassen sich immer schwerer kontrollieren. Irgendwann liegt der begrenzende Widerstand nicht mehr in der Kälteanlage, sondern in der Grenzschicht zwischen Silizium und Luft. Ab diesem Punkt ist die Kühlung des Raumes nicht mehr die Lösung.

Die thermische Herausforderung wird durch die Betriebscharakteristik moderner KI-Chips zusätzlich verschärft. Diese Bauteile sind darauf ausgelegt, nahe an ihren thermischen Grenzen zu arbeiten. Für viele Hochleistungs-GPUs und andere Beschleuniger liegen die veröffentlichten maximalen Sperrschichttemperaturen im mittleren 90-Grad-Celsius-Bereich. Lange bevor diese absoluten Grenzwerte erreicht werden, beginnt jedoch die Leistung zu sinken. Nähern sich die Temperaturen dem unteren 90-Grad-Bereich, steigen Leckströme an, die Effizienz nimmt ab, und die Taktfrequenz wird automatisch durch thermisches Throttling reduziert. Schon kleine Abweichungen über dem optimalen Betriebsbereich können messbare Leistungseinbußen verursachen. Das System fällt nicht spektakulär aus; es liefert schlicht weniger Arbeit pro Watt und untergräbt damit leise die Wirtschaftlichkeit der Anwendung.

Ebenso problematisch sind schnelle Temperaturschwankungen. KI-Prozessoren sind komplexe Verbunde aus Silizium, Substraten, Interposern und Lötverbindungen, die jeweils unterschiedliche thermische Ausdehnungskoeffizienten besitzen. Rasche Temperaturtransienten erzeugen mechanische Spannungen, die sich über die Zeit kumulieren. Aus Sicht des Betreibers geht es daher nicht nur darum, Überhitzung zu vermeiden, sondern eine stabile Sperrschichttemperatur zu halten – oft innerhalb eines Bereichs von nur wenigen Grad Celsius – bei stark schwankender Last.

Diese Anforderung wäre selbst bei gleichmäßiger Auslastung anspruchsvoll. Doch KI-Workloads sind alles andere als konstant. Trainings- und Inferenzaufgaben erzeugen scharfe, synchronisierte Leistungssprünge. Ganze Cluster können zu Beginn eines Trainingslaufs auf nahezu maximale Auslastung hochfahren und wenige Augenblicke später teilweise in den Leerlauf gehen, wenn Datenpipelines, Synchronisationsbarrieren oder Modell-Checkpoints eingreifen. Die Wärmeentwicklung wird räumlich ungleichmäßig und zeitlich volatil. Zwei benachbarte Beschleuniger können bei gleichem Rack und Gehäuse völlig unterschiedliche Lastzustände aufweisen. Gleichmäßige Kühlung, einst ein Vorteil, wird zur Belastung. Kühlung muss nun gezielt, reaktionsschnell und dynamisch erfolgen.

Die Antwort der Branche ist eine deutliche Verschiebung hin zur direkten Flüssigkeitskühlung am Chip. Statt Luft zu verwenden, um die thermische Lücke zwischen Silizium und Raum zu überbrücken, montieren Ingenieure Kühlplatten direkt auf CPUs und GPUs. Ein Kühlmedium strömt durch fein bearbeitete Mikrokanäle in diesen Platten und nimmt die Wärme unmittelbar an der Quelle auf, bevor sie sich im Gehäuse und in benachbarten Komponenten ausbreiten kann. Die physikalischen Vorteile sind eindeutig. Flüssigkeiten besitzen eine um Größenordnungen höhere volumetrische Wärmekapazität als Luft sowie eine deutlich bessere Wärmeleitfähigkeit. Sie können mehr Energie bei geringerer Temperaturerhöhung und mit wesentlich geringerem Volumenstrom abführen. Vor allem jedoch reduziert sich der thermische Widerstand zwischen Silizium und Kühlmedium erheblich. Dadurch wird nicht nur mehr Wärme abgeführt, sondern auch eine präzisere Temperaturregelung möglich. Der Raum wird zweitrangig. Die Schnittstelle zwischen Chip und Kühlmittel wird entscheidend.

Diese Verschiebung verändert auch die Prioritäten im Systemdesign. Statt große Luftmengen durch weite Volumina zu bewegen, konzentrieren sich Ingenieure darauf, Temperaturgradienten an der Chipoberfläche zu minimieren und Sperrschichttemperaturen in einem engen, vorhersehbaren Bereich zu halten. Die Vorlauftemperaturen können dabei oft höher liegen als in luftgekühlten Anlagen, was die Gesamteffizienz verbessert, ohne die Sicherheit des Siliziums zu gefährden. Lüfterleistung wird auf Serverebene reduziert oder entfällt ganz. Doch diese Gewinne bringen neue Komplexität mit sich.

Direkte Flüssigkeitskühlung löst das Problem des Wärmeübergangs, führt jedoch ein Regelungsproblem ein: KI-Workloads sind ungleichmäßig, und die Kühlleistung muss der Rechenlast folgen. Innerhalb eines Racks können einige Beschleuniger dauerhaft unter Volllast laufen, während andere zeitweise im Leerlauf sind oder Lastspitzen zeigen. Die Wärmeentwicklung ist nicht nur räumlich, sondern auch zeitlich lokalisiert. Kühlsysteme müssen entsprechend reagieren. In der Praxis geschieht dies über geschlossene Flüssigkeitskreisläufe mit Verteilerstrukturen, drehzahlgeregelten Pumpen und dichten Sensornetzen. Temperatursensoren nahe am Silizium melden Ein- und Austrittstemperaturen. Regelsysteme passen Durchflussmengen, Vorlauftemperaturen und Pumpenleistung an, um die Sperrschichttemperaturen unterhalb der Drosselgrenzen und innerhalb eines engen Zielbandes zu halten. In manchen Architekturen wird der Durchfluss über kalibrierte Drosseln ausbalanciert, in anderen kommen aktive Ventile oder softwaregestützte Strategien zum Einsatz. Kühlung ist keine passive Infrastruktur mehr, sondern ein aktiv geregeltes System mit dem Ziel thermischer Stabilität – nicht bloß der Wärmeabfuhr.

Thermische Transienten erschweren die Lage weiter. Steigt die Last rasch an, erhöht sich die Wärmeentwicklung schneller, als das Kühlmittel reagieren kann. Die thermische Trägheit des Kreislaufs führt zu Verzögerungen. Eine Überkorrektur kann zu Schwingungen und unnötigem Pumpenergieverbrauch führen, eine Unterkorrektur zu Drosselung und Leistungsverlust. Die Herausforderung besteht nicht nur darin, Wärme zu entfernen, sondern dies gleichmäßig und vorhersehbar zu tun, um die Leistungsfähigkeit des Siliziums zu erhalten und gleichzeitig Energie zu sparen. Im großen Maßstab ähnelt KI-Kühlung zunehmend der Prozessregelung in industriellen Anlagen und weniger einer klassischen Gebäudeklimatisierung.

Einige Betreiber gehen noch näher an das Silizium heran und setzen auf Immersionskühlung. Ganze Leiterplatten oder sogar komplette Server werden in ein dielektrisches Fluid getaucht. Luft entfällt vollständig. Die Temperaturgleichmäßigkeit verbessert sich deutlich, Hotspots werden reduziert, Lüfterenergie verschwindet. Aus Sicht der Wärmedichte auf Chip-Ebene und der Temperaturstabilität ist Immersionskühlung elegant und technisch überzeugend. Sie vereinfacht bestimmte Aspekte des Serverdesigns und ermöglicht Leistungsdichten, die mit Luft praktisch nicht realisierbar wären.

Doch Immersionskühlung beseitigt die Wärme nicht; sie verändert lediglich das Transportmedium. Die vom Fluid aufgenommene Wärme muss weiterhin über Wärmetauscher an einen Sekundärkreislauf übertragen und schließlich an die Umgebung abgegeben werden. Sehr zum Unmut jener, die auf einfache Lösungen hoffen, bleibt dieser letzte Schritt unvermeidlich. Die Systemgrenze verschiebt sich lediglich.

An diesem Punkt – und erst an diesem Punkt – wird Wasser entscheidend. Die Flüssigkeit, die über Chips oder in Immersionsbädern zirkuliert, verbraucht selbst kaum Wasser. Diese internen Kreisläufe sind geschlossen und weitgehend verlustfrei. Wasser tritt erst in der letzten Stufe der Wärmeabgabe auf. Für große, kontinuierlich ausgelastete KI-Rechenzentren bleibt die Verdunstungskühlung die effizienteste Methode zur Wärmeabfuhr. Kühltürme nutzen die Verdampfungsenthalpie des Wassers und ermöglichen so die Abführung enormer Wärmemengen bei relativ kleinen Temperaturdifferenzen. Die Thermodynamik ist unerbittlich und effektiv. Sie ist jedoch wasserintensiv. Deshalb wird berichtet, dass große KI-Anlagen drei bis vier Millionen Gallonen Wasser pro Tag verbrauchen, was mehreren tausend Acre-Foot pro Jahr entspricht. Dieses Wasser kehrt nicht in das Einzugsgebiet zurück, aus dem es entnommen wurde; es entweicht als Dampf. Strom kann anderswo erzeugt und übertragen werden. Wasser nicht.

Immersionskühlung wird bisweilen als Ausweg aus dieser Begrenzung betrachtet. In der Realität verschärft sie diese oft sogar. Immersionssysteme arbeiten häufig mit höheren Fluidtemperaturen, was die interne Effizienz steigert, die Wärme jedoch in wärmeren Abströmungen konzentriert. Eine direkte Einleitung in Seen oder Flüsse würde sofort auf thermische Einleitgrenzen stoßen, die dem Schutz aquatischer Ökosysteme dienen – Grenzen, die Kraftwerksbetreibern seit Langem vertraut sind. Selbst moderate Temperaturerhöhungen können Ökosysteme stören, insbesondere in warmen Perioden, in denen natürliche Reserven ohnehin gering sind. Ein Gewässer zu erwärmen, damit künstliche Intelligenz schneller rechnen kann, dürfte in den meisten Rechtsräumen weder ökologisch noch politisch akzeptabel sein. Selbst wo es rechtlich zulässig wäre, würden thermische Grenzwerte schnell erreicht. Immersionskühlung umgeht die Verdunstung daher nicht. Wird sie nicht mit großen Trockenkühlsystemen kombiniert – die Investitionskosten erhöhen und die Effizienz senken –, kehrt derselbe Zielkonflikt zurück. Immersionskühlung ist hervorragend geeignet, Wärmedichten auf Chip-Ebene zu beherrschen und Temperaturgleichmäßigkeit zu verbessern. Sie setzt die Thermodynamik nicht außer Kraft und beseitigt keine Wasserrestriktionen.

Rechenzentrumskühlung bedeutete einst, Lufttemperaturen in großen Volumina zu managen. Heute bedeutet sie, Sperrschichttemperaturen in Tausenden dynamisch belasteter Siliziumbauelemente – oft innerhalb weniger Grad – in Echtzeit zu regeln. Die Kühlung ist vom Raum zum Rack und vom Rack zum Chip gewandert. Doch die letztendliche Grenze bleibt die Umwelt. Wärme muss abgeführt werden, und diese Abfuhr hat Konsequenzen. Generative KI mag in der Cloud operieren, doch ihre Grenzen werden in Mikrometern gesetzt – dort, wo Silizium auf Kühlmittel trifft – und an weit weniger abstrakten Orten: in Reservoirs, Flüssen, Genehmigungsverfahren und Wasserrechten.

In einer leicht augenzwinkernden Wendung zeigt sich am Ende: Auch die Cloud ist auf Wasser angewiesen.

KIWasser verbrauchChip-kuehlenDatazentren

Tim Kennedy

Die Kühlung des digitalen Gehirns: Warum generative KI eine Revolution der Flüssigkeitskühlung auf Chip-Ebene erzwingt

Wenn Vorstellungskraft Wirklichkeit wird: Ein hoffnungsvoller Gegenpunkt zu den Befürchtungen rund um Sora