KI-Inferenz-Workloads brauchen keine GPU

Illustration Absmeier foto freepik genki

Es ist unbestritten, dass die Entwicklung von KI eine der größten Herausforderungen unserer Zeit ist. Laut Next Move Strategy Consulting wird der Markt für KI-Technologien im Jahr 2023 rund 200 Milliarden US-Dollar betragen und bis 2028 auf über 1,8 Billionen US-Dollar anwachsen.

Zumindest im letzten Jahr konzentrierte sich der größte Teil dieses Marktes auf das KI-Training, bei dem Hochleistungs-GPU-Produkte eingesetzt wurden, um Modelle zu entwickeln und für den Einsatz vorzubereiten. Jetzt, da diese Modelle trainiert und eingesetzt werden, ist der Markt bereit für die nächste Phase der KI, dem sogenannten »Inferencing«. Tatsächlich ist dieser Wandel bereits im Gange – eine aktuelle Schätzung von D2D Advisory besagt, dass KI-Inferencing heute 85 Prozent der KI-Landschaft ausmacht, während KI-Training nur 15 Prozent des aktuellen Marktes belegt.

Diese Zunahme des KI-Inferencing erfordert ein grundlegendes Umdenken in Bezug auf die Rechenleistung, die für diese Arbeitslasten verwendet werden sollte. Während GPUs für ihre KI-Trainingsfähigkeiten sehr geschätzt werden, ist die Verwendung dieser Prozessoren für KI-Inferencing nicht die beste Wahl. Der Wechsel zu CPUs und der Verzicht auf GPUs für Inferencing wird dazu beitragen, den Energieverbrauch der Rechenzentren in unseren Netzwerken zu senken, eine bessere Leistung zu erzielen und eine leichter zugängliche, kosteneffiziente und skalierbare Lösung anzubieten.

  1. Unsere Energienetze können die Nachfrage nach KI-Inferenz mit GPUs nicht decken

Nach Angaben der Internationalen Energieagentur werden Rechenzentren im Jahr 2022 etwa 2 Prozent des weltweiten Energieverbrauchs ausmachen. Dieser Anteil könnte sich bis 2026 auf 4,6 Prozent mehr als verdoppeln, wenn man bedenkt, dass die KI-Branche bis 2023 voraussichtlich mindestens zehnmal so viel Energie verbrauchen wird.

Während der Energiebedarf steigt, nimmt der Zugang zu Energie ab, insbesondere in Europa. Die Strompreise in der Region haben vor kurzem Rekordhöhen erreicht, und in England wurden bereits Moratorien für Rechenzentren verhängt, da die Nachfrage die im Netz verfügbare Energie überstieg.

In diesem schwierigen Umfeld wird der Einsatz zusätzlicher, energieintensiver GPUs für KI-Inferenzlasten die Nachhaltigkeitsproblematik weiter verschärfen. Durch den Einsatz von CPUs – insbesondere Cloud-nativen CPUs, die speziell für diese Art von Arbeitslasten entwickelt wurden – können wir mehr Leistung aus unseren bestehenden Rechenzentren und Stromverbrauchsflächen herausholen, anstatt neue Gebäude und zusätzliche Stromquellen zu benötigen.

  1. GPUs sind zu rechenintensiv für KI-Inferenzanwendungen

Grafikprozessoren verbrauchen nicht nur mehr Strom, sondern sind auch für viele Inferenzanwendungen der KI zu rechenintensiv. Da Inferenzanwendungen weniger anspruchsvolle Workloads darstellen und nicht die Rechenleistung eines Grafikprozessors benötigen, ist die Verwendung von Grafikprozessoren für diesen Zweck vergleichbar mit dem Kauf eines Sportwagens für die morgendliche Fahrt zur Arbeit – es ist mehr, als man braucht. Bei der Verwendung eines Grafikprozessors für Inferenzen wird in der Regel nur ein kleiner Teil der Kapazität des Grafikprozessors genutzt. Da GPUs mehr Strom verbrauchen und teurer sind, spart der Ersatz des Grafikprozessors durch eine CPU in diesen Fällen Strom, Platz und Kosten. In vielen Fällen führt dies auch zu einer besseren Leistung, Erschwinglichkeit und Energieeffizienz.

Zur Einordnung: Bei der Ausführung des Whisper-Modells von OpenAI bieten CPUs bis zu 2,9-mal mehr Leistung als eine Reihe von GPU-basierten Lösungen. Je nach vergleichbarer GPU-Lösung verbrauchen sie auch deutlich weniger Strom pro Schlussfolgerung.

  1. CPUs sind leicht zugänglich und kostengünstiger, um die Anforderungen der KI-Inferenz zu erfüllen

GPUs sind unglaublich knapp und schwer zu bekommen. Teilweise aufgrund dieser Knappheit sind sie auch sehr teuer. Nach Angaben des Wall Street Journal hat die KI-Branche im vergangenen Jahr 50 Milliarden Dollar für GPUs ausgegeben, die für das Training fortgeschrittener KI-Modelle verwendet werden, aber nur 3 Milliarden Dollar Umsatz erzielt. Da 85 Prozent der KI-Arbeitslasten auf KI-Inferenz entfallen, wird diese Diskrepanz zwischen Aufwand und Ertrag für die meisten Unternehmen schnell untragbar, wenn sie für diese Arbeitslasten GPUs einsetzen.

Im Gegensatz zu GPUs sind CPUs heutzutage leicht verfügbar. Sie können von OEMs für den Einsatz vor Ort erworben oder über eine öffentliche Cloud von einer Vielzahl von Cloud-Dienstleistern bezogen werden. Außerdem sind sie deutlich kostengünstiger. Ein Rack mit vier DGX H100 kann beispielsweise mehr als 41 kW pro Rack verbrauchen und kostet etwa 1,5 Millionen US-Dollar. Dies steht in krassem Gegensatz zu erschwinglicheren und nachhaltigeren CPU-Alternativen für KI-Inferenz. Beispielsweise kann ein einzelnes Rack mit 40 CPUs mit 128 Kernen ein Rack mit vier DGX H100 um 19 Prozent in Bezug auf den Inferenzdurchsatz übertreffen, bei einem Verbrauch von weniger als 15 kW pro Rack und Kosten von etwa 290.000 US-Dollar.
GPU-frei ist die klare Wahl für KI-Inferenz

Während GPUs eine gute Wahl für das KI-Training sind, muss die Industrie ihre Computing-Lösungen für die KI-Inferenzierung überdenken, um die für die Inferenzierung erforderliche Größe zu erreichen. CPUs bieten eine höhere Leistung für diese Arbeitslasten bei geringerem Stromverbrauch und niedrigeren Kosten und sind die klare Wahl für die nächste Phase der KI-Ära.

Jeff Wittich, Chief Product Officer, Ampere

 

 

KI-Inferenz: Der Schlüssel zur Anwendung von künstlicher Intelligenz

 

Künstliche Intelligenz (KI) hat die Art und Weise, wie wir arbeiten, lernen und unser tägliches Leben gestalten, revolutioniert. Ein zentraler Aspekt der KI, der diese Fortschritte ermöglicht, ist der Prozess der KI-Inferenz. Aber was genau ist KI-Inferenz und warum ist sie so wichtig?

KI-Inferenz bezieht sich auf den Prozess, bei dem ein trainiertes maschinelles Lernmodell verwendet wird, um Schlussfolgerungen aus neuen, unbekannten Daten zu ziehen [1]. Dies ist der Schritt, der auf das Training des Modells folgt, bei dem es anhand von Beispieldaten lernt, Muster und Zusammenhänge zu erkennen. Nachdem das Modell ausreichend trainiert wurde, kann es seine »Intelligenz« anwenden, um Vorhersagen zu treffen oder Entscheidungen zu treffen, wenn es mit neuen Daten konfrontiert wird.

Ein einfaches Beispiel für KI-Inferenz könnte ein E-Mail-Filter sein, der darauf trainiert wurde, Spam von regulären Nachrichten zu unterscheiden. Nach dem Training kann das Modell neue E-Mails analysieren und mit hoher Genauigkeit vorhersagen, ob es sich um Spam handelt oder nicht. Ein weiteres Beispiel ist ein autonomes Fahrzeug, das Stoppschilder erkennen kann, selbst wenn es auf eine Straße trifft, die es zuvor noch nie befahren hat [2].

Die Fähigkeit zur KI-Inferenz ist entscheidend für praktisch alle realen Anwendungen von KI. Von der Spracherkennung über die prädiktive Analyse bis hin zur Cybersicherheit ermöglicht die KI-Inferenz Maschinen, intelligent auf neue Situationen zu reagieren und menschenähnliche Entscheidungen zu treffen. Dies eröffnet unzählige Möglichkeiten für Innovationen in verschiedenen Branchen.

Die Qualität der KI-Inferenz hängt stark von der Qualität des Trainings ab. Je besser ein Modell trainiert ist, desto genauer und zuverlässiger sind seine Inferenzen. Allerdings ist es wichtig zu beachten, dass kein KI-Modell perfekt ist und Fehler immer möglich sind. Daher ist es entscheidend, KI-Systeme kontinuierlich zu überwachen und zu verbessern, um ihre Leistung und Zuverlässigkeit zu optimieren.

Zusammenfassend ist die KI-Inferenz ein faszinierender und komplexer Prozess, der die Grundlage für die Anwendung von KI in der realen Welt bildet. Sie ermöglicht es Maschinen, aus Erfahrungen zu lernen und intelligente Entscheidungen zu treffen, die unser Leben verbessern und vereinfachen können. Mit fortschreitender Entwicklung der KI-Technologie wird die KI-Inferenz zweifellos weiterhin eine Schlüsselrolle in der Gestaltung unserer Zukunft spielen.

Genki Absmeier

 

[1]: https://www.cloudflare.com/de-de/learning/ai/inference-vs-training/ »«
[2]: https://www.allaboutai.com/de-de/ki-glossar/inferenz-ki/ »«
[3]: https://bing.com/search?q=Was+ist+eine+KI-Inferenz %3f »«
[4]: https://ki-echo.de/glossar/inferenz/ »«
[5]: https://www.datacenter-insider.de/was-ist-inferenz-a-670450/ »«