X

Neuigkeiten, IT-Strategien und
Expertenwissen von Oracle aus der DACH-Region

High Performance Computing in der Cloud gewinnt an Bedeutung

Handlungsempfehlungen für KI-Simulationen und datenintensive Berechnungen in der Cloud

Autor: Gerhard Schlabschi, Director Technology und Cloud Computing, Oracle EMEA

Ob in der Automobilindustrie, bei Wettervorhersagen, in der medizinischen Forschung oder bei Animationsfilmen: Es gibt immer mehr Einsatzfelder und Entwicklungsszenarien, die ohne High Performance Computing (HPC), also Hochleistungsberechnungen, nicht realisierbar wären. Geht es um die Analyse, Modellierung oder Simulation komplexer Systeme oder die Verarbeitung großer Datenmengen, setzen viele auf HPC. Ein Trend ist diesbezüglich HPC aus der Cloud, da hierbei keine eigene IT-Infrastruktur vorausgesetzt wird, und es besonders skalierbar und flexibel ist. Das Problem: Dem Hochleistungsrechnen in der Public Cloud stehen viele Anwender mit Vorbehalten gegenüber, denn sie erwarten Kompromisse und Lücken im Angebot. Das muss nicht sein, wenn die Erwartungen an Leistung und Zuverlässigkeit durchdacht und kosteneffizient mit den Chancen der Cloud, Flexibilität und Skalierbarkeit vereint werden.  

Die Anforderungen an Infrastruktur, Rechenleistung und Flexibilität bei High Performance Computing sind in den vergangenen Jahren kontinuierlich gestiegen. Die heute nötigen Rechenkapazitäten sind so hoch, dass diese durch On-Prem-Lösungen kaum noch zu bewältigen sind. Einige Beispiele aus der jüngsten Vergangenheit zeigen aber eindrücklich, warum die Verfügbarkeit von HPC für Wissenschaft, Gesellschaft und Unternehmen so wichtig ist. So nutzen im Oak Ridge National Laboratory Wissenschaftler der Biotech-Firma BERG etwa den Summit-Supercomputer des Labors – den zweitschnellsten der Welt – um Arzneimittelverbindungen zu analysieren, die Infektionen mit COVID-19 verhindern könnten. Auch das Forschungszentrum Jülich setzt auf einen flexiblen und energieeffizienten Supercomputer, den das renommierte Institut gemeinsam mit Partnern und dem US-Hersteller NVIDIA entwickelt hat. Das JUWELS genannte System ist aktuell der schnellste Supercomputer in Europa und auf Platz 7 der Welt. Er wird ebenfalls für die Forschung an COVID-19-Medikamenten genutzt, steht aber grundsätzlich Forschern aller Disziplinen mit seiner enormen Rechenkapazität zur Verfügung.

Cloud-HPC als Alternative zu eigenen Hardware-Investitionen

Flexible HPC-Kapazitäten in Public Clouds machen Unternehmen und Forschern mittlerweile Rechenleistungen verfügbar, die bisher nur Supercomputer realisieren konnten. Leistungshungrige KI-Arbeitslasten und Simulationen sind mit Cloud-HPC schon lange keine Zukunftsmusik mehr. Eine Studie von Hyperion Research geht davon aus, dass der weltweite Markt für Hochleistungs-Computer-Hardware, -Software und -Services bis 2024 ein jährliches Wachstum von 6,2 Prozent erreichen wird. Einer der größten Treiber dieser Entwicklung ist dabei Cloud-basiertes HPC. Public Clouds ermöglichen es Ingenieuren und Wissenschaftlern, Herausforderungen mit fortschrittlichen Chip-Architekturen und anderen innovativen Technologien zu begegnen, ohne große Investitionen in Hardware tätigen oder lange Wartezeiten in Kauf nehmen zu müssen.

Aufgrund dieses Trends statten immer mehr Anbieter ihre Clouds mit Hochgeschwindigkeitsnetzwerken aus, die KI-intensive Arbeitslasten unterstützen. Im Vordergrund stehen hierbei Leistung, Geschwindigkeit und Flexibilität.

Einfacher innovative und nachhaltige Services entwickeln

Wie der Cloud-Einsatz bei Hochleistungsberechnungen in der Praxis aussehen kann, zeigt etwa Nissan Motos in Japan, die bei Computational Fluid Dynamics (CFD), Crash-Simulationen und 3D-Visualisierungsworkloads auf die Cloud setzen. Ähnliches gilt für Altair Engineering, die interne Aufgaben und kundenorientierte SaaS-Dienste in die Cloud geführt haben. Sam Mahalingam, CTO bei Altair, kommentiert: „Wir wollen unseren Kunden helfen, komplexe Probleme schneller, einfacher und intelligenter zu lösen. Die Cloud erleichtert es unseren Kunden, innovative und nachhaltige Produkte zu entwickeln.“

Durch folgende Entwicklungen hält Cloud-HPC weitere Vorteile für Anwender bereit:

1.     Verlässlich hohe Leistung

Workloads wie Crash-Simulationen, CFD und Electronic Design Automation (EDA)-Lasten werden künftig immer mehr Leistung nötigen – dies gilt insbesondere mit Blick auf die derzeitige Generation an verfügbaren HPC-Instanzen. Führende Anbieter stellen Anwendern in Instanzen heute als Bare-Metal-Lösungen, also ohne installierte Drittsoftware, zur Verfügung und bringen bestenfalls folgende Features mit:

  • Hochleistungsfähiger NVMe-Storage mit hohem I/O (Input/Output)-Durchsatz für lokales Checkpointing
  • Konfigurierbares Core-Memory-Verhältnis für Instanzen
  • Die Möglichkeit Instanzen-Cluster auf RDMA-fähigen (Remote Direct Memory Access) Cluster-Netzwerken aufzubauen.
  • Ein skalierbares Hochleistungsdateisystem, das die Erstellung große verteilte Speichercluster für unterschiedliche Berechnungen erlaubt.

2.     Leistungssteigerungen durch Cloud-basierte GPU-Instanzen

Sogenannte Graphic Processing Units (GPUs) kommen im HPC-Umfeld schon seit vielen Jahren erfolgreich zum Einsatz. Die ursprünglich für Grafikberechnungen konzipierten Prozessoren dienen heute als hochleistungsfähige Beschleuniger für Berechnungen aller Art. In Supercomputern und im Public Cloud-Umfeld unterstützen insbesondere GPU-Lösungen des Marktführers NVIDIA HPC-Workloads, die meist in Echtzeit ausgeführt werden. Beispiele sind Deep Learning Training oder hardwarebeschleunigte Visualisierungen.

Als Bare-Metal-Instanz bereitgestellt, fügt sich die GPU etwa in die Cluster-Netzwerkarchitektur ein und ermöglicht es Anwendern, in einem einzigen Cluster für groß angelegtes KI-Training oder HPC-Workloads zu skalieren. Instanzen mit bis zu 512 NVIDIA GPUs sind dabei theoretisch möglich. Hierbei ist auf die Bandbreite pro Bare-Metal-Knoten zu achten, um ein ausgewogenes Verhältnis sicherzustellen. Zu viele GPUs können am mangelnden Datendurchsatz verhungern und einfach nur die Kosten für Anwender in die Höhe treiben. Für eine maximale Leistung ist es wichtig, dass die GPUs innerhalb der Instanzen vollständig untereinander verbunden sind und eine direkte Anbindung eines großen lokalen NVMe-Speichers besteht. So wird die Beschleunigung großer Workloads oder Datenbanken nicht ausgebremst. Kerem Sozugecer, Mitbegründer und CTO von DeepZen Limited, berichtet in diesem Zusammenhang: „Die Nachbildung der menschlichen Stimme mithilfe künstlicher Intelligenz ist in hohem Maße von Rechenleistung abhängig.“ Daher sei eine Cloud-Infrastruktur notwendig, die sofortige Leistungssteigerungen ermögliche, etwa mithilfe der neuen NVIDIA A100 GPU, um so das Geschäft zu skalieren. Nur GPUs auf höchstem Niveau können die Echtzeitanalysen und -einblicke gewährleisten, die heute vielerorts dringend notwendig sind. Damit nicht genug, denn die Cloud-Infrastruktur sollte nicht nur mit Leistung, sondern auch mit Geschwindigkeit punkten, um Workloads schnell aktiv zu schalten.

3.     Mit ARM von Hardware-Innovationen profitieren

Die Verbreitung ARM-basierter Anwendungen steigt stetig. Die ARM-Architektur wird in den kommenden Jahren dem traditionellen x86-Befehlssatz weiter Marktanteile abnehmen, denn sie bietet potenziell hohe Leistungsfähigkeit bei geringerem Ernergieverbrauch. Erst kürzlich hat der US-amerikanische Hersteller Apple damit begonnen, seine Hard- und Software auf ARM-basierte Lösungen umzustellen – ein Meilenstein in der Computertechnologie. Für Entwickler sind ARM-basierte Recheninstanzen daher schon heute eine gute Alternative, um zu diversifizieren und um von Hardware-Innovationen zu profitieren. ARM-Angebote für die Cloud sind daher ein weiteres Feld, das Beachtung finden sollte. Ratsam ist eine Option, Bare-Metal- oder virtuelle Maschineninstanzen mit vielen Cores und hoher Turbofrequenz auf einer Vielzahl von Linux-Distributionen starten zu können. Je nach individuellen Workload-Merkmalen und Anforderungen sollten Anwender unterschiedliche Core- oder Speicherstufen auswählen können.

4.     Shapes: Mehr Flexibilität als Grundlage zukunftsorientierter Berechnungen

Flexibilität ist ein weiterer Aspekt, der eine zukunftsorientierte HPC-Cloud-Infrastruktur auszeichnet. So sollte darauf geachtet werden, dass sich Instanzen für allgemeine Berechnungen mit einer benutzerdefinierten Anzahl von CPU-Cores und Arbeitsspeicher entwerfen lassen, um Workloads und Anwendungsanforderungen zu erfüllen. Wenn die Anwender sich sich nicht auf vorgegebene Größen festlegen müssen, können sie deutlich Ressourcen sparen. Optimal ist in diesem Zusammenhang, wenn der Infrastrukturbetreiber Anwendern die Option anbietet, benutzerdefinierte „Shapes“, also Konfigurationen, selbst zu entwerfen. Wer für eine Arbeitslast beispielsweise nur zwei Rechenkerne, aber 12 GB RAM benötigt, kann diese als benutzerdefinierte Konfiguration festlegen. Oracle als ein führender HPC-Anbieter hat mit seinen E3-Instanzen auf Basis von AMD EPYC CPUs der Rome-Architektur eine Lösung im Portfolio, die sich entsprechend konfigurieren lässt. Für Anwender stellt sie ein sehr kostengünstigstes Pro-Core-Compute-Angebot dar. Mit den 2021 startenden E4-Instanzen legt Oracle dann noch einmal nach. Diese basieren auf den AMD EPYC CPUs der Milan-Architektur und werden in puncto Leistungsfähigkeit pro Core noch einmal zulegen.

Weitere Informationen:

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.