X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

So kriegt Ihre Data Science Struktur und effiziente Power

Unternehmen kämpfen nach wie vor mit lästigen Hindernissen, wenn es darum geht, die Expertise ihrer Datenwissenschaftler effizient für den Erfolg am Markt nutzbar zu machen. Hinderlich ist dabei so manches – von zu wenig angemessener Unterstützung für die Data Scientists bis hin zu Herausforderungen bei der Operationalisierung und Aufrechterhaltung von Modellen in der Produktion. Und dies, obwohl sich mit der Datenwissenschaft Unglaubliches erreichen lässt! Entsprechende Meldungen häufen sich ja.

 

Auf einen Blick: So kriegt Ihre Data Science Struktur und effiziente Power

Ein neues Analytics-Tool lässt Datenwissenschaftler effizienter und strukturierter Erkenntnisse gewinnen: Oracle Cloud Infrastructure Data Science.

 

Das war für uns Grund genug, Oracle Cloud Infrastructure Data Science ins Leben zu rufen. Das Ziel war dabei, die Datenwissenschaft für jedes Unternehmen auf Oracle Cloud Infrastructure gleichermaßen kooperativ, skalierbar und leistungsstark zu machen. Dieses kurze Video gibt einen Überblick über die Leistungsfähigkeit des neuen Analysewerkzeugs. Die Entwicklung fußte auf der Übernahme von DataScience.com im Jahr 2018.

Bei der Entwicklung von Oracle Cloud Infrastructure Data Science hatten wir stets die Arbeit der Datenwissenschaftler vor Augen. Das Tool unterstützt daher auf einzigartige Weise teambasierte erfolgsorientierte Aktivitäten. Denn wenn es bei Data Science um Erfolg geht, müssen Teams in jedem Schritt des Modelllebenszyklus' zusammenarbeiten: von der Erstellung der Modelle bis hin zur Bereitstellung und darüber hinaus.

 

Was ist Oracle Cloud Infrastructure Data Science?

Oracle Cloud Infrastructure Data Science macht Datenwissenschaft strukturierter und effizienter – vor allem durch folgende Features:

Zugang zu Daten und Open-Source-Tools

Hinsichtlich Datenquellen sind wir eigentlich indifferent. Ihre Daten können sich auf dem Autonomous Data Warehouse, auf der Objektspeicherung, in der MongoDB oder sogar in einer Elasticsearch-Instanz auf Azure oder AWS Redshift befinden. Es ist uns egal, wo sich die Daten befinden; unser Zielt ist, dass Sie Zugang zu Ihren Daten haben und so Ihren Job gut machen können.

Mit Oracle Cloud Infrastructure Data Science können Sie das Beste aus dem Open-Source-Kosmos nutzen, einschließlich …

  • Werkzeuge und Sprachen wie Python und JupyterLab
  • Visualisierung wie Plotly und Matplotlib
  • Bibliotheken für maschinelles Lernen wie TensorFlow, Keras, SciKit-Learn und XGBoost
  • Versionskontrolle mit Git

 

Fähigkeit zur Nutzung von Compute-on-Demand

Wir stellen Ihnen die Client-Konnektoren zur Verfügung, die Sie für den Zugriff auf Ihre Daten benötigen, außerdem ein konfigurierbares Volume, um diese Daten in Ihrer Notebook-Computerumgebung zu speichern.

Hinzu kommt: Sie können auch auswählen, wie viel Rechenleistung zur Verfügung steht, um Ihr Modell auf der Oracle Cloud Infrastructure zu trainieren. Vorerst können Sie kleine und große virtuelle CPU-Maschinen auswählen. Und demnächst werden wir GPUs hinzuzufügen.

 

Gemeinschaftliche Arbeitsabläufe

Teamarbeit ist für uns wirklich ein großes Ding – warum? Wir sind überzeugt, dass Data Science nur dann wirklich erfolgreich wird, wenn der Schwerpunkt darauf liegt, Teamarbeit effizient und zielgerichtet zu strukturieren. Dafür haben wir alles nur Denkbare getan.

Datenwissenschaftler können hier in "Projekten" arbeiten, bei denen von einer erhöhten Warte aus Abläufe leicht zu erkennen sind. Außerdem können sie datenwissenschaftliche Ressourcen gemeinsam nutzen, wiederverwenden und die Modelle ihrer Kollegen testen.

 

Einsatz von Modellen

Der Einsatz von Modellen ist nicht selten etwas herausfordernd. Einfacher wird die Sache mit Oracle Functions in der Oracle Cloud Infrastructure: Damit erstellen Sie eine Modellfunktion für maschinelles Lernen, die von jeder Anwendung aus aufgerufen werden kann. Das ist eines von vielen möglichen Bereitstellungszielen – vollständig verwaltet, hoch skalierbar und bedarfsgerecht.

 

Was läuft bei Oracle Cloud Infrastructure Data Science anders?

Mit wachsender Popularität von Datenwissenschaft und maschinellem Lernen sind auch haufenweise Produkte auf den Markt gekommen, die Unterstützung versprechen. Was macht nun bei Oracle Cloud Infrastructure Data Science den Unterschied aus?

Zunächst einmal kommt hier nicht etwa irgendein Analysewerkzeug, in das ein paar Machine-Learning-Features eingebaut wurden. Und es ist auch keine Anwendung, die einfach KI-Fähigkeiten über verschiedene Produkte hinweg bietet.

Vielmehr ist Oracle Cloud Infrastructure Data Science eine Plattform, die für den sattelfesten Datenwissenschaftler von heute entwickelt wurde. Und sie wurde von Datenwissenschaftlern gebaut, die eine Plattform suchten, um damit ihre komplexe Arbeit besser erledigen zu können. Es ist keine Drag-and-Drop-Schnittstelle. Sie ist für Datenwissenschaftler gedacht, die Code in Python schreiben und hohe Leistungskapazitäten benötigen, um richtige DataScience Projekte umzusetzen.

 

Oracle Cloud Infrastructure Data Science ist das Richtige für Sie, wenn Sie:

  • ein Team haben und die Vorteile einer zentralisierten Arbeit erkennen;
  • Python gegenüber Drag-and-Drop-Schnittstellen bevorzugen;
  • die Vorteile der Oracle Cloud mit einfachem Zugriff auf Ihre Daten nutzen möchten.

 

Ebenso ist das Tool für Sie geeignet, wenn Sie Bedarf haben für …

  • die Fähigkeit, große Modelle auf großen Datenmengen zu trainieren, auch mit minimaler Infrastrukturerfahrung;
  • ein System zur Bewertung und Überwachung von Modellen während ihres gesamten Lebenszyklus';
  • verbesserte Produktivität durch Automatisierung und rationalisierte Arbeitsabläufe;
  • Ressourcen zur Bereitstellung von Modellen für unterschiedliche Anwendungsfälle;
  • Ressourcen für die Zusammenarbeit mit Teammitgliedern in einer Unternehmensorganisation,
  • eine nahtlose, integrierte Oracle-Cloud-Infrastruktur-Benutzererfahrung.

 

Wie funktioniert Oracle Cloud Infrastructure Data Science?

Oracle Cloud-Infrastruktur-Datenwissenschaft umfasst:

Projekte zur Zentralisierung, Organisation und Dokumentation der Arbeit eines Teams; diese Projekte beschreiben den Zweck der Arbeit und ermöglichen es den Benutzern, Notebook-Sessions und Modelle zu organisieren.

Notebook-Sessions für Python-Analysen und Modellentwicklung; die Benutzer können die Oracle Cloud Infrastructure für die Berechnung, Speicherung und Vernetzung von Python-Workloads in der Data Science einfach starten. Diese Sessions bieten einen einfachen Zugang zu JupyterLab und anderen kuratierten Open-Source-Bibliotheken für maschinelles Lernen zum Erstellen und Trainieren von Modellen.

Darüber hinaus sind diese Notebook-Sessions mit Tutorials und Anwendungsbeispielen ausgestattet, um den Einstieg zu erleichtern.

Accelerated Data Science (ADS) SDK, um allgemeine datenwissenschaftliche Aufgaben schneller, einfacher und weniger fehleranfällig zu machen. Es handelt sich um eine Python-Bibliothek, die Möglichkeiten zur Datenexploration und -manipulation, Modellerklärung und -interpretation sowie AutoML für automatisiertes Modelltraining bietet.

Model Catalog, um Modelle überprüfbar und reproduzierbar gestalten zu können. Sie können hier Modell-Metadaten (einschließlich Ersteller, Erstellungsdatum, Name und Herkunft) nachverfolgen, Modellartefakte im dienstverwalteten Objektspeicher speichern und Modelle zum Testen in Notebook-Sitzungen laden.

 

Wie hilft die Oracle Cloud Infrastructure Data Science bei der Modellverwaltung?

 

 

Der Prozess des Aufbaus eines Machine-Learning-Modells ist iterativ. Im Grunde genommen endet er nie. Die folgenden Prozess-Schritte machen deutlich, wie die Oracle Cloud Infrastructure Data Science die Verwaltung von Modellen in jeder Phase des gesamten Lebenszyklus' erleichtert.

 

Erstellen eines Modells

Die JupyterLab-Umgebung von Oracle Cloud Infrastructure Data Science bietet eine Vielzahl von Open-Source-Bibliotheken zur Erstellung von Modellen für maschinelles Lernen. Sie enthält auch das ADS-SDK (Accelerated Data Science), das APIs zur Datenaufnahme, Datenprofilierung und -visualisierung, zur automatisierten Funktionsentwicklung, zum automatisierten maschinellen Lernen, zur Modellbewertung und zur Modellinterpretation bietet. Damit haben Sie bereits alles, was in einem vereinheitlichten Python-SDK benötigt wird und bekommen in wenigen Codezeilen, was ein Datenwissenschaftler normalerweise in Hunderten von Codezeilen tun würde.

 

Trainieren eines Modells

Datenwissenschaftler können das Modelltraining über die ADS-AutoML-API automatisieren. ADS hilft Datenwissenschaftlern, die besten Datentransformationen für Datensätze zu finden. Wenn dann die Modellevaluierung anzeigt, dass das Modell produktionsreif ist, kann es für alle, die es verwenden müssen, zugänglich gemacht werden.

 

Evaluierung eines Modells

ADS hilft auch dabei, ein Modell zu evaluieren. So wird sichergestellt, dass Ihr Modell genau und zuverlässig ist. – Zum Beispiel: Welche prozentuale Genauigkeit können Sie mit dem Modell erreichen? Wie können Sie es genauer machen? Sie wollen sich ja in Ihrem Modell sicher fühlen, bevor Sie mit dem Einsatz beginnen.

 

Erklären eines Modells

Die Erklärbarkeit von Modellen wird zu einem immer wichtigeren Teil des maschinellen Lernens und der Datenwissenschaft. Kann Ihr Modell Ihnen mehr Informationen darüber geben, warum es die Entscheidungen trifft, die es trifft? Es gibt nämlich mehr und mehr EU-Regelungen rund um das Recht auf Wissen. Die DSGVO zum Beispiel besagt, dass eine betroffene Person das Recht auf eine Erklärung der durch ein Modell getroffenen Entscheidung hat. Darauf müssen Sie vorbereitet sein.

 

Einsatz eines Modells

Ein trainiertes Machine-Learning-Modell in die richtigen Systeme zu bringen, ist oft ein schwieriger und mühsamer Prozess. Aber die Oracle Cloud Infrastructure ermöglicht es Teams, Modelle als skalierbare und sichere APIs zu operationalisieren. Datenwissenschaftler können ihr Modell aus dem Modellkatalog laden, das Modell mit Oracle-Funktionen bereitstellen und den Modellendpunkt mit dem Oracle API-Gateway sichern. Dann kann die Modell-REST-API von jeder Anwendung aus aufgerufen werden.

 

Modell-Überwachung

Leider ist mit erfolgtem Einsatz eines Modells der Zug noch nicht ganz durch. Modelle müssen auch danach weiterhin kontinuierlich überwacht werden, um sauber zu laufen. Die Daten, an denen Ihr Modell trainiert wurde, sind möglicherweise nach einer Weile nicht mehr relevant für zukünftige Vorhersagen. Im Falle der Betrugsaufdeckung beispielsweise können sich die Betrüger neue Wege ausdenken, um das System zu hintergehen – dann ist das Modell nicht mehr so treffsicher. Oracle Cloud Infrastructure Data Science wird Datenwissenschaftlern zukünftig Werkzeuge zur Verfügung stellen, mit denen sie die Performance des Modells leicht überwachen können. Es wird also einfacher, die Modellgenauigkeit über die Einsatzzeit hinweg zu überwachen.

 

Fazit

Oracle Cloud Infrastructure Data Science ist ein Service, bei dem Teams von Datenwissenschaftlern zusammenarbeiten können, um geschäftliche Herausforderungen zu lösen und die neuesten und besten Möglichkeiten der Oracle Cloud-Infrastruktur zu nutzen, damit sie ihre Modelle in der Cloud elegant erstellen, trainieren und implementieren können.

Das Tool ist Teil der Daten- und KI-Plattform von Oracle, die es einfach macht, Ihre Daten zu integrieren, zu verwalten und die Leistungsfähigkeit der Datenwissenschaft und des maschinellen Lernens für optimierte Geschäftsergebnisse zu nutzen.

Mit Oracle Cloud Infrastructure Data Science ist es für Datenwissenschaftler einfacher als je zuvor, mit den gewünschten Tools und Bibliotheken zu arbeiten und einen besseren Zugriff auf alle Daten in der Oracle Cloud Infrastructure und darüber hinaus zu erhalten.

Verpassen Sie nie ein Update zur Datenwissenschaft! Wir stellen Ihnen Oracle Data Science auf Twitter vor – folgen Sie ab heute @OracleDataSci, um die neuesten Updates zu erhalten!

 

 

Kontakt:

Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-MailLinkedInXing oder Twitter. Cesar Ortiz, Principal Solution Engineer.

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.