X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Effiziente Entwicklung von Machine Learning Modellen durch den Einsatz von KI

Dank Cloud Computing kann praktisch jedes Unternehmen durch den Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) komplexe business-relevante Fragen schnell adressieren. Dabei gibt es eine immer wiederkehrende Erkenntnis: mit KI und ML lassen sich Wettbewerbsvorteile erreichen, trotzdem sich mit diesen Technologien kein "on fits all"-Ansatz verfolgen lässt.

 

Auf einen Blick: KI optimiert das Tuning von Machine-Learning-Modellen

Machine Learning Modelle: Mit effizienteren ML-Modellen verschaffen Data Scientists ihren Unternehmen entscheidende Wettbewerbsvorteile.

 

"Viele Unternehmen wollen durchaus mit ML-Techniken große Datenmengen in den Griff bekommen, aber die Projekte funktionieren oft in der Praxis nicht so gut, wie es gedacht war", sagt Nipun Agarwal, Vizepräsident für Forschung bei Oracle Labs. Das liegt zum Teil daran, dass viele Produkte, die ML-Technologie enthalten, vorgegebene Algorithmen und Methoden zur Datenverarbeitung verwenden. Die zu berücksichtigenden Daten jeder einzelnen Organisation weisen aber spezifische Merkmale auf, die möglicherweise nicht in die vorgegebene Konfiguration der Machine-Learning-Software passen.

"Jede Firma wird eigene Schwellenwerte für ihre Daten und ihre Ergebnisse haben", sagt Agarwal. "Ein allgemeiner Ansatz passt also nicht für alle. Und genau das können wir mit AutoML lösen", sagt Agarwal. AutoML übernimmt die oft arbeitsintensive Aufgabe, Machine-Learning-Modelle auszuwählen und abzustimmen. Es gibt zwar keinen Ersatz für eine geschickte Problemdefinition und Datenaufbereitung im ML-Prozess, aber AutoML übernimmt viele der sich wiederholenden Aufgaben. Das vereinfacht die Notwendigkeit, die Algorithmusparameter zu verstehen und verkürzt die erforderliche Rechenzeit für die Erstellung besserer Modelle.

 

Machine Learning ist kein Hexenwerk

Um zu sehen, wie sich AutoML in das größere Bild des maschinellen Lernens einfügt, gehen wir noch einmal einen Schritt zurück. ML ist eine Art von künstlicher Intelligenz: Ein Modell wird auf Grundlage einer Reihe von zuvor gesammelten Daten erstellt und trainiert – oft mit bekannten Ergebnissen. Wenn man dann neue Daten mit unbekannten Ergebnissen einspielt, lässt sich das Modell dazu verwenden, Vorhersagen unter Verwendung dieser Daten zu treffen. Ein Modell kann z. B. zur Segmentierung von Kunden, zur Erkennung von Anomalien oder zur Vorhersage von Verkäufen verwendet werden.

Aber Machine Learning zaubert das natürlich nicht aus dem Nichts hervor. Um genaue Ergebnisse zu erzielen, braucht man einen Data Scientist, der die Eingabedaten untersucht, das gewünschte Ergebnis zur Lösung eines Geschäftsproblems versteht und dann aus Dutzenden von mathematischen Algorithmen auswählt, die Parameter dieser Algorithmen (Hyperparameter genannt) abstimmt und die resultierenden Modelle bewerten kann.

Was passiert etwa, wenn die Ergebnisse nicht genau genug sind? Der Data Scientist kann die Hyperparameter des Algorithmus immer wieder anpassen, bis das ML-Modell die gewünschten Ergebnisse liefert, erklärt Agarwal. Wenn die Ergebnisse nicht akzeptabel sind, kann der Data Scientist sogar den Prozess erneut beginnen und einen anderen ML-Algorithmus verwenden.

An dieser Stelle kommt AutoML ins Spiel: AutoML verwendet maschinelles Lernen, um die ML-Pipeline auszuwählen und zu optimieren – eine Technik, die als Meta-Learning bezeichnet wird.

 

4 hochgradige Herausforderungen bei Machine Learning

Warum kann sich eine Technologie wie AutoML als nützlich erweisen? Hier sind vier Hauptgründe; sie hängen damit zusammen, warum es heute eine Herausforderung sein kann, einen ML-Algorithmus auszuwählen und abzustimmen.

  1. Es gibt viele bekannte Algorithmen für maschinelles Lernen, und es ist nicht immer offensichtlich, welcher Algorithmus am besten für die Erstellung von numerischer Prognosen, Anomalieerkennungs- oder Klassifizierungsmodellen für einen bestimmten Datensatz geeignet ist. In komplexen realen Situationen kann ein Data Scientist einige Wochen brauchen, um den richtigen Algorithmus auszuwählen und das mit diesem Algorithmus erstellte Modell zu verfeinern.
  2. Der Datensatz eines Geschäftsproblems kann Dutzende oder sogar Hunderte  von Variablen oder Prädiktoren enthalten, die ein Modell berücksichtigen kann. Es ist also alles andere als einfach zu sagen, welche Dateninhalte für die Entscheidungsfindung von Bedeutung sind. Dieser Prozess der Auswahl der relevantesten Informationen, die in ein ML-modell aufgenommen werden sollen, wird als "Feature Selection" (Merkmalsauswahl) bezeichnet.
  3. Es kann durchaus sein, dass es zu viele Daten gibt, und es ist schwierig zu bestimmen, welche dieser Daten für das Training eines ML-Modells verwendet werden soll. In einigen Fällen kann das Training anhand einiger Datenvariablen oder Prädiktoren die Trainingszeit verlängern und gleichzeitig die Genauigkeit des ML-Modells verringern. "Es ist nicht einfach, eine signifikante Reduzierung der Datenmenge zu erreichen, ohne die Genauigkeit zu beeinträchtigen", sagt Agarwal. Aber mit einer vorsichtigen Vorgangsweise lässt sich das erreichen.
  4. Schließlich ist die Optimierung der Funktionsweise des gewählten Algorithmus durch "Hyperparameter-Tuning" mit viel Trial and Error verbunden. Komplexe ML-Algorithmen können über ein Dutzend konfigurierbare Parameter haben, und jeder dieser Parameter kann einen großen Einfluss auf die Vorhersagegenauigkeit haben.

 

Einer der Vorteile von AutoML ist, dass man sehr schnell eine fundierte Schätzung zur Auswahl eines geeigneten ML-Algorithmus und effektiver initialer Hyperparameter bekommt, erklärt Agarwal. AutoML kann dann die Genauigkeit der gewählten Algorithmen mit diesen Parametern testen, kleinste Anpassungen vornehmen und die Ergebnisse erneut testen. AutoML kann auch die Auswahl kleiner Datenmengen automatisieren, die für diese iterativen Optimierungsprozess verwendet werden. Dadurch erzielt man in einem Bruchteil der Zeit sehr gute Ergebnisse.

"Anstatt einen Parametersatz gegen 10 Milliarden Zeilen Trainingsdaten testen zu müssen, kann AutoML gegen 0,01% dieser Daten testen, ohne die Modellgenauigkeit zu beeinträchtigen", sagt Agarwal. "Das ist 100 bis 1.000 Mal schneller für das Modell-Training, selbst bei demselben Datensatz.“

Einige Unternehmen verwenden nur ML, das in Anwendungen eingebettet ist, wie z. B. Oracle ERP Cloud und Oracle HCM Cloud; hier wird ML eingesetzt, um den Mitarbeitern dabei zu helfen, bessere Finanz- und Personalentscheidungen zu treffen. Teams, die hingegen ihre eigene ML-Modelle auf große Datensätze anwenden, benötigen die richtigen Tools, um schnell Ergebnisse zu liefern.

 

AutoML-Werkzeuge für Data Scientists

Analysten und Data Scientists können AutoML direkt innerhalb der neuen Oracle Cloud Infrastructure Data Science nutzen. Ziel des Cloud-Services von Oracle ist es, Data Science Teams eine kollaborative und effiziente Plattform für ML Projekte bereitzustellen.

Diese Plattform ist ganz auf die Verbesserung der Effektivität von Data Science Teams ausgerichtet. Die Verwendung von Automatisierungsfunktionen wie AutoML ist ein Beispiel dafür, wie diese Ausrichtung umgesetzt wird.

Die Unterstützung von Teams besteht großteils darin, dass sie die wertvollen Daten in ihren Oracle-Datenbanken, erfolgreicher nutzen können. Auch hier wird die AutoML-Funktionalität über Oracle Machine Learning for Python in Oracle Database und Oracle Autonomous Database verfügbar sein. 

"Oracle Machine Learning for Python bietet skalierbares maschinelles Lernen unter Verwendung der Oracle Datenbank als Hochleistungs-Engine", sagt Mark Hornick, Senior Director of Data Science and Machine Learning Product Management bei Oracle. "AutoML innerhalb von Oracle Machine Learning for Python automatisiert die Auswahl von Algorithmen, Features sowie die Optimierung von Hyperparametern für die datenbankinternen Klassifizierungs- und Regressionsalgorithmen.“

Diese Funktionen erhöhen die Produktivität der Data Scientists und öffnen das maschinelle Lernen auch für nicht erfahrene ML-Benutzer, sagt Hornick.

Durch die Verwendung von AutoML wird die notwenige Rechenkapazität für die ML-Modell Erstellung minimiert. "In Cloud-Umgebungen, in denen die Kosten der Rechenzeit direkt quantifiziert werden können, bietet AutoML klare Vorteile gegenüber der manuellen Auswahl und Optimierung von Algorithmen", so Hornick.

 

Um mehr über Data Science und ML für Ihr Unternehmen zu erfahren, besuchen Sie Oracle.com/data-science. Und folgen Sie uns doch auch auf Twitter @OracleDataSci.

 

Kontakt:

Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-MailLinkedInXing oder Twitter. Cesar Ortiz, Principal Solution Engineer.

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.