X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Letzte Posts

Business Analytics

Machine Learning-Modelle verwenden und verstehen mit ADW & OAC – so geht´s!

Analyse-Systeme werden heute immer wichtiger, die Funktionsumfänge immer umfangreicher und die verbundenen Auswertungsmöglichkeiten immer business-kritischer. Nachdem die traditionelle IT-zentrische Business Intelligence durch Self-Service Analytics ergänzt wurde, ist derzeit der aktuellste Trend, dass sich analytische Informationssysteme durch immer mehr KI- und Machine Learning-Fähigkeiten erweitern lassen. Mein Kollege Holger Czellnik hat sich ausführlich mit dieser Thematik befasst und erläutert die Aspekte in diesem Blog-Eintrag. Gut, dass all diese Möglichkeiten Anwendern mit Oracles Analytics-Lösungen OAS (Oracle Analytics Server) und OAC (Oracle Analytics Cloud) in einer einzigen Plattform zur Verfügung stehen. Mit den Oracle-Lösungen werden Datenanalysten in die Lage versetzt, in der Analytics-Umgebung eigenständig und ohne Programmieraufwände Machine Learning Modelle zu trainieren und anzuwenden. Zusätzlich - und das ist neu - haben Analysten auch die Möglichkeit, von Data Scientists erstellte Machine Learning Modelle zu verwenden und zu verstehen (Model Explainability): und dies ist sogar kostenfrei möglich mittels Oracle Machine Learning (OML) in Oracle´s autonomer Datenbank. Oracle Machine Learning bereits in der autonomen Datenbank Oracle verfolgt den Ansatz, Machine Learning bereits in der Datenbank auszuführen - genau da wo die Daten anzutreffen sind! Das hat den Vorteil, daß Sie unnötige und performance-fressende Datenbewegungen eliminieren und gleichzeitig von der Skalierbarkeit der Oracle Datenbank und bewährten Security-Mechanismen profitieren können. Frei nach dem Motto: "Move the algorithm and not the data". Mit der autonomen Datenbank wird eine Notebook-Umgebung bereitgestellt, in der Data Scientists die datenbankinternen Machine Learning Algorithmen verwenden können. Aber wie funktioniert das in der Praxis? Wollen wir diese ML Algorithmen doch einfach mal anhand eines fiktiven Beispiels durchführen: stellen Sie sich vor, wir sitzen in der Personalabteilung eines Unternehmens und wollen herausbekommen, wie hoch die potentielle Mitarbeiter-Fluktuation anhand bestimmter Vorhersagemodelle ist. Lassen wir das Spiel beginnen Wir haben von der IT einen Datensatz aller Mitarbeiter der vergangenen 10 Jahre bekommen. Dieser Datensatz enthält für jeden Mitarbeiter neben Informationen wie Vorname, Nachname, Alter, Geschlecht, Familienstand, uvm. auch das Feld "Attrition", welches Auskunft darüber gibt, ob der Mitarbeiter das Unternehmen verlassen hat (Attrition = Yes) oder nicht (Attrition = No). Abbildung 1: Die IT hat einen Datensatz aller Mitarbeiter bereitgestellt Interessant wäre es, wenn man in den Daten einen Zusammenhang erkennen könnte, welche Attributskombinationen dazu geführt haben, dass Mitarbeiter das Unternehmen verlassen haben. Um solche Zusammenhänge herauszuarbeiten, werden mit diesen Trainingsdaten Machine Learning-Modelle mit einem Klassifizierungs-Algorithmus verwendet. In unserem Fall wäre das ein binärer Klassifizierungs-Algorithmus, da unser Zielwert, auch Label genannt, nur zwei Werte "Yes" und "No" aufweist. Ein Data Scientist im Unternehmen startet nun also mit der Erstellung eines binären Klassifizierungs-Modells unter Verwendung des Naive Bayes-Algorithmus (siehe Abbildung 2), um potentielle Vorhersagen zur Wahrscheinlichkeit einer Mitarbeiterabwanderung zu treffen. Abbildung 2: Erstellung eines binären Klassifizierungs-Modells (Wie ein Data Scientist mit eingebauten Machine Learning Algorithmen in Oracles autonomer Datenbank arbeitet, erfahrt ihr in einem kommenden Blog. Stay tuned!) Anschließend kommt die Oracle Analytics Cloud (OAC) zusammen mit der autonomen Datenbank zum Einsatz und beide fangen an zu zaubern. Registrieren von OML-Modellen in OAC Das Machine Learning-Modell steht nun in der autonomen Datenbank bereit und kann ganz einfach von Analysten per Mausklick in OAC registriert werden. Abbildung 3: Registrieren eines Machine Learning Modells in der Analytics Cloud Registrierte OML-Modelle können in einem OAC Data Flow gegen aktuelle Mitarbeiterdaten in der autonomen Datenbank angewendet und die Modellergebnisse in einer Scoringtabelle abgespeichert werden. Abbildung 4: Data Flow zum Anwenden eines Machine Learning Modells Die Ergebnisse der Scoringtabelle können anschließend wieder mit OAC ausgewertet werden. In unserem fiktiven Beispiel werden nun alle Mitarbeiter in einer Tabelle angezeigt, die mit einer Wahrscheinlichkeit von mehr als 90% abwanderungsgefährdet sind (siehe Abbildung 5). Abbildung 5: Ergebnisse der Scoring Tabelle Mit diesen Informationen könnte die Personalabteilung abwanderungsgefährdete Mitarbeiter frühzeitig identifizieren und ggf. entsprechende Gegenmaßnahmen einleiten: seien dies finanzielle Anreize, flexible Arbeitszeitmodelle oder andere Möglichkeiten der Kompensation. OML Model Explainability (XAI=Explainable Artificial Intelligence) In unserem Beispiel füttern OAC-Anwender die von Data Scientists erstellten Machine Learning Modelle mit aktuellen Mitarbeiter-Daten und erhalten als Ergebnis Informationen über abwanderungsgefährdete Mitarbeiter. Wie Machine Learning Modelle zu einem Ergebnis kommen, bleibt allerdings eine Blackbox. Damit Analysten und Fachanwender den verwendeten Machine Learning Modellen auch vertrauen können, wäre es von Vorteil, Entscheidungen eines Algorithmus nachvollziehen zu können. Auch hierbei kann OAC helfen... Zunächst einmal gibt es in OAC die Möglichkeit grundsätzliche (Meta-)Informationen über Machine Learning Modelle anzeigen zu lassen, wie z.B.: Wer hat wann das Modell erstellt? Um welche Modell-Klasse handelt es sich (hier Klassifikation)? Welcher Algorithmus wurde verwendet (hier Naive Bayes)? Auf welches Ziel-Attribut / Label wurde das Modell trainiert (hier Attrition)? Welche Eingabespalten / Features wurden verwendet (Input Columns)? Welche Ausgabeinformationen werden von dem Modell generiert (Output Columns)? Welche Parameter hat der Data Scientist dem Modell mitgegeben? Abbildung 6: Meta-Informationen zum Machine Learning Modell Besonders interessant ist die Möglichkeit mit OAC, neben den eigentlichen Ausgabewerten (Vorhersage -> hier PredictionAttrition und Wahrscheinlichkeit -> PredictionProbability), weitere Informationen durch das Machine Learning Modell generieren zu lassen: damit ist es möglich, zusätzliche tiefergehende Informationen zu betrachten. Diese Zusatzinformationen bestehen grundsätzlich aus zwei Gruppen, den Prediction Sets und den Prediction Details, die man einfach per Mausklick im OAC Data Flow aktivieren kann (siehe Abbildung 7). Abbildung 7: Prediction Sets und Prediction Details Prediction Sets liefern insbesondere für Vorhersagen von Mehrfach-Klassifikationsverfahren wichtige Erkenntnisse. Hierbei werden für jeden Datensatz - neben der wahrscheinlichsten Vorhersage auch die zweit-, dritt- und viert-wahrscheinlichsten Vorhersagewerte mit der jeweiligen  Vorhersagewahrscheinlichkeit angezeigt. Für unser Beispiel einer binären Klassifizierung mit nur zwei Vorhersagewerten sind Prediction Sets nicht relevant. Prediction Details erzeugen für die wahrscheinlichsten Vorhersage-Ergebnisse jeder Zeile eines Datensatzes eine Liste der wichtigsten Attribute, die zu dieser Vorhersage geführt haben. Es können für jeden Eintrag eines Datensatzes die fünf wichtigsten Attribute mit Namen, Gewichtung und Vorhersagewert erzeugt werden. Stellt man - wie in unserem fiktiven Beispiel der Mitarbeiter-Fluktuation - die Prediction Details in einer Tabelle zusammen, erhält man für jeden einzelnen Datensatz die wichtigsten Attribute, die zur jeweiligen Vorhersage geführt haben. Dies bietet eine maßgeschneiderte Erklärung, wie das Modell die Vorhersage für jeden einzelnen Datensatz berechnet hat (siehe Abbildung 8). Abbildung 8: Advanced Model Explanation Aggregiert man die Ausgaben der Prediction Details  erhält man sehr informative Einblicke über die Treiber der Vorhersagen. In Abbildung 9 sieht man beispielsweise an unserem fiktiven Beispiel, dass bei allen abwanderungsgefährdeten Mitarbeitern der Faktor "Alter" das wichtigste Attribut darstellt. Abbildung 9: Analyse mit Visualisierung der Prediction Details Filtert man darüberhinaus nach Familienstand = "verheiratet", erhält man ein spezielles Profiling für die Vorhersage dieser Mitarbeitergruppe. Für diese Gruppe ist das Alter dann nicht mehr von besonderer Wichtigkeit (siehe Abb. 10). Abbildung 10: Profiling für eine bestimmte Mitarbeitergruppe Wenn man also nach Teilmengen in den Daten filtert, sieht man dass sich das Profiling ändert und sich die Treiber, die zu den Vorhersagen führen, angezeigt werden. Das kann helfen, sehr zielgerichtet die Ergebnisse zu verstehen und um ggf. gezieltere Maßnahmen zu ergreifen. Vorteile von ML mit Oracle Analytics auf einen Blick Mit OAC ist es für Analysten und Fachanwender somit sehr einfach, auf professionell erstellte Machine Learning Modelle in der autonomen Datenbank zuzugreifen und diese gegen aktuelle Daten anzuwenden, um so in die Zukunft gerichtete Entscheidungsfindungen zu ermöglichen. Zudem können OAC-Anwender mit den Möglichkeiten der erweiterten Modellerklärung nachvollziehen, wie Machine Learning Modelle zu ihren Ergebnissen kommen. Das hilft Machine Learning nicht als Blackbox zu sehen, sondern mehr Transparenz in Vorhersagen zu bringen und somit Vertrauen für die von Data Scientists erstellten Modelle zu schaffen. Weitere Informationen und Kontakt: Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-Mail, LinkedIn. Holger Czellnik, Principal Cloud Specialist. Über den nachfolgenden Link können Sie sich auch auf den zugehörigen Webseiten informieren: Oracle Deutschland - Analytics

Analyse-Systeme werden heute immer wichtiger, die Funktionsumfänge immer umfangreicher und die verbundenen Auswertungsmöglichkeiten immer business-kritischer. Nachdem die traditionelle IT-zentrische...