X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Letzte Posts

Business Analytics

So einfach bewerten und verbessern Sie die Qualität Ihrer Daten mit Analytics Cloud Data Quality Insights

Auf einen Blick Oracle Analytics analysiert mit Hilfe von "Data Quality Insights" automatisch die Datenqualität, um Sie bei der Bereinigung und Anreicherung Ihrer Daten zu unterstützen. Es analysiert Datasets und Tabellen und bietet eine visuelle Zusammenfassung in einer Kachel über jeder Spalte. Wir zeigen Ihnen in diesem Blog, wie Sie damit die Qualität Ihrer Daten bereits vor der Erstellung von Auswertungen sichten, bewerten und verbessern können.   Eigentlich ist es eine Binsenweisheit - aber das A & O bei der Erstellung von Analysen und Auswertungen ist die Qualität der zugrundeliegenden Daten. Leider bleibt uns nicht immer die Zeit, um die sonst üblichen Prozesse der Datenvalidierung und -qualitätssicherung zu durchlaufen. Trotzdem sollen die Analysen aber möglichst hochwertig ausfallen, aussagekräftig und korrekt sein. Datenaufbereitung im Self-Service Genau deswegen bietet Oracle Analytics leistungsstarke visuelle Self-Service-Datenaufbereitungsfunktionen, mit denen Benutzer Daten für die Analyse schnell und einfach bereinigen, normalisieren und anreichern können. Ich gebe Ihnen einen kurzen Überblick darüber, wie Ihnen die neuen "Data Quality Insights" einen sofortigen visuellen Überblick über alle Inhalte in jeder der Tabellen geben, aus denen Ihr Datensatz besteht. Es bietet interaktive Visualisierungen, horizontale Balkendiagramme für Textspalten und Histogramme für Zahlen- und Datumsspalten. Sie können schnell versteckte Probleme in Ihren Daten entdecken, wie z. B. Nullwerte, Rechtschreibfehler oder nicht standardmäßige Begriffe. Die Kacheln enthalten auch einen Datenqualitätsbalken, der eine sofortige Bewertung der Qualität der Werte in jeder Spalte liefert. Neben der Identifizierung von Nullwerten in Ihren Daten nutzt die Qualitätsbewertung auch das tiefe semantische Verständnis der Daten, um ungültige Werte basierend auf semantischen Klassifikationen zu identifizieren. Sie können die Daten untersuchen, indem Sie die in die Balkendiagramme integrierte Sofortfilterfunktion verwenden und die Inline-Transformationsfunktionen verwenden, um Spalteneigenschaften schnell zu ändern, Werte zu standardisieren oder zu reparieren und Spalten einfach umzubenennen. Ob für hochgeladene tabellarische Daten oder für einen Datensatz mit mehreren Datenbanktabellen mit Millionen von Datensätzen - Oracle Analytics hilft Ihnen, Ihre Daten und Analysen durch Data Quality Insights sofort zu verbessern. Ein zusätzlicher Komfort besteht darin, dass alle diese Transformationsaktionen bereits direkt bei der Erstellung des Dataset ausgeführt werden können. Ändern der Spalteneigenschaft "Behandeln als" Sie können die Standardeigenschaft "Behandeln als" einer Spalte ändern, indem Sie auf das Symbol "Behandeln als" klicken und aus der Dropdown-Liste auswählen. Sie können eine Spalte von Kennzahl/Measure in Attribut/Attribute ändern oder umgekehrt. Um die Eigenschaft "Behandeln als" einer Spalte zu ändern, klicken Sie einfach auf das Symbol links neben der Spaltenüberschrift und wählen Sie das neue "Behandeln als" aus dem Dropdown-Menü aus. Inline-Funktion zum Umbenennen von Spalten Nur selten passen die Spaltennamen aus Tabellen zum "Sprachgebrauch" der Anwender. Die Analysen müssen aber aussagekräftig und leicht verständlich sein. Daher läßt sich auch das Umbenennen von Spalten zügig durchführen: Benennen Sie Spalten schnell und einfach um, indem Sie in der Datenvorschau unterhalb der Kacheln auf den Spaltenkopfnamen doppelklicken, den neuen Spaltennamen eingeben und die Eingabetaste drücken. Um Spalten umzubenennen, doppelklicken Sie auf den Spaltenkopfnamen, geben Sie den neuen Namen ein und klicken Sie auf die Eingabetaste. Standardisieren von Werten mit Inline-Bearbeitungsfunktion Nicht einheitliche Schreibweisen (z.B. weiblich, W, Weiblich, w), Tippfehler (München, Muenchen, Munchen) oder ähnliches können ein Auswertungsergebnis erschweren oder gar verfälschen . Solche Fehler können Sie korrigieren, indem Sie Datenwerte ganz einfach direkt von der Quality Insights-Kachel standardisieren, indem Sie auf einen Wert in der Häufigkeitsleiste doppelklicken, den neuen Ersetzungswert eingeben und auf die Eingabe- oder Tabulatortaste klicken, um den neuen Wert zu akzeptieren. Sobald Sie den neuen Wert eingeben, wird die Spalte neu profiliert und die Quality Insights werden aktualisiert. Um standardisierte Datenwerte zu erhalten, doppelklicken Sie auf die Balken mit den nicht zu korrigierenden Daten, geben Sie den Ersatzwert ein und drücken Sie dann die Eingabetaste oder die Tabulatortaste. Erkennen und Reparieren von Null- oder Leerwerten Leere oder fehlende Werte bedürfen häufig ebenfalls der Korrektur. Der Datenqualitätsbalken auf den Kacheln weist Sie mit einem roten Indikator auf die Nulldaten hin. Auch im Balkendiagramm werden die Nullwerte für Sie rot hervorgehoben. Sie können Nullwerte oder fehlende Werte ersetzen, indem Sie auf die Häufigkeitsleiste doppelklicken und den Ersatzwert eingeben. Um Nullwerte zu reparieren, doppelklicken Sie auf die Balken, die den Balken enthalten, der "Fehlende oder Null"-Daten anzeigt, und geben Sie den Ersatzwert ein, und drücken Sie dann die Eingabetaste oder die Tabulatortaste. Ungültige Werte erkennen und reparieren Das System erkennt nicht nur Nullwerte (leere Felder) in Ihren Daten, sondern erkennt auch ungültige Werte basierend auf einer semantischen Analyse Ihrer Daten. Dies geschieht mithilfe des Systemwissens/System Knowledge. Das Systemwissen besteht aus einem umfangreichen Satz geografischer und demografischer Referenzdaten, die während der Profilerstellung verwendet werden, um Spalten mit diesen Geonamen wie Städte, Provinzen, Länder usw. zu entdecken und zu klassifizieren. Sobald die Spalten klassifiziert sind, zeigt die Datenqualitätsleiste an, wie viele Werte in den Spalten mit den Werten im Referenzdatensatz für diese Kategorie als gültig übereinstimmen - die nicht übereinstimmenden Werte werden für diese Kategorie als ungültig gemeldet. Anschließend können Sie die ungültigen Werte überprüfen und "reparieren", um die Qualität Ihrer Daten für nachgelagerte Analysen zu verbessern. Nach der Reparatur erhalten Sie in der Datenqualitätsleiste sofortiges Feedback zu den Verbesserungen der Datenqualität. Um Daten zu "reparieren", doppelklicken Sie auf die Balken mit den ungültigen Daten und geben Sie den Ersatzwert ein, und drücken Sie dann die Eingabetaste oder die Tabulatortaste. Erkunden Sie Ihre Daten mit Inline-Filterung Als weiteren Bonus bieten die Quality Insights eine leistungsstarke Inline-Filterfunktion, mit der Sie Ihre Daten durch einfaches Klicken auf die Häufigkeitsbalken untersuchen können. Beachten Sie, dass diese Funktion nur für Textspalten aktiviert ist. Um Ihre Daten mit Inline-Filterung zu untersuchen, klicken Sie einfach auf einen oder mehrere Balken in einer Spalte, die Sie filtern möchten. Um die Filter zu entfernen, klicken Sie erneut auf jede Spalte. Wie geht´s weiter - das nächste Update steht bereits vor der Tür! Ich hoffe, Sie fanden einige dieser neuen Funktionen hilfreich, um Probleme in Ihren Datensätzen schnell zu erkennen und zu beheben. Die beschriebenen Funktionen sind seit Mai Bestandteil von Oracle Analytics Cloud 6.0. In Kürze wird bereits die Aktualisierung auf die Version 6.1 durchgeführt - bei der Analytics Cloud gibt es kein "Sommerloch". Auch zum nächsten Release werden wir Ihnen die interessantesten Neuerungen in einem weiteren Blog-Eintrag erläutern. Weitere Informationen und Kontakt: Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-Mail oder LinkedIn. Stephan Reyher, Principal Cloud Specialist. Über die nachfolgenden Links können Sie sich über diese und weitere Neuerungen der Versionen 6.0 und 6.1 auch auf den zugehörigen Webseiten informieren: What are Quality Insights? Explore Your Data Using Quality Insights What’s New for Oracle Analytics Cloud Version 6.0 and 6.1

Auf einen Blick Oracle Analytics analysiert mit Hilfe von "Data Quality Insights" automatisch die Datenqualität, um Sie bei der Bereinigung und Anreicherung Ihrer Daten zu unterstützen. Es...

Business Analytics

Die Oracle Analytics Plattform – analysieren Sie doch wo Sie wollen!

Oracle Analytics on Premise oder in der Cloud weiterentwickeln – z. B. mit Governed Analytics, Self-Service Analytics und Augmented Analytics. Oder doch lieber ad-hoc Self-Service oder Machine Learning? Wie das geht verrät der folgende Blog, in dem es detailliert in die technische Tiefe geht! In den letzten Jahren haben sich die Business Intelligence Plattformen deutlich weiterentwickelt. Neben der reinen Analyse und Visualisierung der Vergangenheitsdaten auf der Basis vorab definierter Datenmodelle – häufig auf der Grundlage von Data Warehouses – müssen inzwischen auch Anforderungen wie ad-hoq Self-Service Analytics, erweiterte analytische Funktionen und die Nutzung von Machine Learning Algorithmen bereitgestellt werden. Idealerweise kann der Kunde bei der Auswahl seiner Analyse-Plattform zwischen einem Cloud Deployment oder einer on-premise Installation wählen. Oracle bietet mit der Analytics Cloud und dem Analytics Server genau diese Möglichkeit. Zu den Highlights der Oracle Analytics Plattform gehören schnelle interaktive visuelle Gestaltung, Self-Service-Datenaufbereitung, erweiterte Datenanreicherung, Abfragen in natürlicher Sprache und mit Machine Learning erweiterte Erkenntnisse, die sich mit einem einfachen Klick bereitstellen lassen. Die Oracle Business Intelligence und Analytics Produktfamilie wurde in den letzten Jahren umfassend modernisiert und erweitert. Die klassische on-premise Version – Oracle BI Enterprise Edition (OBIEE) – wurde als „Oracle Analytics Cloud“ in die Oracle Cloud Infrastructure (OCI) überführt und seit der Einführung im Mai 2017 sukzessive aktualisiert und mit zusätzlichen Funktionen versehen. Während die Neuerungen bislang vorwiegend in der Cloud Version „Oracle Analytics Cloud“ implementiert wurden, stehen diese Neuerungen inzwischen auch für Kunden der on-premise Plattform zur Verfügung. Damit ging auch eine Angleichung der Produktbezeichnungen einher: aus „Oracle BI Enterprise Edition“ (bzw. den unterschiedlichen Editionen) wird nun „Oracle Analytics Server“. Damit stehen jetzt auf beiden Plattformen nahezu dieselben Funktionalitäten zur Verfügung. Governed Analytics, Self-Service Analytics und Augmented Analytics Die Oracle Business Intelligence und Analytics Plattform wurde in den letzten Jahren konsequent in den Bereichen Governed Analytics, Self Service und Augmented Analytics mit weiteren innovativen Features ergänzt. Was verbirgt sich hinter diesen etwas sperrigen Begriffen? Werfen wir einen kurzen Blick auf die Entwicklung von BI-und Analyse Plattformen in den letzten Jahren. In den Anfangszeiten von Business Intelligence wurden die Daten von der zentralen IT aufbereitet und häufig als Data Warehouse bereitgestellt. Die Zeitspannen zur Integration zusätzlicher Datenquellen war häufig allerdings zu langwierig – und mit der Verfügbarkeit immer neuer Daten entstand die Notwendigkeit von Self-Service Analytics. Anwender in den Fachbereichen sollten eigenständig in die Lage versetzt werden, Datenbestände zu analysieren. Die Anforderungen in diesem Bereich sind nun erneut gewachsen – inzwischen soll die Analyse der Datenbestände auch durch erweiterte Analysefunktionen, Datenvorbereitung und Anreicherung sowie Nutzung von Machine Learning Algorithmen unterstützt werden. Im nachfolgenden Bild (Abbildung 1) ist die Weiterentwicklung der Oracle Analytics Plattform über die letzten Jahre skizziert. Abbildung 1: Die Entwicklung der Oracle Analytics Plattform Governed Analytics Was verbirgt sich hinter dem Begriff "Governed Analytics"? Hier sind im wesentlichen die folgenden Aspekte zu nennen:  Der Aufbau eines Metadatenmodells (semantischer Layer), um die für die Auswertungen relevanten Daten zugreifbar zu machen und zu strukturieren. Durch dieses Konstrukt können auch verschiedene physische Datenquellen für die Analysen kombiniert werden. Hier werden auch weitere abgeleitete Kennzahlen berechnet und Hierarchien für Drilldown definiert. Datenhierarchien ermöglichen später bei der Auswertung den direkten Drilldown (z.B. Jahr/Quartal/Monat/Tag oder Region/Land/Bundesland/Stadt etc.). Die zusätzlichen Kennzahlen können unter Nutzung vielfältiger Funktionen, Ausdrücken und Konstanten erzeugt werden, dazu gehören u.a. auch spezielle Funktionen für periodische Zeitreihenbetrachtungen (AGO, TODATE, Rolling Period). Für die Analysen stehen Funktionalitäten wie Dashboards, Ad-hoc Analysen, druckbare Berichte (pixel-perfect reporting) sowie Automatisierung und Scheduling zur Verfügung. Die Anwender greifen über den Webbrowser oder ein mobiles Gerät auf die Auswertungen zu. Über ein zentrales Berechtigungskonzept wird festgelegt, welchem Benutzer welche Funktionalitäten zur Verfügung stehen ("Power User", "Consumer") und wer welche Daten sehen darf.  Durch diese strikte Definition der Datenquellen und die rollenbasierten Zugriffsregeln wird insgesamt eine hohe (Daten-) Qualität der Auswertungen und Analysen gewährleistet.  Die häufig vorgelagerten Prozesse (ETL-Strecke, Validierung der Datenqualität) bringen aber auch einen Nachteil mit sich: die Flexibilität zur Erstellung von Analysen auf Basis neuer Datenquellen ist eingeschränkt, da neue Daten erst in das BI-Datenmodell integriert werden müssen.  Self-Service Analytics Immer stärker wurde daher die Anforderung, auch "mal eben" neue Daten auswerten zu können. Speziell die Fachbereiche in den Unternehmen wünschen sich mehr Eigenständigkeit und Unabhängigkeit von der zentralen IT. Diesem Aspekt wird mit "Self-Service Analytics" Rechnung getragen. Auch Self-Service Analytics umfaßt verschiedene Aspekte: Die Anbindung einer Vielzahl von Datenquellen in verschiedensten Formaten: Damit stehen nicht nur Formate wie Excel, CSV oder Text zur Verfügung, sondern auch cloud-basierte Oracle Anwendungen (z.B. Autonomous Database, Database Cloud Services, Oracle NetSuite, etc.) sowie Datenquellen von Drittanbietern (Amazon, Google, IBM, Microsoft etc.). Bei der Auswahl von Datenelementen wie Dimensionen und Kennzahlen wird der Anwender direkt bei der Erzeugung eines Diagramms unterstützt - "Beste Visualisierung erstellen". Natürlich kann der vorgeschlagene Diagrammtyp per Mausklick geändert werden, eine Vielzahl von Visualisierungen steht hier zur Verfügung. Ebenfalls per Mausklick stehen erweiterte analytische Funktionen wie Trend, Referenzlinie, Prognose, Cluster oder Ausreißer zur Verfügung. Die genannten Funktionen zur Erstellung von Analysen stehen übrigens auch über den Webbrowser auf mobilen Geräten zur Verfügung. Abbildung 2: Oracle Analytics Dashboard Im Gegensatz zu dem "geprüften" Datenlayer muss man bei der Verwendung von anderen Datenquellen ein zusätzliches Augenmerk auf die inhaltliche Datenqualität legen. Inkonsistente Schreibweisen von Inhalten (z.B. "München" vs. "Muenchen") würden bei der Auswertung zu falschen Ergebnissen führen. In Oracle Analytics sind daher umfangreiche Möglichkeiten zur Datenvorbereitung und Datenbereinigung ("self-service data preparation") vorgesehen. Wenn Sie ein Projekt erstellen und ein Datenset hinzufügen, werden die Daten einer Profilerstellung auf Spaltenebene unterzogen, die für eine repräsentative Stichprobe der Daten ausgeführt wird. Nach der Profilerstellung der Daten können Sie Transformations- und Anreicherungsempfehlungen für einzelne Spalten im Datenset implementieren. Diese bieten umfangreiche Möglichkeiten wie konvertieren, teilen, verketten, ersetzen, gruppieren, aggregieren etc. Die Anreicherungsempfehlung ("recommendation engine") kennt beispielsweise 20 geografische und demografische Anreicherungen sowie über 30 semantische Typen. Je nach Feldinhalt (z.B. Datumsfelder) werden Vorschläge gemacht, die in das Vorbereitungsskript übernommen und die Datenbereinigung für den Anwender wesentlich vereinfachen können. Daten lassen sich hier auch mit zusätzlichen Informationen ergänzen: wenn sich im Datenset z.B. Ländernamen befinden können über die recommendation engine weitere Informationen wie Bevölkerungszahl, Fläche oder die Hauptstadt hinzugefügt werden. Im Kontext der Datenvorbereitung kann man mehrere Datensets (z.B. verschiedene Excel Dateien) verknüpfen und gemeinsam auswerten. Für die Automatisierung der Datenvorbereitung stehen zusätzlich "Data Flows" zur Verfügung: Mithilfe von Datenflüssen können Sie Ihre Daten organisieren und integrieren, um ein kuratiertes Datenset zu erstellen, den Ihre Benutzer analysieren können. Sie können beispielsweise zwei oder mehrere Datensets zusammenführen, die Auftragsdaten enthalten, nicht benötigte Spalten entfernen, den Wert von Aufträgen aggregieren und die Ergebnisse in einem neuen Datenset speichern. Ein Beispiel für einen Data Flow sehen Sie in der Abbildung 3. Abbildung 3: Beispiel eines Data Flows Augmented Analytics Weitere Unterstützung bei der Analyse eines Datensets erhält der Anwender durch integrierte Machine Learning Algorithmen. Man wählt eine Spalte aus dem Datenset und "Explain" (Erläutern) analysiert die ausgewählte Spalte im Kontext des Datensets und generiert Textbeschreibungen zu den gefundenen Erkenntnissen. Zudem werden entsprechende Visualisierungen erstellt, die zu einem Projekt hinzugefügt werden können. Explain nutzt dabei Machine Learning, um hilfreiche Informationen zu Ihren Daten zu generieren. Explain wendet automatisch die statistische Analyse des maschinellen Lernens an, um die wichtigsten Muster, Korrelationen (Treiber), Klassifizierungen und Anomalien in Ihren Daten zu ermitteln. Ein Anwendungsfall für den Einsatz von Explain könnte die Analyse eines Datensets mit Informationen zur Personalfluktuation sein. Gibt es eine Häufung von Kündigungen in bestimmten Bereichen oder Abteilungen? Spielen Faktoren wie die Überstunden oder Familienstand eine Rolle? Im nachfolgenden Screenshot (Abbildung 4) wird ein entsprechendes Beispiel aus der Explain-Funktion dargestellt. Abbildung 4: Machine Learning hilft bei der Ermittlung von Schlüsselfaktoren im Datenset Machine Learning Einen Schritt weiter gehen dann die Optionen im Bereich Machine Learning zur Erstellung von Vorhersagemodellen. Ein Oracle Analytics-Vorhersagemodell wendet einen bestimmten Algorithmus auf ein Datenset an, um Werte vorherzusagen, Klassen vorherzusagen oder Gruppen in den Daten zu identifizieren. Oracle Analytics enthält Algorithmen, mit denen Sie Vorhersagemodelle für verschiedene Zwecke trainieren können. Beispiele für Algorithmen sind Klassifizierungs- und Regressionsbäume (CART), logistische Regression und k-Means. Mit dem Datenfluss-Editor wird zunächst ein Modell auf einem Trainingsdatensatz trainiert. Nachdem das Vorhersagemodell trainiert wurde, wenden wir es auf die Datensätze an, die prognostiziert werden sollen. Bezogen auf unser vorheriges Beispiel zur Personalfluktuation kann man auf Basis der historischen Daten trainieren, um eine Vorhersage für die aktuelle Belegschaft zu treffen. Wenn Sie sich noch detaillierter mit dem Aspekt Personalfluktuation und der Nutzung von Machine Learning-Funktionalität befassen wollen möchte ich Ihnen den Blog-Eintrag "Machine Learning-Modelle verwenden und verstehen mit ADW & OAC – so geht´s!" ans Herz (bzw. an die Maus) legen. Das gesamte Leistungsspektrum von Oracle Analytics wird in der Abbildung 5 veranschaulicht - im Rahmen dieses Artikels habe ich mich lediglich auf einige Aspekte beschränkt. Von den Datenquellen bis zum Frontend sind hier die einzelnen funktionalen Bestandteile zusammengefaßt. Abbildung 5: Schematische Darstellung des Leistungsspektrums von Oracle Analytics Die Deployment Optionen Wie eingangs bereits erwähnt stehen die beschriebenen Funktionalitäten sowohl in der "Oracle Analytics Cloud" als auch für die Installation auf eigener Hardware als "Oracle Analytics Server" zur Verfügung. Bei der Analytics Cloud handelt es sich um einen Oracle-managed Service in der Cloud. Das bedeutet, dass sich der Kunde um Betriebsthemen wie Verfügbarkeit, Patching oder Updates nicht kümmern muss - diese werden von Oracle durchgeführt. Der Oracle Analytics Server bietet die modernen, ausgereiften Funktionen der Oracle Analytics Cloud speziell für Kunden, die in einer on-premise Umgebung, in der privaten Cloud oder in hybriden Umgebungen arbeiten müssen. Hier liegen der gesamte Betrieb, Wartung, Backup etc. in der Kundenverantwortung. Damit erhalten Unternehmen die Freiheit, ihre Analytics Umgebung selbst zu verwalten, einschließlich des Testens von Upgrades nach eigenem Zeitplan. Außerdem können sie spezifische Konfigurationsanpassungen vornehmen und eröffnen sich zugleich einen einfachen Weg zur Cloud, sobald sie dazu bereit sind. Diese Migrationsoptionen in die Cloud stehen übrigens auch für die älteren Versionen BI 11g und BI 12c von OBIEE zur Verfügung. Gute Nachrichten für derzeitige Oracle BI-Kunden Als Kunde von Oracle Business Intelligence Enterprise Edition- oder Foundation Suite-Kunden (OBIEE oder OBIFS) mit bestehendem Supportvertrag können Sie kostenfrei auf den Oracle Analytics Server umsteigen und das entsprechende Upgrade durchführen. Damit erhalten auch Bestandskunden Zugriff auf die zusätzlichen Funktionalitäten, die bislang der Cloud Plattform vorbehalten waren. Der Oracle Analytics Server ist damit das "natürliche" Nachfolgeprodukt von Oracle BI Enterprise Edition. Übrigens wurde Ende Februar im Rahmen des jährlichen Updates von Analytics Server die Version 5.9 freigegeben - ein Grund mehr zum Upgrade! Fazit Mit der Oracle Analytics Plattform wird eine ausgereifte und gleichzeitig innovative Lösung angeboten. Die Oracle Analytics Plattform ermöglicht die Datenexploration, -visualisierung sowie Self Service innerhalb einer zentralisierten und gut verwalteten Architektur. Die Fähigkeiten rund um die Datentransformation, die automatische Anreicherung, die hochentwickelte Analytics mit einem Klick und die Optionen für maschinelles Lernen verschaffen den Kunden darüber hinaus einen Einstieg in Richtung Machine Learning. Kunden profitieren dabei von der Wahlfreiheit, ob sie die Lösung in der Cloud-Variante oder als Installation auf eigener Hardware implementieren möchten. Weitere Informationen und Kontakt: Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-Mail oder LinkedIn. Stephan Reyher, Principal Cloud Specialist. Über den nachfolgenden Link können Sie sich auch auf den zugehörigen Webseiten informieren: Oracle Analytics Cloud Oracle Analytics Server  

Oracle Analytics on Premise oder in der Cloud weiterentwickeln – z. B. mit Governed Analytics, Self-Service Analytics und Augmented Analytics. Oder doch lieber ad-hoc Self-Service oder Machine...

Business Analytics

SailGP setzt neue Standards für die Leistungsfähigkeit der Sportanalyse - dank Oracle

Kennen Sie SailGP? Falls nein, dann machen Sie sich auf etwas gefasst: nämlich: Passion. Drama. Powered by Nature™. Oder - anders formuliert: ein adrenalingeladenes Speed Segel-Rennen, bei dem acht Teams an legendären Veranstaltungsorten auf der ganzen Welt gegeneinander antreten, um jeweils einen Gewinner in Höhe von 1 Million US-Dollar zu küren. Gleichzeitig ist SailGP damit auch eine tolle Gelegenheit für die moderne Sportanalyse: denn sowohl Athleten als auch deren Ausrüstung generieren sekündlich zehntausende von Datenpunkten, die alle in Echtzeit analysiert, genutzt und wiederverwertet werden können. Wow! Dies ist der Leistungsfähigkeit von Oracle Analytics zu verdanken. An der (Wasser-) Oberfläche mag SailGP wie ein epischer Kampf auf dem Wasser um Geschwindigkeit und Agilität aussehen. Und das ist es auch! Aber es ist auch ein Ort technologischer Innovationen, die Sportlern helfen, ihre Fähigkeiten und ihr Training zu verbessern und eine blühende Community von entusiastischen Fans auf der ganzen Welt für diese kostenintensive Speed-Segelboot-Meisterschaft zu begeistern. Sportarten interagieren auf unterschiedliche Weise. Bei SailGP müssen sich die fünfköpfigen Crews, die auf ihren Katamaranen über das Wasser rasen, auf eine Kombination aus Können, Teamwork und Athletik verlassen. Und während diese Boote fliegen - sie erreichen eine Geschwindigkeit von bis zu 50 Knoten, was fast 100 km pro Stunde entspricht - generieren sie auch Zehntausende von Datenpunkten pro Sekunde. Von den Booten bis zur Biometrie, ein Berg an Daten Jedes der Boote im SailGP Wettbewerb verfügt über 1.000 Sensoren, die Informationen wie Windgeschwindigkeit, Bootsgeschwindigkeit, Wassertemperatur und Ruderwinkel sammeln. Jedes der Besatzungsmitglieder ist inzwischen selbst mit biometrischen Tracking-Sensoren ausgestattet, sodass auch ihr eigener Körper Berge von Daten generiert, die uns Stress, Herzfrequenz und Blutdruck verraten, während sie durch das Wasser navigieren und aufwendige Manöver ausführen. Die Macht all dieser Daten liegt darin, wie wir sie verarbeiten und nutzen. Als singuläre Datenpunkte sagen sie uns eindimensionale Fakten: Wie viel Schweiß erzeugt ein Besatzungsmitglied? Welche Temperatur haben die Wellen, wenn sie unter dem Boot brechen? Dies sind alles nützliche Informationen, aber relativ belanglos. Aber wenn wir die Daten über Oracle Stream Analytics kombinieren und dann unser Autonomous Data Warehouse nutzen… dann verwandeln sich die Daten plötzlich in ein unglaublich leistungsstarkes Instrument, das Einblicke, historische Vergleiche und präzise, zielgenaue Vorhersagen bietet, die sofort angewendet werden können. 44 Milliarden Datenanfragen an einem einzigen Tag Auch wenn Sie kein Segler oder Segel-Enthusiast sind, ist es aufregend, SailGP zu sehen: die Athletik der Crews, die Art und Weise, wie sie miteinander kommunizieren und sich wie ein physisches Orchester ausbalancieren, sogar die schnittige Kraft dieser unglaublichen Boote - es ist gleichzeitig anmutig und berauschend. Und wenn Sie an die Informationen denken, die uns jedes Besatzungsmitglied und jedes Schiff bei jeder Luvbewegung liefert, ist das wirklich beeindruckend. An einem einzigen Aktionstag auf dem Wasser, vom Training bis zum Rennen, generiert SailGP mehr als 44 Milliarden Datenanfragen. Der gigantische Datenberg, den Oracle abbaut, ist also beträchtlich.   Für jedes Rennen richtet SailGP ein proprietäres drahtloses Netzwerk ein, das von mehreren Einstiegspunkten aus auf die Streaming-Architektur zugreift, um Daten zu verbessern und Analysen zu optimieren. Erstens erhält es Geodaten, damit wir nicht nur die Position der Boote an jedem festen Punkt, sondern auch ihre Flugbahn über das Wasser verstehen können. Dann fügen wir den Kontext über Benchmark-Daten hinzu - in welcher Beziehung stehen die Boote zueinander? Welche Geschwindigkeiten und Winkel haben sie bei jeder Kurve genommen? Schließlich wenden wir Machine-Learning-Modelle an, damit Vorhersagen und Prognosen sofort gemacht werden können, damit die Crews sich auf unsere Analysen verlassen können, um ihre Methoden zu verbessern, während das Rennen vor uns stattfindet. Zuschauer: mittendrin - statt nur dabei! Ein kompliziertes Manöver auf dem Wasser zu beobachten, bietet jetzt doppelte Aufregung: Neben dem Respekt vor der körperlichen Leistung der Protagonisten können sie als Zuseher auch mitverfolgen, wie sich die vielen nutzbaren Daten in wertvolle Informationen und damit in bessere, intelligentere und anwendbarere Analysen verwandeln. Für alle Zuseher an der Seitenlinie, von Trainern bis hin zu Fans, sind diese Streaming-Daten eine Möglichkeit, in das Rennen auf neue Art und Weise einzutauchen und ein besseres Verständnis für die sich entfaltende Aktion zu erhalten. Oracle Analytics und SailGP haben damit die Zuschauerzahlen und deren Customer Experience auf ein neues Level angehoben. In der Sportanalyse verwendet man Abkürzungen, die uns an bemerkenswerte Erkenntnisse erinnern, wie VMG oder Velocity Made Good. VMG wird in der Welt der Sportanalytik verfolgt und gibt Ihnen die optimale Anzeige des schnellsten Wegs zu einem Ziel, indem es nicht nur Geschwindigkeit und Entfernung misst, sondern auch den Wind. Es ist ein dreidimensionales 360-Grad-Messwerkzeug, auf das wir dank Analytik Zugriff haben. Ein noch intensiveres Erlebnis Bei Sportanalysen geht es mehr um Unterhaltung und darum, Zuschauern einen verlässlichen Einstiegspunkt in das Erlebnis vor ihren Augen zu geben. Einblicke, angetrieben durch Analysen, öffnen den Vorhang für das Publikum und bringen ihm die Action näher, indem sie Wettbewerb, Taktiken und Strategien zeigen. Es ist das ultimative Werkzeug zur Förderung des Engagements, das Interesse weckt und zusätzliche Fans gewinnt. Aber das wirklich Schöne an Sportanalysen ist, wie transparent sie sind. Teammitglieder lernen nicht nur von ihren eigenen Daten - sie lernen von allen. Denn alle Dateninformationen sind öffentlich und auf Knopfdruck verfügbar. Wenn "Team Dänemark" also eine besonders schöne Kurve auf das Wasser zaubert, kann "Team Großbritannien" genau überprüfen, wie sie es gemacht haben, und diese in Zukunft auf ihre eigenen Trainingsläufe anwenden. Eine steigende Flut, sagt man, hebt alle Schiffe. Für den Leistungssport ist Sportanalytik der Aufschwung für alle. Von der Sport-Analyse zur Business Analyse Über Sportanalysen nachzudenken, ist aber nur eine Seite der Medaille von Analytics. In der Geschäftsanalyse - Business Analytics - besteht ein großes Interesse am Kaufen und Verkaufen und an harten Ergebnissen. Bei der Geschäftsanalyse in Unternehmen wird eine Sprache verwendet, die Ihnen sagt, dass bestimmte Dinge, die Sie verfolgen, besonders interessant und bemerkenswert sind. Wie KPI´s und ROI: Key Performance Indicators und Return on Investment - all dies sind Daten-Informationen, die durch Analysen erst den richtigen Schliff bekommen. Genauso wie im Sport können auch Sie mit Hilfe von Business Analysen Daten sammeln und analysieren, um Erkenntnisse zu gewinnen, die Sie an der Konkurrenz vorbei auf das Siegertreppchen Ihres Geschäfts bringen kann. Packen Sie es an! Kontakt Sie wollen mehr über dieses spannende Thema wissen? Dann nehmen Sie einfach Kontakt zu mir auf, per E-Mail, LinkedIn, Xing oder Twitter. Ich freue mich auf das Gespräch mit Ihnen. Sabine Leitner, Sr. Marketing Manager.

Kennen Sie SailGP? Falls nein, dann machen Sie sich auf etwas gefasst: nämlich: Passion. Drama. Powered by Nature™. Oder - anders formuliert: ein adrenalingeladenes Speed Segel-Rennen, bei dem acht...

Business Analytics

Machine Learning-Modelle verwenden und verstehen mit ADW & OAC – so geht´s!

Analyse-Systeme werden heute immer wichtiger, die Funktionsumfänge immer umfangreicher und die verbundenen Auswertungsmöglichkeiten immer business-kritischer. Nachdem die traditionelle IT-zentrische Business Intelligence durch Self-Service Analytics ergänzt wurde, ist derzeit der aktuellste Trend, dass sich analytische Informationssysteme durch immer mehr KI- und Machine Learning-Fähigkeiten erweitern lassen. Mein Kollege Holger Czellnik hat sich ausführlich mit dieser Thematik befasst und erläutert die Aspekte in diesem Blog-Eintrag. Gut, dass all diese Möglichkeiten Anwendern mit Oracles Analytics-Lösungen OAS (Oracle Analytics Server) und OAC (Oracle Analytics Cloud) in einer einzigen Plattform zur Verfügung stehen. Mit den Oracle-Lösungen werden Datenanalysten in die Lage versetzt, in der Analytics-Umgebung eigenständig und ohne Programmieraufwände Machine Learning Modelle zu trainieren und anzuwenden. Zusätzlich - und das ist neu - haben Analysten auch die Möglichkeit, von Data Scientists erstellte Machine Learning Modelle zu verwenden und zu verstehen (Model Explainability): und dies ist sogar kostenfrei möglich mittels Oracle Machine Learning (OML) in Oracle´s autonomer Datenbank. Oracle Machine Learning bereits in der autonomen Datenbank Oracle verfolgt den Ansatz, Machine Learning bereits in der Datenbank auszuführen - genau da wo die Daten anzutreffen sind! Das hat den Vorteil, daß Sie unnötige und performance-fressende Datenbewegungen eliminieren und gleichzeitig von der Skalierbarkeit der Oracle Datenbank und bewährten Security-Mechanismen profitieren können. Frei nach dem Motto: "Move the algorithm and not the data". Mit der autonomen Datenbank wird eine Notebook-Umgebung bereitgestellt, in der Data Scientists die datenbankinternen Machine Learning Algorithmen verwenden können. Aber wie funktioniert das in der Praxis? Wollen wir diese ML Algorithmen doch einfach mal anhand eines fiktiven Beispiels durchführen: stellen Sie sich vor, wir sitzen in der Personalabteilung eines Unternehmens und wollen herausbekommen, wie hoch die potentielle Mitarbeiter-Fluktuation anhand bestimmter Vorhersagemodelle ist. Lassen wir das Spiel beginnen Wir haben von der IT einen Datensatz aller Mitarbeiter der vergangenen 10 Jahre bekommen. Dieser Datensatz enthält für jeden Mitarbeiter neben Informationen wie Vorname, Nachname, Alter, Geschlecht, Familienstand, uvm. auch das Feld "Attrition", welches Auskunft darüber gibt, ob der Mitarbeiter das Unternehmen verlassen hat (Attrition = Yes) oder nicht (Attrition = No). Abbildung 1: Die IT hat einen Datensatz aller Mitarbeiter bereitgestellt Interessant wäre es, wenn man in den Daten einen Zusammenhang erkennen könnte, welche Attributskombinationen dazu geführt haben, dass Mitarbeiter das Unternehmen verlassen haben. Um solche Zusammenhänge herauszuarbeiten, werden mit diesen Trainingsdaten Machine Learning-Modelle mit einem Klassifizierungs-Algorithmus verwendet. In unserem Fall wäre das ein binärer Klassifizierungs-Algorithmus, da unser Zielwert, auch Label genannt, nur zwei Werte "Yes" und "No" aufweist. Ein Data Scientist im Unternehmen startet nun also mit der Erstellung eines binären Klassifizierungs-Modells unter Verwendung des Naive Bayes-Algorithmus (siehe Abbildung 2), um potentielle Vorhersagen zur Wahrscheinlichkeit einer Mitarbeiterabwanderung zu treffen. Abbildung 2: Erstellung eines binären Klassifizierungs-Modells (Wie ein Data Scientist mit eingebauten Machine Learning Algorithmen in Oracles autonomer Datenbank arbeitet, erfahrt ihr in einem kommenden Blog. Stay tuned!) Anschließend kommt die Oracle Analytics Cloud (OAC) zusammen mit der autonomen Datenbank zum Einsatz und beide fangen an zu zaubern. Registrieren von OML-Modellen in OAC Das Machine Learning-Modell steht nun in der autonomen Datenbank bereit und kann ganz einfach von Analysten per Mausklick in OAC registriert werden. Abbildung 3: Registrieren eines Machine Learning Modells in der Analytics Cloud Registrierte OML-Modelle können in einem OAC Data Flow gegen aktuelle Mitarbeiterdaten in der autonomen Datenbank angewendet und die Modellergebnisse in einer Scoringtabelle abgespeichert werden. Abbildung 4: Data Flow zum Anwenden eines Machine Learning Modells Die Ergebnisse der Scoringtabelle können anschließend wieder mit OAC ausgewertet werden. In unserem fiktiven Beispiel werden nun alle Mitarbeiter in einer Tabelle angezeigt, die mit einer Wahrscheinlichkeit von mehr als 90% abwanderungsgefährdet sind (siehe Abbildung 5). Abbildung 5: Ergebnisse der Scoring Tabelle Mit diesen Informationen könnte die Personalabteilung abwanderungsgefährdete Mitarbeiter frühzeitig identifizieren und ggf. entsprechende Gegenmaßnahmen einleiten: seien dies finanzielle Anreize, flexible Arbeitszeitmodelle oder andere Möglichkeiten der Kompensation. OML Model Explainability (XAI=Explainable Artificial Intelligence) In unserem Beispiel füttern OAC-Anwender die von Data Scientists erstellten Machine Learning Modelle mit aktuellen Mitarbeiter-Daten und erhalten als Ergebnis Informationen über abwanderungsgefährdete Mitarbeiter. Wie Machine Learning Modelle zu einem Ergebnis kommen, bleibt allerdings eine Blackbox. Damit Analysten und Fachanwender den verwendeten Machine Learning Modellen auch vertrauen können, wäre es von Vorteil, Entscheidungen eines Algorithmus nachvollziehen zu können. Auch hierbei kann OAC helfen... Zunächst einmal gibt es in OAC die Möglichkeit grundsätzliche (Meta-)Informationen über Machine Learning Modelle anzeigen zu lassen, wie z.B.: Wer hat wann das Modell erstellt? Um welche Modell-Klasse handelt es sich (hier Klassifikation)? Welcher Algorithmus wurde verwendet (hier Naive Bayes)? Auf welches Ziel-Attribut / Label wurde das Modell trainiert (hier Attrition)? Welche Eingabespalten / Features wurden verwendet (Input Columns)? Welche Ausgabeinformationen werden von dem Modell generiert (Output Columns)? Welche Parameter hat der Data Scientist dem Modell mitgegeben? Abbildung 6: Meta-Informationen zum Machine Learning Modell Besonders interessant ist die Möglichkeit mit OAC, neben den eigentlichen Ausgabewerten (Vorhersage -> hier PredictionAttrition und Wahrscheinlichkeit -> PredictionProbability), weitere Informationen durch das Machine Learning Modell generieren zu lassen: damit ist es möglich, zusätzliche tiefergehende Informationen zu betrachten. Diese Zusatzinformationen bestehen grundsätzlich aus zwei Gruppen, den Prediction Sets und den Prediction Details, die man einfach per Mausklick im OAC Data Flow aktivieren kann (siehe Abbildung 7). Abbildung 7: Prediction Sets und Prediction Details Prediction Sets liefern insbesondere für Vorhersagen von Mehrfach-Klassifikationsverfahren wichtige Erkenntnisse. Hierbei werden für jeden Datensatz - neben der wahrscheinlichsten Vorhersage auch die zweit-, dritt- und viert-wahrscheinlichsten Vorhersagewerte mit der jeweiligen  Vorhersagewahrscheinlichkeit angezeigt. Für unser Beispiel einer binären Klassifizierung mit nur zwei Vorhersagewerten sind Prediction Sets nicht relevant. Prediction Details erzeugen für die wahrscheinlichsten Vorhersage-Ergebnisse jeder Zeile eines Datensatzes eine Liste der wichtigsten Attribute, die zu dieser Vorhersage geführt haben. Es können für jeden Eintrag eines Datensatzes die fünf wichtigsten Attribute mit Namen, Gewichtung und Vorhersagewert erzeugt werden. Stellt man - wie in unserem fiktiven Beispiel der Mitarbeiter-Fluktuation - die Prediction Details in einer Tabelle zusammen, erhält man für jeden einzelnen Datensatz die wichtigsten Attribute, die zur jeweiligen Vorhersage geführt haben. Dies bietet eine maßgeschneiderte Erklärung, wie das Modell die Vorhersage für jeden einzelnen Datensatz berechnet hat (siehe Abbildung 8). Abbildung 8: Advanced Model Explanation Aggregiert man die Ausgaben der Prediction Details  erhält man sehr informative Einblicke über die Treiber der Vorhersagen. In Abbildung 9 sieht man beispielsweise an unserem fiktiven Beispiel, dass bei allen abwanderungsgefährdeten Mitarbeitern der Faktor "Alter" das wichtigste Attribut darstellt. Abbildung 9: Analyse mit Visualisierung der Prediction Details Filtert man darüberhinaus nach Familienstand = "verheiratet", erhält man ein spezielles Profiling für die Vorhersage dieser Mitarbeitergruppe. Für diese Gruppe ist das Alter dann nicht mehr von besonderer Wichtigkeit (siehe Abb. 10). Abbildung 10: Profiling für eine bestimmte Mitarbeitergruppe Wenn man also nach Teilmengen in den Daten filtert, sieht man dass sich das Profiling ändert und sich die Treiber, die zu den Vorhersagen führen, angezeigt werden. Das kann helfen, sehr zielgerichtet die Ergebnisse zu verstehen und um ggf. gezieltere Maßnahmen zu ergreifen. Vorteile von ML mit Oracle Analytics auf einen Blick Mit OAC ist es für Analysten und Fachanwender somit sehr einfach, auf professionell erstellte Machine Learning Modelle in der autonomen Datenbank zuzugreifen und diese gegen aktuelle Daten anzuwenden, um so in die Zukunft gerichtete Entscheidungsfindungen zu ermöglichen. Zudem können OAC-Anwender mit den Möglichkeiten der erweiterten Modellerklärung nachvollziehen, wie Machine Learning Modelle zu ihren Ergebnissen kommen. Das hilft Machine Learning nicht als Blackbox zu sehen, sondern mehr Transparenz in Vorhersagen zu bringen und somit Vertrauen für die von Data Scientists erstellten Modelle zu schaffen. Weitere Informationen und Kontakt: Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-Mail, LinkedIn. Holger Czellnik, Principal Cloud Specialist. Über den nachfolgenden Link können Sie sich auch auf den zugehörigen Webseiten informieren: Oracle Deutschland - Analytics

Analyse-Systeme werden heute immer wichtiger, die Funktionsumfänge immer umfangreicher und die verbundenen Auswertungsmöglichkeiten immer business-kritischer. Nachdem die traditionelle IT-zentrische...