X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Life Hacks für Ihr Business: 7 Machine Learning Best Practices

Kennen Sie das? – Sie schaffen sich etwas Schlaues an, also etwas richtig innovativ Schlaues. Nur um dann festzustellen, es ist so schlau, dass Sie einfach nie dazu kommen, es gewinnbringend einzusetzen. Zu komplex, zu groß, zu irgendwas. Das ist richtig ärgerlich. Hier kommt Rat und Trost für Sie: Erstens, das geht mitunter auch sehr großen, sehr schlauen Unternehmen so. Zweitens, Sie können trotzdem etwas daran tun. Wir reden von Machine Learning. Und fangen mit Netflix an.

Auf einen Blick: Life Hacks für Ihr Business

 
Wie implementiere ich Machine Learning im Unternehmen? 7 Best Practices helfen, die häufigsten Probleme mit Machine Learning Projekten zu meistern.

 

1 Million Dollar schwer war die berühmte Algorithmus-Challenge von Netflix. Den Preis gab es für den besten Algorithmus zur Vorhersage von Nutzerbewertungen für Filme. Kuriosum dabei: Der Gewinnalgorithmus wurde nie in ein Funktionsmodell implementiert. Angeblich rechtfertigten die Ergebnisse, die der Algorithmus zutage fördern konnte, einfach nicht den technischen Aufwand, der erforderlich ist, um die Ergebnisse in eine Produktionsumgebung zu bringen.

Genau hier steckt nun eines der großen Probleme beim Machine Learning: Sie können das denkbar eleganteste und smarteste maschinelle Lernmodell aller Zeiten erstellen –  wenn Sie es nie einsetzen und anwenden, bleibt die Sache irrelevant für Sie. Außerdem kann die Umsetzung Ihres Modells in die Praxis länger dauern, als Sie denken. Ein TDWI-Bericht ergab, dass 28 % der Befragten drei bis fünf Monate brauchten, um ihr Modell in Betrieb zu nehmen. Und fast 15 % brauchten länger als neun Monate.

Wie implementiere ich Machine Learning im Unternehmen? 7 Best Practices helfen, die häufigsten Probleme mit Machine Learning Projekten zu meistern.

 

Das sollte natürlich schneller gehen. Damit Sie das schaffen, stellen wir Ihnen 7 Best Practices für das maschinelle Lernen vor:

Wir haben diese wirklich aufschlussreichen Hinweise übrigens von Charlie Berger, Senior Director of Product Management for Data Mining and Advanced Analytics, beim letzten Data and Analytics Summit bekommen.

 

1. Vergessen Sie nicht, tatsächlich loszulegen.

Wir beginnen mit dem wichtigsten Punkt von allen: Die bittere Wahrheit ist, dass viele Unternehmen aus den gerade genannten Gründen nie anfangen, also weil die Technologie kompliziert ist, der Buy-in ist vielleicht nicht da, oder der Anspruch, gleich alles richtig zu machen, verhagelt ihnen die Ernte.

Charlies Empfehlung: Beginnen Sie einfach – selbst dann, wenn Sie wissen, dass Sie das Modell einmal im Monat neu bauen müssen. Die Lernerfahrungen, die Sie daraus ziehen, werden unbezahlbar sein.

 

2. Beginnen Sie mit einem Geschäftsproblem und ermitteln Sie die richtigen Erfolgskennzahlen.

Zunächst von einem Geschäftsproblem auszugehen, ist gängige Best Practice für das Machine Learning, und zwar genau deshalb, weil es so wichtig ist. Trotzdem wird das in der Prioritätenliste immer wieder heruntergereiht.

Es heißt zu Recht: „Wenn ich eine Stunde Zeit für ein Problem hätte, würde ich 55 Minuten über das Problem nachdenken – und 5 Minuten über die Lösung." Genauso geht das bei Szenarien von maschinellem Lernen. Denn schlechte Problemdefinitionen helfen genau gar nichts. Hier ist eine Liste solcher schlecht definierter Problemstellungen, daneben jeweils Beispiele für eine spezifischere Definition.

Wie implementiere ich Machine Learning im Unternehmen? 7 Best Practices helfen, die häufigsten Probleme mit Machine Learning Projekten zu meistern.

Was könnte zum Beispiel eine genauere Definition von Rentabilität sein? Wir haben kürzlich mit einer landesweiten Kette von Schnellrestaurants gesprochen, die ihren Absatz von Erfrischungsgetränken steigern wollte. In diesem Fall war entscheidend, dass wir die  Auswirkungen der Definition prüfen, die eingrenzt, was hier mitgerechnet werden soll. Gilt z. B. als Transaktion nun eine einzelne Mahlzeit oder sechs Mahlzeiten für eine ganze Familie? Dies beeinflusst nämlich, wie Sie die Ergebnisse darstellen. Sie müssen also genau überlegen, wie Sie das Problem angehen und schließlich operationalisieren.

Es reicht auch nicht, einfach irgendwelche Erfolgskennzahlen festzulegen – es müssen die richtigen sein! Metriken helfen durchaus weiter, aber führt eine bestimmte, verbesserte Metrik auch zu den gewünschten Erkenntnissen? Es ist zu berücksichtigen, dass in der Regel Kennzahlen sich gegenseitig beeinflussen.

 

3. Nicht Daten transferieren, sondern den Algorithmus.

Die Achillesferse bei prädiktiven Modellierungen ist ihr 2-stufiger Prozess. Zuerst erstellen Sie das Modell, meist mit Beispieldaten; das können hunderte, aber auch Millionen sein. Ist das Vorhersagemodell einmal erstellt, müssen die Datenwissenschaftler es anwenden. Ein Großteil dieser Daten liegt allerdings irgendwo in einer Datenbank.

Nehmen wir an, Sie wollen Daten über alle Menschen in den USA. Davon gibt es rund 360 Millionen. So; diese Daten sind also irgendwo in einer Datenbank. Und wo befindet sich Ihr Vorhersagemodell? Überraschung: In dieser Datenbank jedenfalls nicht.
Der Normalfall ist nun, dass die Leute die ganzen Daten aus der Datenbank fischen, damit sie die Vergleiche mit ihrem schönen Modell ausführen können. Dann müssen sie die Ergebnisse wieder zurück in die Datenbank importieren, um ihre Vorhersagen zu treffen. Dieser ganze Prozess braucht Stunden um Stunden oder gar Tage um Tage, während sich die Effizienz der von Ihnen erstellten Modelle in Luft auflöst.

Wenn Sie hingegen Ihre Berechnungen aus der Datenbank heraus durchführen, hat das erhebliche Vorteile. Die Algorithmen schleusen Sie binnen einiger Sekunden durch den Kern der Datenbank, im Gegensatz zu den Stunden, die der Export Ihrer Daten in Anspruch nehmen würde. Dann kann die Datenbank auch alle Ihre Berechnungen durchführen und sie intern erstellen. Das bedeutet zugleich, dass Datenwissenschaftler und Datenbankadministrator sich in derselben Welt bewegen.

Indem Sie Ihre Daten in Ihrer Datenbank und im Hadoop- oder Objektspeicher halten, können Sie Modelle erstellen und in der Datenbank bewerten sowie R-Pakete mit datenparallelen Aufrufen verwenden. Dies ermöglicht es Ihnen, Datenduplikate und separate Analyseserver zu vermeiden – wieder, ohne Daten zu verschieben – und Modelle zu bewerten, Datenvorbereitung einzubetten, Modelle zu erstellen und Daten in wenigen Stunden aufzubereiten.

 

4. Die richtigen Daten in der richtigen Reihenfolge.

Es ist nicht klug, mit der Katalogisierung aller vorhandenen Daten und der Entscheidung über deren Priorität anzufangen, wie James Taylor und Neil Raden in Smart Enough Systems geschrieben haben. Der richtige Weg ist, von der Lösung ausgehend rückwärts zu arbeiten, das Problem explizit zu definieren und die Daten festzulegen, die für die Untersuchung und die Modelle benötigt werden.

Und dann ist es Zeit für eine Zusammenarbeit mit anderen Teams.

Wie implementiere ich Machine Learning im Unternehmen? 7 Best Practices helfen, die häufigsten Probleme mit Machine Learning Projekten zu meistern.

Hier kommt jetzt der Punkt, wo Sie möglicherweise gleich wieder ins Stocken kommen. Also kurz noch einmal zurück zu Punkt Nummer 1 ("Vergessen Sie nicht tatsächlich loszulegen.“) und zum Hinweis, dass die Zusammenstellung der richtigen Daten erfolgskritisch ist.

Aus diesem Grund sollten Sie mit Leuten in den drei Hauptbereichen Geschäftsfeld, Informationstechnologie und Datenanalysten sprechen.

Geschäftsfelder: Menschen, die das Geschäft kennen
•    Marketing und Vertrieb
•    Kundenbetreuung
•    Betrieb

Informationstechnologie: Menschen, die Zugang zu Daten haben
•    Datenbankadministratoren

Datenanalysten: Menschen, die das Geschäft kennen
•    Statistiker
•    Data Miner
•    Datenwissenschaftler

Wichtig ist dabei, dass Sie auf einer aktiven Teilnahme bestehen. Anderenfalls bekommen Sie Aussagen wie:
•    Diese Leads taugen nichts.
•    Diese Daten sind veraltet.
•    Dieses Modell ist nicht genau genug.
•    Warum haben Sie diese Daten nicht verwendet?

… also genau die Art von Kommentaren, die Sie schon in- und auswendig kennen.

 

5. Neue abgeleitete Variablen erstellen.

Vielleicht denken Sie: „Was soll das alles – diese ganzen Daten habe ich doch direkt vor der Nase?“ Stimmt aber nicht. Die Erstellung neuer abgeleiteter Variablen kann Ihnen nämlich helfen, viel aufschlussreichere Informationen zu bekommen. Zum Beispiel könnten Sie versuchen, die Anzahl der am nächsten Tag verkauften Zeitungen und Zeitschriften vorherzusagen.

Hier sind die Informationen, die Sie bereits haben:
•    Normales Geschäft oder Kiosk
•    Lotterielose verkaufen?
•    Höhe des aktuellen Lotteriegewinns

Irgendeine Schätzung können Sie auf Basis dieser Daten sicher anstellen. Aber: Wenn Sie in der Lage sind, zuerst den Betrag des aktuellen Lotteriegewinns mit den früheren Gewinnen zu vergleichen und dann diese abgeleitete Variable mit Ihren bereits vorhandenen Variablen, dann erhalten Sie eine viel genauere Antwort.

 

6. Wenn etwas schief gehen kann, geht es schief. Testen Sie vor dem Launch.

Im Idealfall sollten Sie zu Beginn mit zwei oder mehr Modellen A/B-Tests durchführen können. Zur Belohnung wissen Sie dann nicht nur, wie Sie es richtig machen, sondern Sie werden Ihrer Sache auch sicherer sein, wenn Sie wissen, dass Sie es richtig machen.
Wenn Sie über die erste gründliche Testphase hinausdenken, sollten Sie auch einen Plan für den Fall haben, dass trotzdem etwas schief geht. Beispielsweise beginnen Ihre Kennzahlen zu sinken. Es gibt nun mehrere Dinge, die da hineinspielen werden. Sie brauchen eine Art Alarmfunktion, um sicherzustellen, dass dies so schnell wie möglich untersucht werden kann. Und wenn dann jemand vom Vorstand in Ihr Büro kommt und wissen will, was los ist, sollten Sie dringend parat haben, wie Sie das jemandem erklären, der wahrscheinlich wenig Ahnung von der Technik hat.

Es gibt natürlich noch mehr Themen, für die Sie schon vor dem Start eine Planung im Köcher haben müssen. Die Einhaltung von Richtlinien zum Beispiel: Nehmen wir etwa an, Sie beantragen einen Autokredit und der wird abgelehnt. Nach den neuen Bestimmungen der DSGVO haben Sie das Recht, den Grund dafür zu erfahren – genauer gesagt, welche über sie gespeicherten Daten dazu geführt haben könnten. Problem: Bei Machine Learning gibt es mitunter etwas wie eine Black Box, d. h., selbst die Ingenieure bzw. Datenwissenschaftler wissen einfach nicht, wie eine solche Entscheidung zustande gekommen ist. Bestimmte Unternehmen können Ihnen jedoch helfen, indem sie sicherstellen, dass Ihre Algorithmen eine detaillierte Vorhersage liefern.

 

7. Unbedingt unternehmensweit bereitstellen und automatisieren.

Wenn Sie jetzt anfangen, Ihr Machine Learning Modelle auszurollen, dann hören Sie bloß nicht schon bei den Datenanalysten oder Datenwissenschaftlern damit auf. Soll heißen: Beziehen Sie immer in Ihre Überlegungen mit ein, wie Sie Vorhersagen und umsetzbare Erkenntnisse im gesamten Unternehmen verbreiten können. Denn die Daten sind nur so wertvoll, wie sie verfügbar sind. Die Tatsache allein, dass sie existieren, heißt noch gar nichts. Seien Sie also nicht der Typ im Elfenbeinturm, der gelegentlich großzügig Einblicke gewährt. Sondern seien Sie überall unentbehrlich und nützlich – bei allen, die Einblicke brauchen und wollen und auch kriegen sollen.

Da nun niemand so furchtbar viel Zeit für so etwas hat, ist es eine gute Idee, wenn Sie diese Vorgänge automatisieren. Erstellen Sie also Dashboards. Integrieren Sie Ihre Erkenntnisse in Unternehmensanwendungen.


Fazit

Hier also noch einmal die wesentlichen Faktoren für gutes maschinelles Lernen: Sie brauchen gute Daten, sonst hängen Sie einfach in der Luft. Sie müssen sie in irgendetwas wie eine Datenbank oder einen Objektspeicher stecken. Sie müssen fundiert Bescheid wissen über die Daten und was Sie damit tun können – sei es beim Erstellen neuer abgeleiteter Variablen oder bei den richtigen Algorithmen für die Nutzung. Und schließlich müssen Sie sie wirklich praktisch einsetzen, großartige Erkenntnisse damit generieren und sie verbreiten.

Der schwierigste Teil ist der Start Ihres Machine-Learning-Projekts. Wir hoffen, dass dieser Beitrag Sie bei den ersten Schritten zum Erfolg unterstützt hat. Wenn Sie Fragen haben oder unsere Machine Learning Software kennenlernen möchten, zögern Sie nicht, uns zu kontaktieren.

 

Sie können auch auf einige der Beiträge zurückgreifen, die wir über Best Practices und Herausforderungen des maschinellen Lernens in diesem Bereich veröffentlicht haben. Oder laden Sie Ihr kostenloses eBook "Demystifying Machine Learning" herunter.

 

Um zu erfahren, wie Sie von Oracle Big Data profitieren können, besuchen Sie Oracle.com/Big-Data – und vergessen Sie nicht, den Oracle Big Data Blog zu abonnieren, damit Sie die neuesten Beiträge stets in Ihren Posteingang bekommen.

 

Kontakt:

Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-MailLinkedInXing oder Twitter. Cesar Ortiz, Principal Solution Engineer.

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.