X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Data Lakes: In 5 Schritten zur Einsatzbereitschaft für Ihr Unternehmen

Big Data können für Organisationen Albtraum oder Goldgrube sein – das hängt unter anderem stark davon ab, wie diese großen Datenmengen von Anfang an organisiert sind. Besonders wo Daten aus unterschiedlichen Quellen bzw. in verschiedensten Formaten gesammelt werden, sind Data Lakes die erste Wahl, wenn es um die Speicherung geht.

 

Auf einen Blick: Data Lakes - In 5 Schritten zur Einsatzbereitschaft für Ihr Unternehmen

Wie können Unternehmen Data Lakes optimal einsetzen, um effizient und sicher Daten zu erschließen? 5 Schritte als Best-Practice.

 

Was sind Data Lakes und wozu dienen sie? Grob zusammengefasst: Data Lakes sind ein Sammelbecken für Rohdaten, die später erst verarbeitet und analysiert werden. Welche Vorteile Data Lakes in dieser Phase bieten und wie sie hier sicher und effizient genutzt werden, darum geht es im Folgenden. Stellen Sie sich einen Data Lake zunächst als den zentralen Netzknoten für Ihre Organisation vor, wo eben Daten aus verschiedensten Quellen zusammenfließen und Benutzern zur Abfrage zur Verfügung stehen. Auf den zweiten Blick gibt es hier aber einen End-to-End-Prozess, bei dem noch viel mehr vor sich geht. Um das anschaulich zu machen, nehmen wir zunächst die Vogelperspektive ein und betrachten dann jeden Schritt im Detail:

 

 

Schritt 1: Datenquellen bestimmen und verbinden

Data Lakes können – im Gegensatz zu Data Warehouses – Informationen aus fast jeder Art von Datenquelle aufnehmen. Hier können ohne Weiteres strukturierte, unstrukturierte und semistrukturierte Daten nebeneinander liegen. Sinn der Sache ist dabei, dass alle Daten in einem einzigen Speicher in ihrem jeweiligen Rohformat existieren können – und das heißt vor allem: absolut vollständig. Der Job eines Data-Warehouse ist dagegen, verarbeitete und zur Verwendung bereits vorbereitete Daten zu speichern. Das ist in vielen Fällen auch ganz hilfreich, aber es lässt viele Arten von Daten außen vor. Data Lakes sind also sozusagen die einheitliche Datenquelle für eine ganze Palette von Datenquellen. Durch diese Vereinheitlichung in Data Lakes können Benutzer auf alle Arten von Daten zugreifen – ohne die lästige Fummelei, sich vorher mit einzelnen Data Warehouses zu verbinden.

 

Schritt 2: Daten in sinnvolle Zonen packen

Ein sach- und fachgerechter Data Lake ist keine wilde Deponie. Best Practice heißt hier, eine gewisse Struktur einzurichten. Da die Datenquellen bekannt sein sollten, sollten Sie Speicherbereich für die jeweilige Quellen definieren. Wenn Sie zum Beispiel wissen, dass ein Datensatz sensible Finanzinformationen enthält, stecken Sie ihn in einen Bereich, für den ein Zugriff auf bestimmte Benutzerrollen und mit zusätzlichen Sicherheitsmaßnahmen einschränkt ist. Oder wenn Daten in einem festgelegten Format hereinkommen und von einer bestimmten Benutzergruppe (z. B. dem Data Scientist in der Personalabteilung) verwendet werden, dann kommen diese gleich in den eben dafür definierten Bereich.

Die folgenden Bereiche empfehlen sich im Allgemeinen für eingehende Daten, wobei der Vorteil der ist: Wenn Sie die Bereiche sofort einrichten, können Sie die ersten groben Organisationsschritte ohne jeglichen manuellen Eingriff durchführen. Es gibt dann noch weitere Schritte, um Auffindbarkeit und Einsetzbarkeit der Daten zu optimieren; aber mit diesen Bereichen wird fürs Erste ein großer Brocken automatisiert. Die Einteilung der Zonen stammen aus unserem Blogbeitrag 6 Ways To Improve Data Lake Security.

  • Temporal: Hierhin kommen kurzlebige Daten wie Kopien und Streaming-Spools vor ihrer Löschung.
  • Raw: Das ist der Platz für Rohdaten vor der Verarbeitung. Daten in diesem Bereich können auch weiter verschlüsselt werden, wenn sie sensibles Material enthalten.
  • Trusted: Das sind validierte Daten für den einfachen Zugriff von Data Scientists, Analysten und anderen Endnutzern.
  • Refined: In diesem Bereich liegen angereicherte und bearbeitete Daten für dne direkten Zugriff von weiteren Tools.

 

Schritt 3: Für Sicherheit sorgen

Wenn es eine CSV-Datei mit Feldern gibt, die sensible Daten enthalten, dann sollten Sie auf jeden Fall Sicherheitsmaßnahmen anwenden. Wenn nun Schritt 2 als automatisierter Prozess eingerichtet ist, dann hilft Ihnen diese erste Sortierung, eine halbwegs sichere Konfiguration hinzubekommen.

Beisielsweise weitere Maßnahmen die zu beachten sind:

  • klare benutzerbasierte Zugriffsrechte, die durch Rollen, den jeweiligen Bedarf und die Organisation definiert sind;
  • Verschlüsselung auf Basis einer umfassenden Bewertung der Kompatibilität innerhalb Ihrer bestehenden Infrastruktur;
  • Abklopfen der Daten nach Alarmsignalen wie z. B. bekannten Malware-Problemen, verdächtigen Dateinamen oder -formaten (etwa eine ausführbare Datei zwischen lauter Mediendateien). Maschine Learning kann diesen Prozess übrigens erheblich auf Trab bringen.

Wenn alle eingehenden Daten ein standardisiertes Sicherheitsverfahren durchlaufen, ist damit die Übereinstimmung zwischen Protokollen und Ausführung gewährleistet. Kommt noch Automatisierung hinzu, trägt dies ebenfalls zur Optimierung der Effizienz bei.

 

Schritt 4: Metadaten verwenden

Ein sicherer Zugriff auf die Datensätze in Ihrem Data Lake wäre damit gewährleistet – aber wie sieht es mit der Auffindbarkeit aus? Dafür müssen Sie die Daten richtig organisieren und mit entsprechenden Metadaten versehen. Data Lakes enthalten wie gesagt Rohdaten, und die kommen nun einmal nur mit einem Dateinamen, einem Format und einem Zeitstempel. Was also tun?

Hier kommt der Data Catalog ins Spiel. Dieses Tool dient dazu, die Suche in Data Lakes zu optimieren. Es bietet die Möglichkeit, mehr an Metadaten zu verwenden. So können Sie Daten genauer und effizienter organisieren und kennzeichnen. Mit Machine Learning kann der Data Catalog außerdem beginnen, Muster und Regelmäßigkeiten zu erkennen, und Objekte mit Labels kennzuzeichnen. Wenn zum Beispiel eine Datenquelle kontinuierlich MP3-Dateien unterschiedlicher Länge sendet, können Dateien mit einer Länge über 20 Minuten immer den Tag "Podcast" bekommen.

Die Datenmenge wird bekanntlich immer größer – und weil unweigerlich immer mehr Quellen unstrukturierte Daten in Ihren Data Lake speichern, macht diese Art, Muster zu verstehen und Prozesse zu automatisieren, einen dramatischen Unterschied hinsichtlich der Effizienz.

 

Schritt 5: Die Entscheidungsfindung streamlinen

Sind die Daten einmal sortiert, stehen sie für die Benutzer bereit. Wenn alle Datenquellen in einem einzigen Data Lake konsolidiert sind, ist die Erschließung einfach. Haben die Tools wie etwa Analysewerkzeuge keinen Zugriff auf die Data Lake Infrastruktur, braucht nur ein Export-/Importschritt durchgeführt zu werden, damit Sie die Daten verwenden können. Im noch günstigeren Fall sind diese Tools sogar in den Data Lake integriert – das ermöglicht dann Echtzeitabfragen der aktuellsten Daten ohne irgendeinen manuellen Eingriff.

Der entscheidende Unterschied dabei? – Eine kürzlich durchgeführte Umfrage hat gezeigt, dass bis zu einer definitiven Entscheidung im Durchschnitt fünf Datenquellen berücksichtigt werden! Wenn jede Quelle manuell abgefragt und aufgerufen werden muss, kann von Effizienz nicht mehr wirklich die Rede sein. Im Gegensatz dazu entfallen zahlreiche Schritte, wenn alles in einem einzigen, zugänglichen Data Lake zusammenfasst ist und Werkzeuge für die Echtzeit-Datenabfrage integriert sind. Das Finden und Erschließen der Daten ist dann mit nur wenigen Klicks möglich.

 

Verborgene Vorteile von Data Lakes

Die genannten Details brechen den End-to-End-Prozess in Data Lakes auf die Praxis herunter. Die daraus resultierenden Vorteile gehen aber über die Einsparung von Zeit und Geld hinaus. Denn durch die erleichterte Erschließung von mehr Daten für die Benutzer und durch die Beseitigung einer Reihe von Hürden beim Zugangs und Workflow bekommen Benutzer die Flexibilität, neue Perspektiven auszuprobieren, mit Daten zu experimentieren und nach alternativen Ergebnissen zu suchen. All dies ermöglicht bisher kaum je zugängliche Erkenntnisse, die zu ungeahnten Innovationen Ihres Unternehmens führen könnten.

 

Kontakt:

Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-MailLinkedInXing oder Twitter. Sabine Leitner, Sr. Marketing Manager.

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.