X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Panama Papers: Wie man mit Oracle 11,5 Mio. Dokumente analysiert

Big-Data-Analysen entziehen sich meist dem Blick von Normalsterblichen. Eine anschauliche Vorstellung davon, welche Massen von Daten mit welchen Instrumenten in (möglichst) verwertbare Aussagen verwandelt werden, ist kaum je zu gewinnen. Der Skandal um die Panama Papers (und in ihrem Gefolge die Paradise Papers) gibt Gelegenheit, den Deckel der Black Box, in der solche Analysen stattfinden, zu heben. Voilà, das Ausgangsmaterial:

  • 214.488 Briefkastenfirmen
  • 11,5 Mio. E-Mails, PDFs, Faxe, Urkunden usw.
  • 2,6 Terabyte an Daten
  • 109 Medien in 76 Ländern präsentierten am 3.4.2016 gleichzeitig erste Ergbenisse.

Wie war ers überhaupt menschenmöglich, ein so großes Konvolut unterschiedlichster Daten und Unterlagen aus diversen Quellen zu sinnvollen Informationen zu verarbeiten und zu analysieren – zumal es sich um nicht offensichtliche und (teilweise) sogar bewusst verschleierte Informationszusammenhänge über Briefkastenfirmen, handelnde Personen und Banken handelte?

Quelle: Süddeutsche Zeitung: “Das sind die Panama Papers”. 

Es ist leicht nachvollziehbar, dass die Datenverarbeitung vom Lesen der Rohdaten bis zur Visualisierung der Analyseergebnisse und der Schlussfolgerungen äußerst aufwändig ist und unterschiedlichste Technologien benötigt. 

Zunächst geht es darum, die aus den Rohdaten extrahierten Informationseinheiten und deren wechselseitige Zusammenhänge abzubilden. Dazu eignen sich besonders Graph-Datenbanken; sie stellen

  1. ein Datenmodell bereit, das auf die Beschreibung von Beziehungen zwischen Objekten der realen Welt spezialisiert ist und bringen
  2. auch die Werkzeuge und Algorithmen für die Analyse der Graphen mit.

So können Muster in den miteinander vernetzten Objekten erkannt werden. Außerdem lassen sich semantische Suchen ausführen und neues Wissen ableiten. Bei diesem Prozess kommt zusätzliches Wissen in Form von Thesauri, semantischen Netzen und Ontologien zum Einsatz.

Dr. Thorsten Liebig, Karin Patenge: “Visuelle Analyse von komplexen Daten am Beispiel der Panama Papers”, IT Tage 2017.

 

Graph Datenbanken

Die Oracle Datenbank ist eine multi-modale Datenbank. Sie unterstützt also bereits nativ unterschiedliche Datenmodelle wie Relational, XML, JSON, Geodaten oder Messages. Ab der Version 12.2 unterstützt sie nativ auch zwei Arten von Graph-Datenmodellen, nämlich RDF Graph[1] und Property Graph.

Die Analyse passiert nun direkt in der Datenbank mit Algorithmen, die für den jeweiligen Datentyp spezifisch vorimplementiert wurden und über die Abfragesprache SQL abrufbar sind. Dabei kann vorteilhafterweise die Oracle Datenbank im eigenen Rechenzentrum (on premises) betrieben, aber genauso gut auch als Cloud Service gemietet werden.

RDF Graph

RDF (Resource Description Framework) ist ein System von Ressouren, in dem logische Aussagen als „Subjekt-Prädikat-Objekt“-Sätze (engl. Triples) formuliert werden. Die Oracle Datenbank (Triple Store) dient bei der Nutzung des RDF Datenmodells zum Speichern dieser Aussagen. Die Aussagen sind maschinenlesbar und lassen sich von Programmen einfach erzeugen und verarbeiten.

RDF ist ein grundlegender Baustein des so genannten Semantischen Web. Der wesentliche Unterschied zum HTML-basierten Internet ist, dass Daten mit ihrem Kontext und ihrer Bedeutung in Zusammenhang gebracht werden.

Die Standard-Abfragesprache für die Analyse von RDF Graphen ist SPARQL.

Visuelle Graph-Analyse

Für die Präsentation und die zusätzliche visuelle Analyse werden Open Source Werkzeuge wie Cytoscape oder kommerzielle Lösungen wie SemSpect (derivo GmbH) eingesetzt. Diese greifen direkt auf die Graphen in der Oracle Datenbank zu.

Derivo GmbH. http://panama.semspect.de

Weiterführende Informationen:

 

Kontakt:

Wenn Sie mit mir über dieses spannende Thema diskutieren möchten, dann erreichen Sie mich per Email, XING, LinkedIn oder Twitter.
Karin Patenge, Business Development Manager, Technology and Cloud Platform.

 

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.Captcha