X

Neuste Trends, Tipps, Strategien &
Events rund um das Thema Cloud

Analytics Cloud: Den Kampf gegen chronische Nierenleiden mit Data Science gewinnen

Es ist eine der großen Herausforderungen im Gesundheitswesen: Chronische Nierenerkrankungen (CKD für Chronical Kidney Disease). Früherkennung wird für eine erfolgreiche und nachhaltige Versorgung immer wichtiger. Es gibt jedoch viele Faktoren wie Blutdruck, Diabetes und andere Störungen, die zum allmählichen Verlust der Nierenfunktion beitragen können.

 

Auf einen Blick: Wie man mit Data Science den Kampf gegen chronische Nierenleiden gewinnt

 
CKD ist eine schleichende Erkrankung, die in unterschiedlichen Stadien kritisch werden kann. Die gute Nachricht ist nun: Mithilfe von Daten aus der Diagnostik und der Krankheitsgeschichte des Patienten kann man über maschinelles Lernen und Datenerkundung das CKD-Risiko frühzeitig erkennen.

 

Wir werden hier mit State of the Art Data Science aufzeigen, wie sich CKD mit den Datenvisualisierungstools in der Oracle Analytics Cloud vorhersagen lässt – und zwar, ohne Code in R oder Python zu schreiben! Sie können sich zur Veranschaulichung das komplette CKD-DV-Projekt aus der Oracle DV Library herunterladen. Oracle Data Visualization ist als hoch entwickeltes Self-Service-Analysetool ein Bestandteil der Oracle Autonomous Analytics Cloud.

Der Datensatz für die CKD-Prognose

In diesem Beispiel verwenden wir den von UCI bereitgestellten Beispieldatensatz, vgl. Dua, D. und Karra Taniskidou, E. (2017): UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer ScienceDen Kampf gegen chronische Nierenleiden mit Data Science gewinnenDer Datensatz besteht aus Eigenschaften, die sich auf Symptome, Erkrankungen, grundlegende Labortests und eine Klasse für eine bestehende CKD beziehen. Zusätzliche Datenpunkte wie GFR (Glomerular Filtration Rate), aktuelle Medikamente und andere progressive Parameter sind in diesem Beispieldatensatz nicht enthalten. Bei diesem Beispiel geht es nur darum, das Prinzip des Ansatzes zu verstehen, der sich ja genauso auf viele andere Fälle und reale Daten anwenden lässt. Der Datensatz darf auch fehlende Datenpunkte beinhalten; im Zuge der Datenaufbereitung können wir solche Eigenschaften bzw. Zeilen mit mehr als 15 Prozent fehlendem Wert entfernen. In anderen Anwendungsfällen können Sie auch fehlende Werte mithilfe eines statistischen Ansatzes ergänzen. Oracle Analytics Cloud bietet integrierte Funktionen zur visuellen Aufbereitung und zur Anreicherung von Datensätzen, indem Empfehlungen eingespielt werden!

Datenexploration

Wie bei jedem Datensatz möchten wir zunächst die Verteilung der grundlegenden Daten verstehen – hier für die Fälle mit diagnostizierter CKD. Eine einfach zu erstellende Visualisierung plus die Best-View-Empfehlung von Oracle Analytics Cloud führt uns schnell vor Augen, wie sich CKD-positive bzw. -negative Fälle in Bezug auf verschiedene Symptome und Labortestzahlen unterscheiden. Die Datenexplorationsfläche im Diagramm unten hebt die Schlüsselindikatoren hervor:

1.    Das Torten-Diagramm zeigt, dass Bluthochdruck und Diabetes fast 50% der gegebenen Symptome oder Bedingungen für positive Fälle CKD ausmachen.

2.    Die Tree Map (Kacheldiagramm) hebt den unteren Hämoglobinbereich für CKD-positive Fälle deutlich hervor.

Es gibt viele solcher Datenexplorationsansichten, die man generieren kann, um positive CKD-Fälle zu verstehen. In diesem Stadium beginnen wir bereits zu erkennen, wie sich tatsächliche CKD-Fälle über Symptome und Labordiagnosedaten hinweg gestalten.

Data Science mit Tools der Oracle Analytics Cloud kann Zusammenhänge besser visualisieren, z. B. zur besseren Vorbeugung bei chronischen Nierenleiden

 

Korrelationen und Muster

Der zwingend folgende Schritt in einem Data-Science-Prozess ist es, die Muster und Zusammenhänge zwischen gegebenen Eigenschaften zu verstehen. Der Witz beim richtigen Interpretieren der Korrelation ist es, die Eigenschaften zu identifizieren, die für das Modell des maschinellen Lernens wichtig sind. Dieser Prozess läuft unter der Bezeichnung Feature Engineering. Mit Oracle Analytics Cloud können wir Korrelationen und wichtige Eigenschaftsbeziehungen visuell identifizieren, indem wir Streudiagramme, Korrelationsdiagramme sowie Heat Maps darstellen. Die Arbeitsfläche Muster und Korrelationen im folgenden Diagramm zeigt auf:

1.    Clusterverteilung von CKD-positiven versus -negativen Fällen basierend auf dem Gehalt an Hämoglobin und Blutharnstoff

2.    Die Korrelationsmatrix hilft, positive gegenüber negativen Beziehungen zwischen verschiedenen Krankheitsbildern zu verstehen, wobei die Einfärbung anzeigt, wie hoch die Korrelation dieser Eigenschaften ist.

Die Oracle Analytics Cloud hilft mit einem Klick, bestimmte Muster bei der Generierung von linearen oder nichtlinearen Regressionslinien, Clustern und Ausreißern zu verstehen.

Data Science mit Tools der Oracle Analytics Cloud kann Zusammenhänge besser visualisieren, z. B. zur besseren Vorbeugung bei chronischen Nierenleiden

 

Abgrenzungen für die Entscheidungsfindung

Sobald Sie die wichtigsten Merkmale für die weitere Analyse und den Aufbau des Machine-Learning (ML)-Modells identifiziert haben, hilft es sehr gut weiter, den Wertebereich und die Grenzen dieser Schlüsselfaktoren in den Griff zu kriegen.

Sehr oft können wir mit Area Plot und Sankey Chart Entscheidungspunkte schnell identifizieren, wie die nächste Abbildung zeigt. Das Sankey-Diagramm für den Kreatininspiegel zeigt die Verteilung und Aufschlüsselung des Kreatininspiegels für positive versus negative CKD-Fälle. Ebenso können andere wichtige Eigenschaften angezeigt werden, um klare Grenzen und Entscheidungspunkte herauszuarbeiten. Die Area Map wiederum hilft beim Verständnis der Kombination von Eigenschaftsbereichen, die bei Entscheidungen im Zusammenhang mit dem CKD-Risiko helfen können. Wir sind nun so weit, dass wir ein gutes Verständnis für den Eigenschaftsbereich und die Ebenen, die zu einer positiven CKD-Erkrankung beitragen, gewonnen haben.

Data Science mit Tools der Oracle Analytics Cloud kann Zusammenhänge besser visualisieren, z. B. zur besseren Vorbeugung bei chronischen Nierenleiden

 

CKD automatisch erklären

Während ein Datenwissenschaftler auf der Grundlage der identifizierten Schlüsselfaktoren einen visuellen Entscheidungsbaum erstellt, bietet Oracle Analytics Cloud eine schnelle Möglichkeit, Schlüsselfaktoren und Segmente sowie Anomalien in Ihren Daten zu visualisieren. Ein Feature der Automatisierung und erweiterten Funktionen ist es, einfach mit der rechten Maustaste auf eine beliebige Eigenschaft oder eine Messung innerhalb eines Datensatzes zu klicken, um dieses Datenelement automatisch erklären zu lassen.

Oracle Analytics Cloud durchläuft ein ML-Programm, um Erkenntnisse zu gewinnen, die einen unvoreingenommenen Blick auf die Analyse ermöglichen. Diese Automatisierung und erweiterte Analytik beschleunigt den Prozess der Datenfindung. Das folgende Diagramm zeigt die Ergebnisansicht der automatischen Erklärungsfunktion der Oracle Analytics Cloud. Damit steht ein guter Ausgangspunkt unmittelbar zur Verfügung, statt eine eigene Datenexplorationsansicht von Grund auf neu zu erstellen.

Data Science mit Tools der Oracle Analytics Cloud kann Zusammenhänge besser visualisieren, z. B. zur besseren Vorbeugung bei chronischen Nierenleiden

 

ML-Modelle und Prognosen

Sobald wir die wichtigsten Merkmale und Grenzziehungen verstanden haben, geht es um die Entwicklung eines maschinellen Lernmodells, das uns hilft, das CKD-Risiko für einen neuen Fall zu prognostizieren. Mit Oracle Analytics Cloud können wir schnell ML-Modelle erstellen und zwischen verschiedenen Algorithmen des Tools durchtesten.

Für das folgende CKD-Beispiel haben wir nur wenige binäre Klassifikatoralgorithmen wie Logistic Regression und Support Vector Machines (SVM) durchlaufen. Die Tabelle zeigt die Ergebnisse einiger ML-Modelle zum Vergleich von Genauigkeit und Validierung. Ansätze, wie Sie Modellmetadaten zum Vergleich und zur Präsentation in der Oracle Analytics Cloud sammeln können, finden Sie in unseren früheren Blog-Datensätzen und darin enthaltenen Details zur Modellqualität. Die Arbeitsfläche im untenstehenden Diagramm zeigt auch, wie die Ausgabe des ML-Modells basierend auf dem SVM-Algorithmus aussieht.

Data Science mit Tools der Oracle Analytics Cloud kann Zusammenhänge besser visualisieren, z. B. zur besseren Vorbeugung bei chronischen Nierenleiden

 

Fazit und nächste Schritte

Oracle DV ermöglicht es fortgeschrittenen Nutzern, Muster in einem Datensatz schnell zu identifizieren und ML-Modelle zu erstellen, um Vorhersage-Ergebnisse zu testen. Oracle DV bietet einen modernen Ansatz, um hochentwickelte Analysefunktionen zu nutzen, die Analysten und Datenwissenschaftlern helfen, eine visuelle Datenentdeckungsgeschichte zu erstellen. Zugleich können wir damit auch den Datenfluss für große Datenverarbeitungsvolumen in Verbindung mit Ihrem Oracle Big Data Cloud-System steuern. Oracle DV wurde entwickelt, damit Sie Ihre eigenen Datensätze schnell anzeigen, mischen und erkunden, Muster verstehen und die Erkennung nutzen können, die auf größere Datensätze angewendet werden kann.

Um mehr über Oracle DV und andere maschinelle Lernfunktionen zu erfahren, laden Sie Oracle Analytics Cloud herunter und testen Sie das Datenvisualisierungstool selbst anhand einer Beispiel-Bibliothek!

 

Besuchen Sie unsere Oracle Cloud Analytics Website, um mehr zu erfahren:

Oracle Analytic Cloud kostenlos ausprobieren

 

Kontakt:

Ein spannendes Thema, über das ich gerne mit Ihnen spreche, per E-MailLinkedInXing oder Twitter. Sabine Leitner, Sr. Marketing Manager.

Kommentieren

Kommentare ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.Captcha