lundi sept. 23, 2013

#OOW2013: All your Database in-memory for All your existing applications... on Big Memory Machines

Many announcements have been made today by Larry Ellison, during his opening of Oracle OpenWorld. To begin with, Americas Cup is still running, as Oracle won today's races.  I must admit that seeing those boats racing at such a speed and crossing each other at few meters was really impressive. On OpenWorld side, it was also very impressive. More people this year are attending the event : 60 000 ! And in terms of big numbers, we saw very impressive results of the new features and products that have been announced today by Larry: Database 12c in-memory option, M6-32 Big Memory Machine, M6-32 SuperCluster and Oracle Database Backup, Logging, Recovery Appliance (yes, I am not joking, that's its real product name !).

Database 12c in-memory option: both row and column in-memory formats for same data/table

This new option will benefit all your existing applications unchanged. We are leveraging the memory to store both formats at the same time. This enable us to drop all the indexes that are usually necessary to process queries, for a design target of x100 improvement on performance for real-time analytic. As you will see later, we can achieve even more, especially if we are running on an M6-32 Big Memory Machine. At the same time the goal was also to improve transactions x2 !

The nice thing of this option is that it will benefit to all your existing applications running on top of Oracle Database 12c: no change required.

On stage, Juan Loaiza, did a small demonstration of this new option on a 3 billions row database, representing wikipedia research query. On a regular database, without this option, after identifying (or guessing) the query that will most likely be used by users, you put in place appropriate indexes (from 10 to 20 indexes), then you can run you query with acceptable performance, in this case: 2005 Million Rows Scanned / Sec instead of  5 Million Rows Scanned / Sec. Not too bad... Now if we replace the indexes required by the new Column formats store in-memory, we achieved in this case: 7151 Million Rows Scanned / Sec ! Something people looking into Big Data, and real-time decisions, will surely have a look at it.

 The second announcement was a new processor, and a new system associated with it: the M6 chip and the M6-32 Big Memory Machine... available now !

M6-32 Big Memory Machine: Terabyte Scale Computing

This system is compatible with the previous generation of M5 chips, protecting existing investment, and can host as well the new M6 12x cores, 96 threads processor. All in this system is about Terabytes : up to 32 TB of memory, 3 Terabytes/sec of system bandwidth, 1.4 Terabytes/sec of memory bandwidth, 1 Terabyte per second of I/O bandwidth !

This new machine is also the compute node of the new M6-32 SuperCluster announced also today.

M6-32 SuperCluster: In-Memory Database & Application System

That's our fastest Database Machine, with big memory for Column store and integrated Exadata Storage ! Juan Loaiza did also the same demonstration of the wikipedia search on this system... but not with 3 billions rows, but 218 billions rows ! The result speaks by itself: 341 072 Million Rows Scanned / Sec !

With all those critical systems hosting such amount of Data, it is also very important to provide a powerful Database Backup and Restore Solution... And that's all the latest Appliance announced today is about.

Oracle Database Backup, Logging, Recovery Appliance

By just reading its name you get nearly all the capabilities this new appliance will provide to you. First, it is specialized to backup Oracle Database of ALL your systems running an Oracle Database (Engineered Systems, like the lastest M6-32 SuperCluster or Exadata, as well as your regular servers). Second, it also captures all your Database logs. So not only do you have a backup but also the deltas between now and your latest backup. This is allowing you to come back at the point you want when recovering your database.

It can even be coupled with our new Database Backup service on Oracle Public Cloud, for an extra secure copy.

With this new appliance you can now be confident in securing your Oracle Database data.

Building your future datacenter

Today, not only did we see the new Oracle Database 12c enabling to work on memory for all you application, we also saw the associated M6-32 server and associated Engineered Systems M6-32 SuperCluster to run the stack with Big Memory capacity... all being secured by Oracle Database backup, Logging, Recovery Appliance. All of those innovations contributing to build your Datacenter of the future, where all is engineered to work together at the factory.

mercredi oct. 17, 2012

Understanding what's happening to your VMWare's VM I/O in real-time

Back in California to work for a week with our development teams, I met Art Licht, who pointed me to a very cool 7 minutes video showing how you see and analyze what's going on for each one of your VMWare's VM seating on your ZFS Storage Appliance. I invite you to see the real value this can bring to you and any Infrastructure Cloud Builder or Operator in this short video :


mercredi janv. 11, 2012

Big Data : opportunité Business et (nouveau) défi pour la DSI ?

Translate in English

Ayant participé à quelques conférences sur ce thème, voici quelques réflexions pour commencer l'année 2012 sur le sujet du moment...

Big Data : Opportunités Business

Comme le souligne une étude de McKinsey (« Big Data: The next frontier for innovation, competition, and productivity » ), la maîtrise des données (dans leur diversité) et la capacité à les analyser à un impact fort sur l’apport que l’informatique (la DSI) peut fournir aux métiers pour trouver de nouveaux axes de compétitivité. Pour ne citer que 2 exemples, McKinsey estime que l'exploitation du Big Data pourrait permettre d'économiser plus de €250 milliards sur l'ensemble du secteur public Européen (identification des fraudes, gestion et mesures de l'efficacité des affectations des subventions et des plans d'investissements, ...). Quant au secteur marchand, la simple utilisation des données de géolocalisation pourrait permettre un surplus global de $600 milliards, opportunité illustrée par Jean-Pierre Dijcks dans son blog : "Understanding a Big Data Implementation and its Components".

Volume, Vélocité, Variété...

Le "Big Data" est souvent caractérisé par ces 3x V :

  • Volume : pour certains, le Big Data commence à partir du seuil pour lequel le volume de données devient difficile à gérer dans une solution de base données relationnelle. Toutefois, les avancées technologiques nous permettent toujours de repousser ce seuil de plus en plus loin sans remettre en cause les standards des DSI (cf: Exadata), et c'est pourquoi, l'aspect volume en tant que tel n'est pas suffisant pour caractériser une approche "Big Data".
  • Vélocité : le Big Data nécessite donc également une notion temporelle forte associée à de gros volumes. C'est à dire, être capable de capturer une masse de données mouvante pour pouvoir soit réagir quasiment en temps réel face à un évènement ou pouvoir le revisiter ultérieurement avec un autre angle de vue.
  • Variété : le Big Data va adresser non seulement les données structurées mais pas seulement. L'objectif essentiel est justement de pouvoir aller trouver de la valeur ajoutée dans l'ensemble des données accessibles à une entreprise. Et à l'heure du numérique, de la dématérialisation, des réseaux sociaux, des fournisseurs de flux de données, du Machine2Machine, de la géolocalisation,... la variété des données accessibles est importante, en perpétuelle évolution (qui sera le prochain Twitter ou Facebook, Google+ ?) et rarement structurée.

""

...Visualisation et Valeur

A ces 3x V qui caractérisent le "Big Data" de manière générale j'en ajouterai 2 : visualisation et valeur !

Visualisation, car face à ce volume de données, sa variété et sa vélocité, il est primordial de pouvoir se doter des moyens de naviguer au sein de cette masse, pour en tirer (rapidement et simplement) de l'information et de la Valeur, afin de trouver ce que l'on cherche mais aussi,... bénéficier d'un atout intéressant au travers de la diversité des données non structurées couplées aux données structurées de l'entreprise : la sérendipité ou, trouver ce que l'on ne cherchait pas (le propre de beaucoup d'innovations) !

Les opportunités pour le Business se situent évidemment dans les 2 derniers V : savoir visualiser l'information utile pour en tirer une valeur Business ...

(nouveau) Défi pour la DSI

Le défi pour la DSI est dans la chaîne de valeur globale : savoir acquérir et stocker un volume important de données variées et mouvantes, et être capable de fournir les éléments (outils) aux métiers pour en tirer du sens et de la valeur. Afin de traiter ces données (non-structurées), il est nécessaire de mettre en oeuvre des technologies complémentaires aux solutions déjà en place pour gérer les données structurées des entreprises. Ces nouvelles technologies sont initialement issues des centres de R&D des géants de l'internet, qui ont été les premiers à être confrontés à ces masses d'information non-structurées. L'enjeu aujourd'hui est d'amener ces solutions au sein de l'entreprise de manière industrialisée avec à la fois la maîtrise de l'intégration de l'ensemble des composants (matériels et logiciels) et leur support sur les 3 étapes fondamentales que constitue une chaîne de valeur autour du Big Data : Acquérir, Organiser et Distribuer.

  1. Acquérir : une fois les sources de données identifiées (avec les métiers), il faut pouvoir les stocker à moindre coût avec de forte capacité d'évolution (de part la volumétrie concernée et la rapidité de croissance) à des fins d'extraction d'information. Un système de grille de stockage évolutif doit être déployé, à l'instar du modèle Exadata. La référence dans ce domaine pour le stockage en grille de données non-structurées à des fins de traitement est  HDFS (Hadoop Distributed Filesystem), ce système de fichiers étant directement lié aux algorithmes d'extraction permettant d'effectuer l'opération directement là où les données sont stockées.

  2. Organiser : associer un premier niveau d'index {clé,valeur} sur ces données non-structurées avec NoSQL (pour Not Only SQL) . L'intérêt ici, par rapport à un modèle SQL classique étant de pouvoir traiter la variété (modèle non prédéfinie à l'avance), la vélocité et le volume. En effet, la particularité du NoSQL est de traiter les données sur un modèle CRUD (Create, Read, Update, Delete) et non pas ACID (Atomicity, Consistency, Isolation, Durability), avec ses avantages de rapidité (pas besoin de rentrer les données dans un modèle structuré) et ses inconvénients (accepter pour des raisons de capacité d'acquisition de pouvoir être amené à lire des données "périmées", entre autres). Et ensuite pouvoir également extraire de l'information au travers de l'opération MapReduce s'effectuant directement sur la grille de données non-structurées (pour éviter de transporter les données vers des noeuds de traitement).

    L'information ainsi extraite de cette grille de données non-structurées devient une partie du patrimoine de l'entreprise et a toute sa place dans les données structurées et donc fiables et à "haute densité" d'information. C'est pourquoi, l'extraction d'information des données non-structurées nécessite également une passerelle vers l'entrepôt de données de l'entreprise pour enrichir le référentiel. Cette passerelle doit être en mesure d'absorber d'importants volumes d'information dans des temps très courts.

    Ces 2 premières étapes ont été industrialisées aussi bien sur la partie matérielle (grille/cluster de stockage) que logicielle (HDFS, Hadoop MapReduce, NoSQL, Oracle Loader for Hadoop) au sein de l'Engineered System d'Oracle : Oracle Big Data Appliance, le référentiel de données structurées pouvant quant à lui être implémenté au sein d'Exadata.


  3. Distribuer : la dernière étape consiste à rendre disponible l'information aux métiers, et leur permettre d'en tirer la quintessence : Analyser et Visualiser. L'enjeu est de fournir les capacités de faire de l'analyse dynamique sur un gros volume de données (cubes décisionnels) avec la possibilité de visualiser simplement sur plusieurs facettes.

    Un premier niveau d'analyse peut se faire directement sur les données non-structurées au travers du langage R, directement sur le Big Data Appliance.

    L'intérêt réside également dans la vision agrégée au sein du référentiel enrichi suite à l'extraction, directement au travers d'Exadata par exemple... ou via un véritable tableau de bord métier dynamique qui vient s'interfacer au référentiel et permettant d'analyser de très gros volumes directement en mémoire avec des mécanismes de visualisation multi-facettes, pour non seulement trouver ce que l'on cherche mais aussi découvrir ce que l'on ne cherchait pas (retour sur la sérendipité...). Ceci est fait grâce à l'identification (visuelle) d'axes de recherches que les utilisateurs n'avaient pas forcément anticipés au départ.

    Cette dernière étape est industrialisée au travers de la solution Exalytics, illustrée dans la vidéo ci-dessous dans le monde de l'automobile, où vous verrez une démonstration manipulant dynamiquement les données des ventes automobiles mondiales sur une période de 10 ans, soit environ 1 milliard d'enregistrements et 2 TB de données manipulées en mémoire (grâce a des technologies de compression embarquées).



HSM (Hierachical Storage Management) et Big Data

Pour terminer la mise en place de l'éco-système "Big Data" au sein de la DSI, il reste un point fondamental souvent omis : la sécurisation et l'archivage des données non-structurées. L'objectif est de pouvoir archiver/sauvegarder les données non-structurées à des fins de rejeu éventuel, et pour faire face à la croissance des volumes en les stockant sur un support approprié en fonction de leur "fraîcheur".  En effet, une grille de type Hadoop base sa sécurité sur la duplication de la données, mais si une donnée est corrompue, ses copies le sont aussi. En outre, cette grille est là pour permettre un traitement à un instant t (vélocité) sur les données, une fois ce traitement effectué, les données sur la grille sont souvent remplacées par des données plus récentes (voir l'exemple : "⁞Understanding a Big Data Implementation and its Components" qui traite bien du cas d'usage des données liées à un contexte temporel) . Dans certains cas d'usage, il peut être intéressant de pouvoir revisiter des données capturées ultérieurement avec un autre angle d'analyse, ou pour des besoins de vérification, et dans tous les cas pour pouvoir restaurer en cas d'incident de corruption. C'est là où le couplage avec une solution de stockage hiérarchique (HSM) est indispensable pour la capture initiale des données non-structurées et leur archivage à moindre coût face aux volumétries à traiter. C'est ce que nous couvrons au travers de notre solution Storage Archive Manager (SAM), solution d'ailleurs utilisée dans un projet "Big Data" français pour pouvoir archiver 1 PB de données non-structurées.

Pour aller plus loin :

About

Eric Bezille

Search

Archives
« avril 2014
lun.mar.mer.jeu.ven.sam.dim.
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
    
       
Today