mercredi janv. 11, 2012

Big Data : opportunité Business et (nouveau) défi pour la DSI ?

Translate in English

Ayant participé à quelques conférences sur ce thème, voici quelques réflexions pour commencer l'année 2012 sur le sujet du moment...

Big Data : Opportunités Business

Comme le souligne une étude de McKinsey (« Big Data: The next frontier for innovation, competition, and productivity » ), la maîtrise des données (dans leur diversité) et la capacité à les analyser à un impact fort sur l’apport que l’informatique (la DSI) peut fournir aux métiers pour trouver de nouveaux axes de compétitivité. Pour ne citer que 2 exemples, McKinsey estime que l'exploitation du Big Data pourrait permettre d'économiser plus de €250 milliards sur l'ensemble du secteur public Européen (identification des fraudes, gestion et mesures de l'efficacité des affectations des subventions et des plans d'investissements, ...). Quant au secteur marchand, la simple utilisation des données de géolocalisation pourrait permettre un surplus global de $600 milliards, opportunité illustrée par Jean-Pierre Dijcks dans son blog : "Understanding a Big Data Implementation and its Components".

Volume, Vélocité, Variété...

Le "Big Data" est souvent caractérisé par ces 3x V :

  • Volume : pour certains, le Big Data commence à partir du seuil pour lequel le volume de données devient difficile à gérer dans une solution de base données relationnelle. Toutefois, les avancées technologiques nous permettent toujours de repousser ce seuil de plus en plus loin sans remettre en cause les standards des DSI (cf: Exadata), et c'est pourquoi, l'aspect volume en tant que tel n'est pas suffisant pour caractériser une approche "Big Data".
  • Vélocité : le Big Data nécessite donc également une notion temporelle forte associée à de gros volumes. C'est à dire, être capable de capturer une masse de données mouvante pour pouvoir soit réagir quasiment en temps réel face à un évènement ou pouvoir le revisiter ultérieurement avec un autre angle de vue.
  • Variété : le Big Data va adresser non seulement les données structurées mais pas seulement. L'objectif essentiel est justement de pouvoir aller trouver de la valeur ajoutée dans l'ensemble des données accessibles à une entreprise. Et à l'heure du numérique, de la dématérialisation, des réseaux sociaux, des fournisseurs de flux de données, du Machine2Machine, de la géolocalisation,... la variété des données accessibles est importante, en perpétuelle évolution (qui sera le prochain Twitter ou Facebook, Google+ ?) et rarement structurée.

""

...Visualisation et Valeur

A ces 3x V qui caractérisent le "Big Data" de manière générale j'en ajouterai 2 : visualisation et valeur !

Visualisation, car face à ce volume de données, sa variété et sa vélocité, il est primordial de pouvoir se doter des moyens de naviguer au sein de cette masse, pour en tirer (rapidement et simplement) de l'information et de la Valeur, afin de trouver ce que l'on cherche mais aussi,... bénéficier d'un atout intéressant au travers de la diversité des données non structurées couplées aux données structurées de l'entreprise : la sérendipité ou, trouver ce que l'on ne cherchait pas (le propre de beaucoup d'innovations) !

Les opportunités pour le Business se situent évidemment dans les 2 derniers V : savoir visualiser l'information utile pour en tirer une valeur Business ...

(nouveau) Défi pour la DSI

Le défi pour la DSI est dans la chaîne de valeur globale : savoir acquérir et stocker un volume important de données variées et mouvantes, et être capable de fournir les éléments (outils) aux métiers pour en tirer du sens et de la valeur. Afin de traiter ces données (non-structurées), il est nécessaire de mettre en oeuvre des technologies complémentaires aux solutions déjà en place pour gérer les données structurées des entreprises. Ces nouvelles technologies sont initialement issues des centres de R&D des géants de l'internet, qui ont été les premiers à être confrontés à ces masses d'information non-structurées. L'enjeu aujourd'hui est d'amener ces solutions au sein de l'entreprise de manière industrialisée avec à la fois la maîtrise de l'intégration de l'ensemble des composants (matériels et logiciels) et leur support sur les 3 étapes fondamentales que constitue une chaîne de valeur autour du Big Data : Acquérir, Organiser et Distribuer.

  1. Acquérir : une fois les sources de données identifiées (avec les métiers), il faut pouvoir les stocker à moindre coût avec de forte capacité d'évolution (de part la volumétrie concernée et la rapidité de croissance) à des fins d'extraction d'information. Un système de grille de stockage évolutif doit être déployé, à l'instar du modèle Exadata. La référence dans ce domaine pour le stockage en grille de données non-structurées à des fins de traitement est  HDFS (Hadoop Distributed Filesystem), ce système de fichiers étant directement lié aux algorithmes d'extraction permettant d'effectuer l'opération directement là où les données sont stockées.

  2. Organiser : associer un premier niveau d'index {clé,valeur} sur ces données non-structurées avec NoSQL (pour Not Only SQL) . L'intérêt ici, par rapport à un modèle SQL classique étant de pouvoir traiter la variété (modèle non prédéfinie à l'avance), la vélocité et le volume. En effet, la particularité du NoSQL est de traiter les données sur un modèle CRUD (Create, Read, Update, Delete) et non pas ACID (Atomicity, Consistency, Isolation, Durability), avec ses avantages de rapidité (pas besoin de rentrer les données dans un modèle structuré) et ses inconvénients (accepter pour des raisons de capacité d'acquisition de pouvoir être amené à lire des données "périmées", entre autres). Et ensuite pouvoir également extraire de l'information au travers de l'opération MapReduce s'effectuant directement sur la grille de données non-structurées (pour éviter de transporter les données vers des noeuds de traitement).

    L'information ainsi extraite de cette grille de données non-structurées devient une partie du patrimoine de l'entreprise et a toute sa place dans les données structurées et donc fiables et à "haute densité" d'information. C'est pourquoi, l'extraction d'information des données non-structurées nécessite également une passerelle vers l'entrepôt de données de l'entreprise pour enrichir le référentiel. Cette passerelle doit être en mesure d'absorber d'importants volumes d'information dans des temps très courts.

    Ces 2 premières étapes ont été industrialisées aussi bien sur la partie matérielle (grille/cluster de stockage) que logicielle (HDFS, Hadoop MapReduce, NoSQL, Oracle Loader for Hadoop) au sein de l'Engineered System d'Oracle : Oracle Big Data Appliance, le référentiel de données structurées pouvant quant à lui être implémenté au sein d'Exadata.


  3. Distribuer : la dernière étape consiste à rendre disponible l'information aux métiers, et leur permettre d'en tirer la quintessence : Analyser et Visualiser. L'enjeu est de fournir les capacités de faire de l'analyse dynamique sur un gros volume de données (cubes décisionnels) avec la possibilité de visualiser simplement sur plusieurs facettes.

    Un premier niveau d'analyse peut se faire directement sur les données non-structurées au travers du langage R, directement sur le Big Data Appliance.

    L'intérêt réside également dans la vision agrégée au sein du référentiel enrichi suite à l'extraction, directement au travers d'Exadata par exemple... ou via un véritable tableau de bord métier dynamique qui vient s'interfacer au référentiel et permettant d'analyser de très gros volumes directement en mémoire avec des mécanismes de visualisation multi-facettes, pour non seulement trouver ce que l'on cherche mais aussi découvrir ce que l'on ne cherchait pas (retour sur la sérendipité...). Ceci est fait grâce à l'identification (visuelle) d'axes de recherches que les utilisateurs n'avaient pas forcément anticipés au départ.

    Cette dernière étape est industrialisée au travers de la solution Exalytics, illustrée dans la vidéo ci-dessous dans le monde de l'automobile, où vous verrez une démonstration manipulant dynamiquement les données des ventes automobiles mondiales sur une période de 10 ans, soit environ 1 milliard d'enregistrements et 2 TB de données manipulées en mémoire (grâce a des technologies de compression embarquées).



HSM (Hierachical Storage Management) et Big Data

Pour terminer la mise en place de l'éco-système "Big Data" au sein de la DSI, il reste un point fondamental souvent omis : la sécurisation et l'archivage des données non-structurées. L'objectif est de pouvoir archiver/sauvegarder les données non-structurées à des fins de rejeu éventuel, et pour faire face à la croissance des volumes en les stockant sur un support approprié en fonction de leur "fraîcheur".  En effet, une grille de type Hadoop base sa sécurité sur la duplication de la données, mais si une donnée est corrompue, ses copies le sont aussi. En outre, cette grille est là pour permettre un traitement à un instant t (vélocité) sur les données, une fois ce traitement effectué, les données sur la grille sont souvent remplacées par des données plus récentes (voir l'exemple : "⁞Understanding a Big Data Implementation and its Components" qui traite bien du cas d'usage des données liées à un contexte temporel) . Dans certains cas d'usage, il peut être intéressant de pouvoir revisiter des données capturées ultérieurement avec un autre angle d'analyse, ou pour des besoins de vérification, et dans tous les cas pour pouvoir restaurer en cas d'incident de corruption. C'est là où le couplage avec une solution de stockage hiérarchique (HSM) est indispensable pour la capture initiale des données non-structurées et leur archivage à moindre coût face aux volumétries à traiter. C'est ce que nous couvrons au travers de notre solution Storage Archive Manager (SAM), solution d'ailleurs utilisée dans un projet "Big Data" français pour pouvoir archiver 1 PB de données non-structurées.

Pour aller plus loin :

vendredi févr. 06, 2009

OpenStorage : la révolution dans la gestion des données

Avant de plonger dans la naissance de la révolution OpenStorage, j'aimerais commencer par souligner 2 éléments importants de la gestion des données aujourd'hui :
  • l'explosion des données à gérer, stocker, analyser. Nous en sommes déjà aux PB dans les entreprises (j'ai personnellement 2TB sur mon bureau...)... bientôt les Exabytes...
  • un marché propriétaire et captif pour les stocker. Si je me permets une analogie, un marché qui ressemble fortement au marché des imprimantes : grosse compétition sur le stockage au prix au giga (l'imprimante au moins cher) et ensuite, un prix très élevé sur les fonctions propriétaires additionnelles indispensables pour gérer de telles volumétries -logiciels de réplications, de snapshots, de compression... - (cartouches propriétaires et non standard pour les imprimantes)
Et Sun dans tout ça ? Nous sommes effectivement très présents sur le marché du stockage, et comme nous aimons beaucoup l'innovation, nous avons pris un virage radical dans l'économie du stockage et de la gestion des données : l'Open Storage. La première solution qui nous a servi de validation du concept s'appelle le X4500 : un serveur hybride, moitié stockage, moitié serveur, permettant de stocker 48TB dans 4U, mais surtout une solution performante, ouverte et intégrée, qui représente déjà 11PB chez un de nos clients français dans le monde de la recherche. Une solution qui fournit toutes les fonctions nécessaires dès le départ : le prix au giga incluant la réplication, le snapshot, la compression... et plus besoin de fsck() car le système de fichier (ZFS) garantit l'intégrité : une des raisons majeures pour laquelle notre client avec 11PB a retenu cette solution (imaginez que vous soyez obligé de vérifier l'intégrité d'un système de fichier de 48TB : ça prend du temps !).

Comme cette solution est basée à 100% sur nos technologies matérielles et logicielles, cela nous permet d'avoir une approche au meilleur coût, surtout que nous valorisons l'open source pour l'enrichir. Voilà pour le deuxième point évoqué plus haut : fini le marché propriétaire et captif, vive l'Open Storage !

Maintenant, il est également important de répondre au premier point : l'explosion des données à traiter. Ce point est critique et suppose une toute nouvelle approche par rapport aux systèmes de stockages classiques SAN ou NAS actuels. En effet, comment traiter toujours plus de données ? Un premier élément de réponse nous est donné par Google, qui, ne trouvant pas de solution sur le marché pour classer toutes les données d'internet a développé sa propre solution. Le principe est simple : comme il est impossible de ramener des PB, voir Exabytes de données vers des serveurs de traitements, ils ont intégré l'application au plus près des données, données qui sont réparties sur les briques à la fois serveur et stockage : le GoogleFS et l'algorithme Map/Reduce... qui sont maintenant disponibles en open source, au travers des projets hadoop (Map/Reduce) et HDFS (GoogleFS)... Je viens d'ailleurs de récupérer l'image ISO OpenSolaris (livehadoop) incluant l'ensemble pour jouer un peu avec (grâce à VirtualBox). Evidement, la brique Sun X4540 (extension du X4500) correspond parfaitement à ce type de déploiement. C'est d'ailleurs ce qu'a fait Greenplum pour sa solution de Business Intelligence.

Bien entendu, tout le monde n'a pas encore Hadoop chez soi, quoi que, les personnes cherchant à faire de l'analyse sur des données non structurées (donc massives) regardent cela de très près. Par contre, tout le monde possède des serveurs de fichiers, qui, eux aussi voient leur besoin en stockage croitre de façon dramatique... C'est là que nous avons décidé d'agir avec les dernières solutions Open Storage (S7110, S7210 et S7410) avec, en prime, des fonctions d'analyses  du stockage (adaptables à vos besoins) et des performances uniques à ce jour, y compris pour stocker les données du "Cloud" avec MySQL.

Notre capacité à combiner les innovations matérielles ET le logiciel au sein des systèmes Open Storage nous permet d'obtenir des performances extrèmes, de part la combinaison des disques SSD et du système de fichier ZFS capable de l'exploiter (avoir des disques SSD est une condition nécessaire mais pas suffisante - pour ceux qui n'auraient que cela à leur catalogue- il faut également un système de fichier "SSD aware" - merci ZFS). Jusqu'à :

  • 5x et 40x !!! sur les IOPS
  • avec un temps de réponse autour de 1ms ! (une fois le cache SSD "chaud" - ce qui peut prendre un peu de temps)
... mais quand même, pour les suspicieux, les résultats sont là avec en plus pas mal de règles de mise en oeuvre en fonction des types de profils d'I/O qui sont donnés par Brendan Gregg.

Comme je le disais récemment, l'avantage de la démarche d'adoption des technologies ouvertes de Sun, c'est que non seulement vous pouvez télécharger le logiciel mais aussi le matériel ! pour l'essayer chez vous gratuitement ! Et en plus très simple à installer, à en croire ceux qui l'ont déjà testé :

Si vous voulez en savoir plus, l'un des développeurs de cette technologie, expert en performance, sera à Paris le 18 Mars, Roch Bourbonnais. Je vous tiendrai informé prochainement de la logistique pour ceux que cela intéresse. Mais vous pouvez dès maintenant réserver votre soirée...

Translate in English

About

Eric Bezille

Search

Archives
« avril 2014
lun.mar.mer.jeu.ven.sam.dim.
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
    
       
Today