vendredi févr. 19, 2010

Oracle Extreme Performance Data Warehousing

Translate in English

Mardi dernier a eu lieu un évènement portant sur la probématique de performance des environnements Data Warehouse et organisé par Oracle. A cette occasion, Sun a été invité à présenter les infrastructures et solutions adressant les exigences toujours plus fortes dans ce domaine. Et BNP Paribas CIB, en la personne de Jim Duffy, Head of Electronic Market DW, a apporté un témoignage très intéressant sur les phases d'évolution de leur Data Warehouse de gestion des flux financiers sur lequel je vais revenir également dans ce post, en vous parlant infrastructure évidement, socle majeur pour atteindre l'"Extreme Performance".

Explosion des données numériques = fort impact sur les infrastructures

Les chiffres parlent d'eux même. Nous assistons à l'explosion des données numériques. De 2006 à 2009, les données numériques ont pratiquement quintuplé pour atteindre pratiquement 500 Exabytes, et IDC prédit la même croissance d'ici 2012, soit 2500 Exabytes de données numériques dans le monde (source: IDC, Digital Universe 2007 et 2009).

En tant que fournisseur de stockage et numéro #1 de la protection de la données, nous le vivons tous les jours à vos côtés. Cette tendance à des impacts à plusieurs niveaux :

  • Sur la capacité à stocker et sauvegarder les données

  • Sur la capacité de traiter les informations pertinentes parmi une masse de données toujours plus conséquente

  • Sur la capacité de gérer l'évolution des unités de calculs et de stockage nécessaires tout en restant “vert”, c'est à dire en maîtrisant également l'impact sur l'énergie, les capacités de refroidissement, et l'encombrement dans vos Datacenter

Les besoins sur les infrastructures des Data Warehouse

Tout cela induit de nombreux enjeux techniques à couvrir pour les entrepôts de données. D'autant plus que cette fonction est devenue une fonction capitale et critique pour le pilotage de l'entreprise.

Le premier enjeu est la capacité de faire croitre l'ensemble de l'infrastructure pour faire face à la croissance des données et des utilisateurs. Ce que Jim Duffy a illustré clairement dans la présentation des phases d'évolutions du projet d'analyse des flux financiers chez BNP. Après un démarrage avec quelques dizaines de Giga Octets en alimentation par jour, ils ont vu la tendance évoluer fortement pour atteindre pratiquement 500 Giga Octects sur 2010. Grâce aux différentes options de la base de données Oracle (partitionnements, compressions) explicitées d'ailleurs lors de ce séminaire par Bruno Bottereau, avant-ventes technologies Oracle, la BNP a pu contrôler l'explosion des données au sein de son Data Warehouse. En outre, compte-tenu de la tendance d'une augmentation importante des données à traiter, les fonctions avancées disponibles dans la solution Sun Oracle Database Machine (Exadata) comme l'Hybride Columnar Compression s'avéraient indispensables à évaluer pour contrôler au mieux cette croissance. Comme l'expliquait Jim Duffy, l'évolution paraissait naturelle et simplifiée, car restant sur des technologies Oracle, ils ont validé en réel lors d'un Proof of Concept la simplicité de passage de la solution actuelle sur Oracle RAC 10g vers la solution Exadata en Oracle RAC 11gR2 en un temps record, avec un gain de performance important.

L'enjeu suivant est la performance avec la nécessité de prendre des décisions intelligentes souvent dans des temps de plus en plus courts et sur une masse de données plus importante. Ce qui impacte à la fois les unités de traitement et la bande passante pour traiter les données. Ce point a été clairement illustré par Jim dans son intervention, où il cherche a effectuer des analyses "quasi" en temps réel (minutes, voir secondes !) sur la masse de données collectée.

Avec une économie mondialisée, et un besoin de réajuster la stratégie presque en temps réel, les entrepôts de données ont vu leur besoin en disponibilité s'accroitre de façon très importante. C'est d'ailleurs ce qui a poussé la BNP à l'origine du projet à déployer un cluster Oracle RAC sur Solaris x86 pour supporter leur entrepôt de données.

Les entrepôts de données conservant les informations de l'entreprise, la sécurité est un élément incontournable dans le traitement de l'information qui y est stockée : qui à le droit d'accéder à quoi ? Quel niveau de protection est en place (cryptographie,...) ? Fonctions évidement couvertes par la base Oracle, mais également dans l'ADN du système d'exploitation Solaris : un double avantage.

Les solutions doivent évidement être rapide à mettre en place, pour ne pas être obsolètes une fois le projet d'entrepôt de données réalisé. Et évidemment, elles doivent répondre à une problématique de coût d'infrastructure optimisé aussi bien en terme de puissance de traitement, de capacité de stockage et de consommation énergétique associée. Tout en couvrant l'ensemble des critères évoqués jusqu'ici : scalabilité, performance, disponibilité, sécurité... Finalement, en s'appuyant sur des standards ouverts, à tous les niveaux, elles doivent permettent d'intégrer les nouvelles évolutions technologiques sans tout remettre en cause. En bref : être flexible.

L'approche des Systèmes Oracle Sun

Pour répondre à tous ces besoins, l'approche de Sun a toujours été de maîtriser l'ensemble des développements des composants de l'infrastructure, ainsi que leur intégration. Afin de concevoir des systèmes homogènes et évolutifs du serveur au stockage en incluant le système d'exploitation... et même jusqu'à l'application... au travers d'architectures de références testées et validées avec les éditeurs, dont Oracle ! En clair, fournir un système complet, homogène et pas uniquement un composant.

La solution Sun Oracle Database Machine (Exadata) en est une bonne illustration, en solution "prêt à porter". Cette philosophie s'applique à l'ensemble de la gamme des systèmes, tout en permettant de couvrir également des besoins "sur mesure", comme par exemple la sauvegarde.

A titre d'exemple de solution "sur mesure", voici une illustration d'un entrepôt de données, réalisé pour un de nos clients, avec des contraintes très fortes de volumétrie  à traiter et de disponibilité. Plus de 300 To de volumétrie pour le Data Warehouse et les Data Marts.

Cette implémentation s'appuie sur 3x serveurs Sun M9000, pouvant contenir chacun jusqu'à 64 processeurs quadri-coeurs, soit 256 coeurs, jusqu'à 4 To de mémoire et 244 Go/s de bande passante E/S: de la capacité pour évoluer en toute sérénité. Le coeur de l'entrepôt tourne sur 1x M9000, les DataMarts étant répartis sur 2 autres M9000. La disponibilité est assurée par le serveur M9000 en lui-même et sa redondance totale sans aucun point de rupture unique.

Le passage sur la nouvelle architecture a permis d'améliorer par 2 le temps de réponse de la plupart des requêtes, sur des données toujours croissantes. Cette infrastructure supporte plus de 1000 utilisateurs DW concurrents et la disponibilité a été améliorée de part la redondance interne des serveurs M9000 et des capacités d'intervention à chaud sur les composants.

En outre, en entrée et milieu de gamme, la gamme Oracle Sun T-Series, bien que limitée à 4 processeurs maximum offre une capacité de traitement parallèle unique  de part son processeur 8 coeurs/8 threads, couplé à des unités d'E/S et de cryptographie intégrées au processeur, et détient le record du nombre d'utilisateurs concurrents Oracle BI EE sur un serveur.

Quelle solution choisir : du "sur mesure" au "prêt à porter" ?

4 critères majeurs vous aideront à sélectionner le serveur répondant le mieux à vos besoins :

  1. le volume de données à traiter,
  2. le type de requêtes,
  3. le niveau de service attendu,
  4. le temps de mise en oeuvre

N'hésitez pas à nous contacter pour que nous vous guidions vers la solution la plus adaptée à vos besoins.

Translate in English

lundi févr. 23, 2009

Soirée performances et "best practices" ZFS/OpenStorage

Translate in English

Comme promis, suite à la venue sur Paris de Roch Bourbonnais, Senior Performance Analyst, voici le détail de la soirée organisée avec les membres des communautés OpenSolaris (GUSES) et MySQL (LeMUG). Roch traitera des meilleures pratiques d'optimisation dans différents contextes : systèmes de fichiers, SGBD, et MySQL. Nous aurons également le plaisir d'accueillir Frédéric Vannière, Directeur Technique de Planet-work qui lancera la table ronde de questions/réponses en nous faisant bénéficier de son retour d'expérience sur le sujet.

Date : Mercredi 18 Mars

Lieu : SUPINFO, 52 rue de Bassano, 75008 Paris

Inscription : formulaire en ligne

Agenda :

18h30
Accueil
19h00

Introduction - Dernières tendances du stockage (by myself)

19h10
Gestion des performances et cas d'usages : les meilleures pratiques avec ZFS et Open Storage autours des systèmes de fichiers, des bases de données et de MySQL en particulier
Roch Bourbonnais, Senior Performance Analyst, Sun Microsystems

20h20

Table-ronde
Frédéric Vannière, Directeur Technique de Planet-Work, ZFS et OpenStorage - retour d'expérience -  Q&A 

21h00

Networking

 Je tiens à remercier Supinfo qui nous prête ces locaux à cette occasion, mais aussi l'Ecole Polytechnique qui s'était aussi proposée pour nous accueillir.

Translate in English

vendredi févr. 06, 2009

OpenStorage : la révolution dans la gestion des données

Avant de plonger dans la naissance de la révolution OpenStorage, j'aimerais commencer par souligner 2 éléments importants de la gestion des données aujourd'hui :
  • l'explosion des données à gérer, stocker, analyser. Nous en sommes déjà aux PB dans les entreprises (j'ai personnellement 2TB sur mon bureau...)... bientôt les Exabytes...
  • un marché propriétaire et captif pour les stocker. Si je me permets une analogie, un marché qui ressemble fortement au marché des imprimantes : grosse compétition sur le stockage au prix au giga (l'imprimante au moins cher) et ensuite, un prix très élevé sur les fonctions propriétaires additionnelles indispensables pour gérer de telles volumétries -logiciels de réplications, de snapshots, de compression... - (cartouches propriétaires et non standard pour les imprimantes)
Et Sun dans tout ça ? Nous sommes effectivement très présents sur le marché du stockage, et comme nous aimons beaucoup l'innovation, nous avons pris un virage radical dans l'économie du stockage et de la gestion des données : l'Open Storage. La première solution qui nous a servi de validation du concept s'appelle le X4500 : un serveur hybride, moitié stockage, moitié serveur, permettant de stocker 48TB dans 4U, mais surtout une solution performante, ouverte et intégrée, qui représente déjà 11PB chez un de nos clients français dans le monde de la recherche. Une solution qui fournit toutes les fonctions nécessaires dès le départ : le prix au giga incluant la réplication, le snapshot, la compression... et plus besoin de fsck() car le système de fichier (ZFS) garantit l'intégrité : une des raisons majeures pour laquelle notre client avec 11PB a retenu cette solution (imaginez que vous soyez obligé de vérifier l'intégrité d'un système de fichier de 48TB : ça prend du temps !).

Comme cette solution est basée à 100% sur nos technologies matérielles et logicielles, cela nous permet d'avoir une approche au meilleur coût, surtout que nous valorisons l'open source pour l'enrichir. Voilà pour le deuxième point évoqué plus haut : fini le marché propriétaire et captif, vive l'Open Storage !

Maintenant, il est également important de répondre au premier point : l'explosion des données à traiter. Ce point est critique et suppose une toute nouvelle approche par rapport aux systèmes de stockages classiques SAN ou NAS actuels. En effet, comment traiter toujours plus de données ? Un premier élément de réponse nous est donné par Google, qui, ne trouvant pas de solution sur le marché pour classer toutes les données d'internet a développé sa propre solution. Le principe est simple : comme il est impossible de ramener des PB, voir Exabytes de données vers des serveurs de traitements, ils ont intégré l'application au plus près des données, données qui sont réparties sur les briques à la fois serveur et stockage : le GoogleFS et l'algorithme Map/Reduce... qui sont maintenant disponibles en open source, au travers des projets hadoop (Map/Reduce) et HDFS (GoogleFS)... Je viens d'ailleurs de récupérer l'image ISO OpenSolaris (livehadoop) incluant l'ensemble pour jouer un peu avec (grâce à VirtualBox). Evidement, la brique Sun X4540 (extension du X4500) correspond parfaitement à ce type de déploiement. C'est d'ailleurs ce qu'a fait Greenplum pour sa solution de Business Intelligence.

Bien entendu, tout le monde n'a pas encore Hadoop chez soi, quoi que, les personnes cherchant à faire de l'analyse sur des données non structurées (donc massives) regardent cela de très près. Par contre, tout le monde possède des serveurs de fichiers, qui, eux aussi voient leur besoin en stockage croitre de façon dramatique... C'est là que nous avons décidé d'agir avec les dernières solutions Open Storage (S7110, S7210 et S7410) avec, en prime, des fonctions d'analyses  du stockage (adaptables à vos besoins) et des performances uniques à ce jour, y compris pour stocker les données du "Cloud" avec MySQL.

Notre capacité à combiner les innovations matérielles ET le logiciel au sein des systèmes Open Storage nous permet d'obtenir des performances extrèmes, de part la combinaison des disques SSD et du système de fichier ZFS capable de l'exploiter (avoir des disques SSD est une condition nécessaire mais pas suffisante - pour ceux qui n'auraient que cela à leur catalogue- il faut également un système de fichier "SSD aware" - merci ZFS). Jusqu'à :

  • 5x et 40x !!! sur les IOPS
  • avec un temps de réponse autour de 1ms ! (une fois le cache SSD "chaud" - ce qui peut prendre un peu de temps)
... mais quand même, pour les suspicieux, les résultats sont là avec en plus pas mal de règles de mise en oeuvre en fonction des types de profils d'I/O qui sont donnés par Brendan Gregg.

Comme je le disais récemment, l'avantage de la démarche d'adoption des technologies ouvertes de Sun, c'est que non seulement vous pouvez télécharger le logiciel mais aussi le matériel ! pour l'essayer chez vous gratuitement ! Et en plus très simple à installer, à en croire ceux qui l'ont déjà testé :

Si vous voulez en savoir plus, l'un des développeurs de cette technologie, expert en performance, sera à Paris le 18 Mars, Roch Bourbonnais. Je vous tiendrai informé prochainement de la logistique pour ceux que cela intéresse. Mais vous pouvez dès maintenant réserver votre soirée...

Translate in English

About

Eric Bezille

Search

Archives
« avril 2014
lun.mar.mer.jeu.ven.sam.dim.
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
    
       
Today