vendredi févr. 19, 2010

Oracle Extreme Performance Data Warehousing

Translate in English

Mardi dernier a eu lieu un évènement portant sur la probématique de performance des environnements Data Warehouse et organisé par Oracle. A cette occasion, Sun a été invité à présenter les infrastructures et solutions adressant les exigences toujours plus fortes dans ce domaine. Et BNP Paribas CIB, en la personne de Jim Duffy, Head of Electronic Market DW, a apporté un témoignage très intéressant sur les phases d'évolution de leur Data Warehouse de gestion des flux financiers sur lequel je vais revenir également dans ce post, en vous parlant infrastructure évidement, socle majeur pour atteindre l'"Extreme Performance".

Explosion des données numériques = fort impact sur les infrastructures

Les chiffres parlent d'eux même. Nous assistons à l'explosion des données numériques. De 2006 à 2009, les données numériques ont pratiquement quintuplé pour atteindre pratiquement 500 Exabytes, et IDC prédit la même croissance d'ici 2012, soit 2500 Exabytes de données numériques dans le monde (source: IDC, Digital Universe 2007 et 2009).

En tant que fournisseur de stockage et numéro #1 de la protection de la données, nous le vivons tous les jours à vos côtés. Cette tendance à des impacts à plusieurs niveaux :

  • Sur la capacité à stocker et sauvegarder les données

  • Sur la capacité de traiter les informations pertinentes parmi une masse de données toujours plus conséquente

  • Sur la capacité de gérer l'évolution des unités de calculs et de stockage nécessaires tout en restant “vert”, c'est à dire en maîtrisant également l'impact sur l'énergie, les capacités de refroidissement, et l'encombrement dans vos Datacenter

Les besoins sur les infrastructures des Data Warehouse

Tout cela induit de nombreux enjeux techniques à couvrir pour les entrepôts de données. D'autant plus que cette fonction est devenue une fonction capitale et critique pour le pilotage de l'entreprise.

Le premier enjeu est la capacité de faire croitre l'ensemble de l'infrastructure pour faire face à la croissance des données et des utilisateurs. Ce que Jim Duffy a illustré clairement dans la présentation des phases d'évolutions du projet d'analyse des flux financiers chez BNP. Après un démarrage avec quelques dizaines de Giga Octets en alimentation par jour, ils ont vu la tendance évoluer fortement pour atteindre pratiquement 500 Giga Octects sur 2010. Grâce aux différentes options de la base de données Oracle (partitionnements, compressions) explicitées d'ailleurs lors de ce séminaire par Bruno Bottereau, avant-ventes technologies Oracle, la BNP a pu contrôler l'explosion des données au sein de son Data Warehouse. En outre, compte-tenu de la tendance d'une augmentation importante des données à traiter, les fonctions avancées disponibles dans la solution Sun Oracle Database Machine (Exadata) comme l'Hybride Columnar Compression s'avéraient indispensables à évaluer pour contrôler au mieux cette croissance. Comme l'expliquait Jim Duffy, l'évolution paraissait naturelle et simplifiée, car restant sur des technologies Oracle, ils ont validé en réel lors d'un Proof of Concept la simplicité de passage de la solution actuelle sur Oracle RAC 10g vers la solution Exadata en Oracle RAC 11gR2 en un temps record, avec un gain de performance important.

L'enjeu suivant est la performance avec la nécessité de prendre des décisions intelligentes souvent dans des temps de plus en plus courts et sur une masse de données plus importante. Ce qui impacte à la fois les unités de traitement et la bande passante pour traiter les données. Ce point a été clairement illustré par Jim dans son intervention, où il cherche a effectuer des analyses "quasi" en temps réel (minutes, voir secondes !) sur la masse de données collectée.

Avec une économie mondialisée, et un besoin de réajuster la stratégie presque en temps réel, les entrepôts de données ont vu leur besoin en disponibilité s'accroitre de façon très importante. C'est d'ailleurs ce qui a poussé la BNP à l'origine du projet à déployer un cluster Oracle RAC sur Solaris x86 pour supporter leur entrepôt de données.

Les entrepôts de données conservant les informations de l'entreprise, la sécurité est un élément incontournable dans le traitement de l'information qui y est stockée : qui à le droit d'accéder à quoi ? Quel niveau de protection est en place (cryptographie,...) ? Fonctions évidement couvertes par la base Oracle, mais également dans l'ADN du système d'exploitation Solaris : un double avantage.

Les solutions doivent évidement être rapide à mettre en place, pour ne pas être obsolètes une fois le projet d'entrepôt de données réalisé. Et évidemment, elles doivent répondre à une problématique de coût d'infrastructure optimisé aussi bien en terme de puissance de traitement, de capacité de stockage et de consommation énergétique associée. Tout en couvrant l'ensemble des critères évoqués jusqu'ici : scalabilité, performance, disponibilité, sécurité... Finalement, en s'appuyant sur des standards ouverts, à tous les niveaux, elles doivent permettent d'intégrer les nouvelles évolutions technologiques sans tout remettre en cause. En bref : être flexible.

L'approche des Systèmes Oracle Sun

Pour répondre à tous ces besoins, l'approche de Sun a toujours été de maîtriser l'ensemble des développements des composants de l'infrastructure, ainsi que leur intégration. Afin de concevoir des systèmes homogènes et évolutifs du serveur au stockage en incluant le système d'exploitation... et même jusqu'à l'application... au travers d'architectures de références testées et validées avec les éditeurs, dont Oracle ! En clair, fournir un système complet, homogène et pas uniquement un composant.

La solution Sun Oracle Database Machine (Exadata) en est une bonne illustration, en solution "prêt à porter". Cette philosophie s'applique à l'ensemble de la gamme des systèmes, tout en permettant de couvrir également des besoins "sur mesure", comme par exemple la sauvegarde.

A titre d'exemple de solution "sur mesure", voici une illustration d'un entrepôt de données, réalisé pour un de nos clients, avec des contraintes très fortes de volumétrie  à traiter et de disponibilité. Plus de 300 To de volumétrie pour le Data Warehouse et les Data Marts.

Cette implémentation s'appuie sur 3x serveurs Sun M9000, pouvant contenir chacun jusqu'à 64 processeurs quadri-coeurs, soit 256 coeurs, jusqu'à 4 To de mémoire et 244 Go/s de bande passante E/S: de la capacité pour évoluer en toute sérénité. Le coeur de l'entrepôt tourne sur 1x M9000, les DataMarts étant répartis sur 2 autres M9000. La disponibilité est assurée par le serveur M9000 en lui-même et sa redondance totale sans aucun point de rupture unique.

Le passage sur la nouvelle architecture a permis d'améliorer par 2 le temps de réponse de la plupart des requêtes, sur des données toujours croissantes. Cette infrastructure supporte plus de 1000 utilisateurs DW concurrents et la disponibilité a été améliorée de part la redondance interne des serveurs M9000 et des capacités d'intervention à chaud sur les composants.

En outre, en entrée et milieu de gamme, la gamme Oracle Sun T-Series, bien que limitée à 4 processeurs maximum offre une capacité de traitement parallèle unique  de part son processeur 8 coeurs/8 threads, couplé à des unités d'E/S et de cryptographie intégrées au processeur, et détient le record du nombre d'utilisateurs concurrents Oracle BI EE sur un serveur.

Quelle solution choisir : du "sur mesure" au "prêt à porter" ?

4 critères majeurs vous aideront à sélectionner le serveur répondant le mieux à vos besoins :

  1. le volume de données à traiter,
  2. le type de requêtes,
  3. le niveau de service attendu,
  4. le temps de mise en oeuvre

N'hésitez pas à nous contacter pour que nous vous guidions vers la solution la plus adaptée à vos besoins.

Translate in English

samedi juil. 11, 2009

Table ronde à l'ITIForum : retour sur disques SSD et stockage x86

Translate in English

C'est avec un petit décalage de 15 jours que je reviens sur la table ronde disques SSD et stockage x86, organisée par Jean-Pierre Dumoulin, lors du dernier ITIForum du CRIP. Je reprends également ce billet en français, ce qui est préférable, à la vue du résultat de la dernière traduction électronique de l'anglais vers le français ! Je vous en laisse juge en cliquant ici.

Lors de cette table ronde, les membres du CRIP, nous avaient posé 2 questions, à mes confrères fournisseurs de stockage, ainsi qu'à quelques utilisateurs : François Dessables de PSA, Christian Jaubert de Bouygues Télécom et Jacques-Alain Barret de Manpower.
2 questions sur lesquelles je vais tenter de vous faire un bref résumé.

1) Utilisation des disques SSD ( Flash ) , quels enjeux pour l'industrie, pourquoi l'adoption est-elle plus lente en France ?

Globalement un consensus s'est dégagé sur cette question. Les SSD sont une tendance de fond qui se retrouve petit à petit dans l'ensemble des offres. Sachant qu'il faut bien distinguer les disques SSD d'entreprise de ceux utilisés pour le grand public.

Toutefois, 2 stratégies de mises en oeuvre apparaissent. Une stratégie classique, qui consiste à intégrer les disques SSD au sein des baies existantes, l'autre, celle de Sun notamment, qui s'appuie sur les disques SSD pour accélérer les I/O de manière transparentes aux applications et aux administrateurs.

Dans le cas des disques SSD au sein des baies de stockages, il est nécessaire de définir quelles seront les données qui en bénéficieront, tout un travail en perspective. Car vous n'allez pas remplir une baie avec un ensemble complet de disques SSD (pour ne pas avoir à vous poser cette question) pour 2 raisons : le coût, la capacité des contrôleurs des baies actuelles, qui de toute façon ne pourraient pas tenir les IOPS potentielles. Naturellement, Sun disposant de baies de stockage de ce type, nous sommes capable de répondre à ce besoin pour certains cas d'usages adaptés. Ce besoin de réfléchir au placement des données et à sa pertinence, c'est peut-être une des raisons qui explique l'adoption lente en France -outre le fait que tous les acteurs du stockage n'en disposent pas...

L'autre axe de développement sur lequel Sun investit et délivre des solutions déjà disponibles aujourd'hui, c'est l'OpenStorage, commercialement connus sous les gammes x45xx et 7000. J'ai déjà produit un billet sur cette « révolution ». En 2 mots, nous rapprochons les disques SSD au plus prêt des processeurs, au sein des serveurs, et nous nous en servons également comme (très très gros) cache secondaire dans nos « baies » OpenStorage. Ainsi, toutes les applications en bénéficient de facto. Je vous invite à consulter ce blog pour quelques chiffres de performance en stockage de type NAS.

Maintenant, pour en faciliter l'adoption, l'enjeux pour les industriels, dans les 2 stratégies, est de fournir les guides de mises en oeuvre en fonction des usages. Ce que nous faisons bien évidement... Si vous souhaiter déployer, par exemple, vos bases Oracle sur Sun Storage 7000, je vous engage notamment à lire ce Blueprint. Et si vous avez un doute, n'hésitez pas à nous consulter, nous pourrons vous guider !

Pour plus d'information sur les disques SSD (technologies) et la démarche d'intégration, je vous renvoie à cet article d'Adam Leventhal : "Can flash memory become the foundation for a new tier in the storage hierarchy?", ainsi qu'à son blog.

Maintenant passons à la deuxième question de cette table ronde...

2) L'émergence des offres de stockage sur base X86 ( à l'image de ce qu'utilisent les grands acteurs du web, Google, Amazon, ... ) , quelle utilisation pour l'industrie, est-ce une opportunité de réduire les coûts dans le contexte de crise actuel ?

Pour répondre à cette dernière, je vais être beaucoup plus synthétique en vous invitant à (re)lire : "Openstorage: La révolution dans la gestion des données", déjà cité précédemment.

Je compléterais juste par le fait qu'au-delà du HPC (voir: Solving the HPC I/O bottleneck - Sun Lustre Storage System) et des stockages en grilles, les utilisations pour l'industrie que je vois dès aujourd'hui sur certains projets auxquels je participe se situent principalement dans le stockage d'environnement virtualisés type VMWare ainsi que les environnements de bases de données en développement et intégration. En effet, les solutions de stockage x86 offrent une réelle opportunité de réduire les coûts. D'autres cas d'usages existent et quelques uns sont résumés dans l'image ci-contre.clic to enlarge

Comme pour les disques SSD, le stockage x86 est une tendance de fond (voir: Data Trends... Driving Storage (radical) Evolution), avec la performance des processeurs actuels et les solutions logiciels complètes disponibles comme la stack OpenStorage d'OpenSolaris. Nous sommes au début de la standardisation de l'offre de stockage avec :

  • abandon des solutions propriétaires,
  • adoption de solution standards à base de x86 et des logiciels open source associés,
  • s'appuyant sur des technologies innovantes (SSD, ZFS,...)

Donc, fort potentiel de gain en performances et en coûts. C'est sur ce constat qu'il y a bientôt un an, Sun a fédéré ses ingénieries serveurs et stockages. Nos serveurs x86 (incluant les disques SSD) devenant le composant de base pour construire nos solutions de stockage x45xx et Sun Storage 7000, en y ajoutant l'intelligence avec OpenSolaris et toutes ses fonctions OpenStorage (snapshot, réplications, « de-duplication » à la mode ZFS...).

Translate in English

vendredi févr. 06, 2009

OpenStorage : la révolution dans la gestion des données

Avant de plonger dans la naissance de la révolution OpenStorage, j'aimerais commencer par souligner 2 éléments importants de la gestion des données aujourd'hui :
  • l'explosion des données à gérer, stocker, analyser. Nous en sommes déjà aux PB dans les entreprises (j'ai personnellement 2TB sur mon bureau...)... bientôt les Exabytes...
  • un marché propriétaire et captif pour les stocker. Si je me permets une analogie, un marché qui ressemble fortement au marché des imprimantes : grosse compétition sur le stockage au prix au giga (l'imprimante au moins cher) et ensuite, un prix très élevé sur les fonctions propriétaires additionnelles indispensables pour gérer de telles volumétries -logiciels de réplications, de snapshots, de compression... - (cartouches propriétaires et non standard pour les imprimantes)
Et Sun dans tout ça ? Nous sommes effectivement très présents sur le marché du stockage, et comme nous aimons beaucoup l'innovation, nous avons pris un virage radical dans l'économie du stockage et de la gestion des données : l'Open Storage. La première solution qui nous a servi de validation du concept s'appelle le X4500 : un serveur hybride, moitié stockage, moitié serveur, permettant de stocker 48TB dans 4U, mais surtout une solution performante, ouverte et intégrée, qui représente déjà 11PB chez un de nos clients français dans le monde de la recherche. Une solution qui fournit toutes les fonctions nécessaires dès le départ : le prix au giga incluant la réplication, le snapshot, la compression... et plus besoin de fsck() car le système de fichier (ZFS) garantit l'intégrité : une des raisons majeures pour laquelle notre client avec 11PB a retenu cette solution (imaginez que vous soyez obligé de vérifier l'intégrité d'un système de fichier de 48TB : ça prend du temps !).

Comme cette solution est basée à 100% sur nos technologies matérielles et logicielles, cela nous permet d'avoir une approche au meilleur coût, surtout que nous valorisons l'open source pour l'enrichir. Voilà pour le deuxième point évoqué plus haut : fini le marché propriétaire et captif, vive l'Open Storage !

Maintenant, il est également important de répondre au premier point : l'explosion des données à traiter. Ce point est critique et suppose une toute nouvelle approche par rapport aux systèmes de stockages classiques SAN ou NAS actuels. En effet, comment traiter toujours plus de données ? Un premier élément de réponse nous est donné par Google, qui, ne trouvant pas de solution sur le marché pour classer toutes les données d'internet a développé sa propre solution. Le principe est simple : comme il est impossible de ramener des PB, voir Exabytes de données vers des serveurs de traitements, ils ont intégré l'application au plus près des données, données qui sont réparties sur les briques à la fois serveur et stockage : le GoogleFS et l'algorithme Map/Reduce... qui sont maintenant disponibles en open source, au travers des projets hadoop (Map/Reduce) et HDFS (GoogleFS)... Je viens d'ailleurs de récupérer l'image ISO OpenSolaris (livehadoop) incluant l'ensemble pour jouer un peu avec (grâce à VirtualBox). Evidement, la brique Sun X4540 (extension du X4500) correspond parfaitement à ce type de déploiement. C'est d'ailleurs ce qu'a fait Greenplum pour sa solution de Business Intelligence.

Bien entendu, tout le monde n'a pas encore Hadoop chez soi, quoi que, les personnes cherchant à faire de l'analyse sur des données non structurées (donc massives) regardent cela de très près. Par contre, tout le monde possède des serveurs de fichiers, qui, eux aussi voient leur besoin en stockage croitre de façon dramatique... C'est là que nous avons décidé d'agir avec les dernières solutions Open Storage (S7110, S7210 et S7410) avec, en prime, des fonctions d'analyses  du stockage (adaptables à vos besoins) et des performances uniques à ce jour, y compris pour stocker les données du "Cloud" avec MySQL.

Notre capacité à combiner les innovations matérielles ET le logiciel au sein des systèmes Open Storage nous permet d'obtenir des performances extrèmes, de part la combinaison des disques SSD et du système de fichier ZFS capable de l'exploiter (avoir des disques SSD est une condition nécessaire mais pas suffisante - pour ceux qui n'auraient que cela à leur catalogue- il faut également un système de fichier "SSD aware" - merci ZFS). Jusqu'à :

  • 5x et 40x !!! sur les IOPS
  • avec un temps de réponse autour de 1ms ! (une fois le cache SSD "chaud" - ce qui peut prendre un peu de temps)
... mais quand même, pour les suspicieux, les résultats sont là avec en plus pas mal de règles de mise en oeuvre en fonction des types de profils d'I/O qui sont donnés par Brendan Gregg.

Comme je le disais récemment, l'avantage de la démarche d'adoption des technologies ouvertes de Sun, c'est que non seulement vous pouvez télécharger le logiciel mais aussi le matériel ! pour l'essayer chez vous gratuitement ! Et en plus très simple à installer, à en croire ceux qui l'ont déjà testé :

Si vous voulez en savoir plus, l'un des développeurs de cette technologie, expert en performance, sera à Paris le 18 Mars, Roch Bourbonnais. Je vous tiendrai informé prochainement de la logistique pour ceux que cela intéresse. Mais vous pouvez dès maintenant réserver votre soirée...

Translate in English

About

Eric Bezille

Search

Archives
« avril 2014
lun.mar.mer.jeu.ven.sam.dim.
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
    
       
Today