この記事は、3 Reasons to consider MySQL HeatWave Lakehouse (and what they mean for your organization) の翻訳版です。
MySQL HeatWave Lakehouseは、2023年7月20日に一般公開となりました。発表のライブ配信をご覧になれなかった方向けに、オンデマンドで動画をご視聴いただけます。
MySQL HeatWave Lakehouseは、業界に影響力のある多くのアナリストから「クラウド・データ・サービスにおける前代未聞のイノベーション」と絶賛されています。それでもMySQL HeatWave Lakehouseがお客様やお客様のビジネスにどれほどの価値をもたらすのか、と疑問に思われるかもしれません。
本記事はその疑問に答えていきたいと思います。まずは基本なところから下にご紹介させてください。
MySQL HeatWaveとは?
MySQL HeatWaveは単一のMySQLデータベース内で、データ・ウェアハウスおよびデータレイク全体に渡ってトランザクション処理、機械学習、およびリアルタイム分析を提供する唯一のクラウド・サービスです。MySQL HeatWaveを使用すると分析データベース、レイクハウス、機械学習向けクラウド・サービスを別々のシステムにする必要がありません。また、前述のような異なる情報サイロ間に必要となる、複雑で時間のかかるETLプロセスはいりません。お客様はコストを低減しながら、データ・ストア間のデータ移動による遅延とセキュリティリスクを回避できます。MySQL HeatWaveで標準提供しているMySQL Autopilotは、ワークロードを意識した機械学習により、データベース・システムのライフサイクルに関わる様々な管理作業の自動化を実現します。MySQL HeatWaveは標準のMySQL APIと構文を使用しています。既存のMySQLアプリケーションがある場合は、アプリケーションの変更なしにMySQL HeatWaveに移行できます。
97%のデータは未使用
今日のビジネス環境で競争力を維持するために、企業は様々な情報源からあらゆる形式のデータを集め、分析することが重要です。データ型が異なれば、形式も異なり、また違う場所に保存される場合があります。たとえば企業は金融取引システム、オンライン予約、在庫管理や生産スケジュールなど、業務に不可欠なミッションクリティカル・データをデータベースに保存し、それらにクエリを実行します。
また、大規模なファイル・データを優れた費用対効果で保存および管理するために、オブジェクト・ストアのデータレイクを使用する方法が一般的になりつつあります。したがって価値のあるビジネスアイデアを得るには、データベースとオブジェクト・ストレージに渡って存在するデータを分析することがますます重要になっています。
それなのに、なぜデータの97%が未使用のままなのでしょうか?
課題: 多岐にわたるデータ型のデータの分析
ファイルデータを生成するアプリケーションの多くは、ファイルシステムを抽象化して動作するように作られています。それらのファイルをデータベースに保存するには多大な労力と時間が掛かります。例えば、CSVなどの単純な構造のファイルをデータベースに移動して分析クエリを実行するには、データを変換し形式を合わせ、永続ストレージに書き込む必要があります。これは、データ処理のための独自スクリプトを作成すること、またはこれらのマッピングと変換を行うETLツールを導入することを意味します。一般に、ファイル・データは急速に変化します。というのは、データベース内のこれらのデータにインデックスを作成した場合に、性能の低下を避けるため変更が発生するたびにインデックスの再構築、および関連する統計の更新が必要だからです。従来型のデータベースによくあるOLTPデータ構造に、ファイル・データ変換に要する複雑さ、時間、費用を課すのは好ましくありません。
解決策: HeatWave Lakehouseはデータ管理を簡素化します
データ管理を簡単に行いたいと考えている人にとって、MySQL HeatWaveへのレイクハウス機能の追加は一大イノベーションです。標準のMySQL構文を使用して、データベース内のトランザクション・データとオブジェクト・ストアのデータを単一のクエリで実行することができます。MySQL HeatWave Lakehouseでは、CSV、Parquetなどの様々なファイル形式でオブジェクト・ストレージから最大500TBのデータにクエリ実行したり、MySQL HeatWaveを使用してAuroraやRedshiftなどの他のデータベースからエクスポートしたりすることもでき、さらにMySQLのInnoDBストレージ・エンジンからのデータとクエリ一つで組み合わせることができます。従来のレイクハウス製品とは異なり、MySQL HeatWaveではこのプロセスが3つのステップで非常に簡単にできます。
HeatWave Lakehouseによるデータ管理の簡素化が企業に与えるインパクトー複数のサービスを使用したり、データの複数のコピーを保存するのに費用をかけたり、レイクハウス機能を取得するために複雑なETLプロセスを実行したりする必要はもうありません。MySQL HeatWave Lakehouseでは、オブジェクト・ストアのファイルはデータをMySQL データベースにコピーする必要がなく、HeatWaveが直接クエリを実行します。MySQL HeatWaveが従来のデータ・レイクハウスに革命を起こしたと言えます。
3 HeatWave Lakehouseの導入を検討すべき三つの理由
1. 使いやすさ
オブジェクト・ストレージ内のデータにクエリを実行するのは複雑な場合があります。そして現在の多くの企業には、複雑な統合をするためのスキルや予算などが不足しています。MySQL HeatWave Lakehouseでは、MySQLの永続ストレージ表現に変換する必要はありません。言い換えれば、データがオブジェクト・ストアからMySQLデータベースにコピーされないということです。オブジェクト・ストア内のファイルのデータは、HeatWaveインメモリで最適化された形式に変換され、処理を実行する際にはHeatWaveのインメモリ・クラスタにロードされます。

さらに、標準のMySQL構文を使用してデータベース内データと共にオブジェクト・ストア内のデータにクエリを実行します。 DDLがMySQL Autopilotによって自動的に生成され、これを実行してファイルとテーブルの両方にクエリを実行できます。

ETLが必要なくなること加えて、複雑な管理作業の一部はMySQL Autopilotによって軽減されます:
• クラスターサイズの見積もりの難しさ—ワークロードを処理するのに十分大きいクラスターは必要ですが、企業は余分なクラスターを購入してお金を無駄にしたくないはずですし、また適切なサイズの決定に試行錯誤し無駄な時間をかけたくないはずです。MySQL Autopilotは、機械学習を使用して最適なクラスター・サイズを自動で見積もります。
• ファイル・データのスキーマの可視性の欠如—MySQL Autopilot は、CSVなどのメタデータのないファイルを含む、サポートする全てのファイル形式に対応するスキーマ定義へのファイル・データのマッピングを自動的に推測します。Parquetのようにメタデータを含むファイル形式でも、MySQL Autopilotは列の精度に関する推奨事項を提供します。そのため、ファイルのスキーマ・マッピングを手動で定義および更新する必要がなくなり、時間と労力を軽減することができます。
「元IT管理職として、私はデータ統合に伴う労力や時間に悩まされました。スキーマ・マッピングが異なるさまざまな種類のCSVファイルがあるため、データ統合には何時間もの頭の痛い作業が発生することがありました。それらがなければ、より積極的なタスクに集中できたはずです。 MySQL Autopilotを使用すると、MySQL HeatWave LakehouseがCSVファイルについて何も指定しなくても、対応するスキーマを自動的に生成します。 MySQL HeatWave Lakehouseはデータ管理業務を簡素化し、顧客エクスペリエンスを向上させるはずです。」
—Matt Kimball, Vice President, Principal Analyst, Moor Insights & Strategy
• データのロードに要する時間が分からないことによる計画の難しさ (「データのロードに4時間かかるのか、それとも24時間?」) MySQL Autopilot は、推奨されるクラスターサイズに基づいてデータのロード時間を見積もります。
さらに管理作業の軽減を実現するHeatWave Lakehouseの機能や技術仕様に関しては、下記の記事をご覧ください。
technical specifics about all HeatWave Lakehouse capabilities that enable greater ease-of-use
2. 高速化により市場投入までの時間を短縮
皆様の中には、「他のアプリケーションでオブジェクト・ストアを使用しているので、データをオブジェクト・ストアに残したままにしておきたいが、伝統的に複雑なクエリはオブジェクト・ストレージ内のフラット・ファイル間で実行するよりもデータベース内で実行する方が速いのでは」と考えている方がいらっしゃるかと思います。MySQL HeatWave Lakehouseでは、これは「どちらか」という問題ではなくなりました。
• データベースとオブジェクト・ストア全体で同じクエリ性能— アナリストから「業界初」と称賛されているこの特徴は、オブジェクト・ストレージ内のデータへのクエリ実行をデータベースに実行するのと同程度に高速にできます。 これは、複雑なビジネス上の問題に対する答えを知りたいと思ってからそれを得るまでの時間が大幅に短縮されるという点で画期的です。
Constellation Research の大手業界アナリスト、ホルガー・ミュラー氏は、「クエリ パフォーマンスが同等であるため、HeatWave を使用すると、CxO はデータの配置場所やクエリの方法について悩む必要がなくなるでしょう。」と述べています。
• リアルタイムの洞察や分析を妨げる長時間のプロビジョニング、クエリ、およびデータロードを削減。—MySQL HeatWave Lakehouseは他のどのソリューションよりも劇的に高速です。ビジネスの規模に関係なく時間の節約というメリットが得られ、データ量が増加しても遅延を心配する必要がなくなります。
- プロビジョニング: 512 ノードを 16 分以内にプロビジョニング可能
- クエリ実行時間: 500 TB TPCHベンチマーク結果により、HeatWave Lakehouse は Amazon Redshift より9倍、Snowflakeより17倍、Databricksより17 倍、Google BigQueryより36 倍高速ということが示されました。
- データロード時間: 500 TB TPCH ベンチマークにより、HeatWave Lakehouse が Snowflake より2倍、Databricksより6倍、Amazon Redshiftより9倍、Google BigQueryより8倍高速であることが示されました。
3. 業界最高の性能と費用対効果
「HeatWave Lakehouseを高性能で運用するには費用がかかるのではないか?」と疑問に思われるかもしれません。答えはNoです。
最新の500 TB TPC-Hベンチマークにより、MySQL HeatWave Lakehouseがクエリ処理とデータロードに関して高性能と優れた費用対効果の両方を提供することが実証されました。 これは、財布への影響を少なくしながら、洞察を得るまでの時間を短縮することを意味します。
「OLTPデータベース、インメモリ・クエリ・アクセラレータ、データベース内機械学習とオブジェクト・ストレージの緊密な統合によって、企業は複数のサービスや複数のオブジェクト・ストアに保存されたデータの、複数のコピーに支払う費用を大幅に低減できます。クラウド・データ・レイクハウスのランドスケープで最高の価値を求めるならば、MySQL HeatWave Lakehouseをの導入を真剣に検討する必要があります。」
—Carl Olofson, Research Vice President, Data Management Software, IDC

ぜひMySQL HeatWave Lakehouseを体験してください
MySQL HeatWave Lakehouse についてさらに詳しく知りたい方、実際に使ってみたい方は下記をご参照ください
1. MySQL HeatWaveワークショップをリクエスト
2. Oracle CloudWorldの基調講演「HeatWave Lakehouseによるスケールアウト・データ処理の未来」
3. HeatWave Lakehouseに関するハンズ・オン・ラボへの参加
4. OCIのMySQL HeatWave Lakehouseの中身ーMySQL HeatWave Lakehouseを支えるアーキテクチャの舞台裏に関するブログと動画
5. MySQL HeatWave Lakehouseに関する技術資料
Oracle.com/mysqlへのアクセスや、X(旧Twitter)@MySQL_JPやLinkedInのフォローもお待ちしています。
