この記事は New MySQL HeatWave capabilities for machine learning and multicloudの翻訳版です。

カリフォルニア州レッドウッドショアにて開催される MySQL Summit Day において、MySQL HeatWave AutoMLの新機能、MySQL HeatWaveの機械学習ユースケースの拡大、さらにMySQL HeatWave on AWSの新機能、MySQL HeatWave on OCIのコストパフォーマンス改善について発表します。

MySQL HeatWave AutoML の新機能

MySQL HeatWaveは、ネイティブなインデータベースの機械学習を提供します。お客様はデータを別の機械学習サービスに移す必要はなく、MySQL HeatWave内部に保存されたデータに対する機械学習のトレーニング、推論、説明を簡単かつ安全に実行することができます。HeatWave AutoMLは、機械学習のライフサイクルを自動化します。ベンチマーク結果では、HeatWave AutoMLは平均してAmazon Redshift MLよりも正確な結果を出し、かつ25倍速くモデルのトレーニングを実行でき、ノードを追加してもスケールすることが証明されています。MySQL HeatWaveのお客様は、追加費用なしで利用することできます。

これまで、お客様は回帰、分類、一変量時系列予測モデルを自動的にトレーニングすることができました。今回、MySQL HeatWave AutoMLのライフサイクル自動化を拡張し、多変量時系列予測、教師なし異常検知、レコメンドシステムに対応することを発表します。これらの機能は、RedshiftやSnowflakeといった他のクラウドデータベースサービスでは提供されていないものです。また、インタラクティブなコンソールから利用できるようになったことで、ビジネスアナリストがIT部門の助けを借りずに機械学習モデルの構築、トレーニング、実行、説明を簡単に行うことができるようになりました。

多変量時系列予測

時系列予測は、過去の出来事から主要指標の将来値を予測する手法です。時系列予測では、過去の時系列的な事象と他の変数を用いて、将来の値を予測します。多変量時系列予測は、複数の時系列変数を予測することができ、各変数はその過去の値と他の従属変数の過去の値の両方よって変化します。例えば発電に使われる様々なエネルギー源を考慮し、冬の電力需要を予測するモデルを構築するのに使われます。

時系列分析を行う際には、時間依存性や季節性、傾向、残差などの要素からなる内部構造を利用することが重要です。時系列予測アルゴリズムは数多く存在し、それぞれ異なる特徴に最適なアルゴリズムが存在します。最適なアルゴリズムを選択するためには、通常、時系列分析の訓練を受けた統計学者が必要です。このような複雑さを考えると、時系列予測のための自動化されたアプローチが非常に望ましく、MySQL HeatWaveはまさにこれを実現しています。MySQL HeatWave AutoMLは、自動的にデータの前処理を行いモデルに最適なアルゴリズムを選択し、自動的にチューニングを行います。

MySQL AutoML_jp

HeatWave AutoML自動予測パイプラインは、高度な時系列処理、アルゴリズム選択、ハイパーパラメーターチューニングなどのステージで構成される特許取得済みの技術を使用しています。高度な時系列処理では、基本的な時系列特性(季節性、傾向など)を推定し、この推定値をアルゴリズム選択とハイパーパラメーターチューニングの段階で使用します。アルゴリズム選択ステージでは、サポートされているアルゴリズムのセットから、与えられた時系列データセットに最適なアルゴリズムを決定します。ハイパーパラメータチューニングステージでは、アルゴリズムのハイパーパラメータを、プリプロセッサが提案する範囲内でチューニングします。この自動化により、お客様は時間と労力を大幅に節約でき、高度な訓練を受けた統計学者をスタッフに置く必要はありません。

教師なし異常検知

異常検知は、データから異常なパターンを見つけ出すデータマイニングのタスクです。金融の不正検知やサイバーセキュリティのネットワーク侵入検知、生命を脅かす病状の検知など、さまざまな分野で利用されています。

異常を検出するために最近傍距離を使用するなど、複数の距離による機械学習アルゴリズムを適用することができます。しかし、これらのアルゴリズムは、特定の異常タイプを検出するように設計されていることが多いため、ユーザーがデータセットにどのような異常タイプがあるかを知らない場合、アルゴリズムの選択が問題になることがあります。

MySQL HeatWaveでは、無作為化を必要とせず、ラベルのないデータセットから異なるタイプの異常を検出できる、新しい教師なしアンサンブルアルゴリズムを実装しました。このアルゴリズムは、Unsupervised Anomaly Detection Benchmark (UADB) データセットで高い性能を発揮し、k近傍法(kNN)や局所外れ値因子法(LOF)など、最も広く利用されているアルゴリズムよりも優位性があります。

unsupervised anomaly detection MySQL AutoML_jp

 

HeatWave AutoMLによって生成されたモデルは、ローカル、クラスター、グローバルのすべてのタイプの異常に対して高い精度を提供します。このプロセスは完全に自動化されているため、データアナリストは、ラベルのないデータセットからこれら3種類の異常を識別するために、どのアルゴリズムを使用するか、どの特徴を選択するか、ハイパーパラメータの最適値を手動で決定する必要がなくなります。

レコメンドシステム

レコメンドシステムは、ユーザーの検索行動や過去の行動に基づいて、パーソナライズされたレコメンデーションを提供します。例えばオンラインショップの場合、ユーザーが気に入るアイテムのランキングやそのアイテムに対する評価、特定のアイテムを好むユーザーの上位ランキングを予測することができます。また、ユーザーの視聴履歴に基づく映画のレコメンデーションも一般的な例です。

MySQL HeatWaveはレコメンドシステムをサポートし、アルゴリズムの選択、特徴の選択、ハイパーパラメータの最適化などのプロセスを完全に自動化し、データアナリストの時間と労力を大幅に削減します。他のクラウドサービスでは、アルゴリズムの推奨のみ行い、最適なアルゴリズム選択やチューニングはユーザーが手動で行う必要があります。

MySQL HeatWaveでは、ML_TRAINプロシージャを呼び出すことで、MODEL_CATALOGに格納されているモデルを自動的にトレーニングすることができます。レコメンデーションの予測は、ML_PREDICT_ROW または ML_PREDICT_TABLE を呼び出すことで実行できます。

新しいインタラクティブなMySQL HeatWave AutoMLコンソール

新しいコンソールでは、ビジネスアナリストがSQLコマンドやプログラムを一切使用せずに、ビジュアルインターフェースを使ってMLモデルの構築、トレーニング、実行、説明を行うことができます。また、このコンソールでは、ビジネスの仮説を検証するためのwhat-ifシナリオを簡単に探索できます。例えば、「ソーシャルメディアの有料広告に30%多く投資すると、収益と利益の両方にどのような影響があるか?」といったシナリオです。このコンソールは、MySQL HeatWave on AWSで最初にサポートされます。

New Interactive MySQL HeatWave AutoML console

マルチクラウドに対応した新機能

MySQL HeatWave on AWS

MySQL HeatWaveはAWS上でネイティブに動作するため、お客様は非常に低いレイテンシーでデータベースにアクセスでき、AWS上に展開されるアプリケーションの膨大なAWSデータエグレス料金を回避することができます。MySQL HeatWave on AWSには、いくつかの機能強化が実現されています。

スケールアウトされたデータ管理

MySQL HeatWave on AWSでは、HeatWaveのハイブリッドカラムナを実現するために、Amazon S3上に最適化されたストレージレイヤーを提供します。MySQL(InnoDBストレージエンジン)からHeatWaveにデータがロードされると、S3上に構築されたスケールアウト型のデータ管理レイヤーにコピーが作成されます。エラーリカバリー時など、HeatWaveへのデータの再読み込みが必要なオペレーションでは、複数のHeatWaveノードから並列にデータにアクセスし、変換せずに直接HeatWaveにデータを読み込むことができます。その結果、データ復旧作業が大幅に高速化され、サービスの可用性が向上します。例えば、4TBのHeatWaveクラスタの場合、S3からのデータ復旧とMySQLからの再読み込みにかかる時間は、140分から3.5分に改善されました — しかもOLTPパフォーマンスに影響を与えることはありません。

Scale Out Data Management_jp

 

コンソール上でのMySQL Autopilotの自動シェイプ予測をサポート

MySQL Autopilotは、プロビジョニング、データロード、クエリ実行、障害処理など、アプリケーションライフサイクルのさまざまな局面を、ワークロードを意識した機械学習によって自動化します。また、OLTPワークロードのために設計された機能も提供します。

対話型コンソールでは、データベース・ユーザーがMySQL Autopilotの自動シェイプ予測アドバイザーにアクセスできるようになり、OLTPワークロードを継続的に監視して、いつでも適切なシェイプを説明付きで推奨し、顧客が常に最適なコストパフォーマンスを得られるようになりました。コンソールに視覚的に表示される内容により、データベースユーザーはデータベースのシェイプを簡単にアップサイズまたはダウンサイズすることができます。レコメンデーションは、視覚的に表現されたスループットやバッファープールヒット率など、過去のパフォーマンス傾向分析によって提供されます。

MySQLAutopilot Auto-shape prediction in the console

定義済みMySQL HeatWave構成

MySQL HeatWave on AWSは、MySQLのシェイプやワークロードに基づき、あらかじめ最適化されたMySQL構成定義のセットを提供します。MySQL HeatWave on AWSは、OLTPのみのワークロードとOLAPとの混合ワークロードをサポートしています。

Pre-defined MySQL HeatWave configurations

また、新しいシステムのためのカスタム定義を作成することもできます。

MySQL HeatWave on OCI

HeatWaveの新しいスモールシェイプを提供

これまで、HeatWaveのノードのサイズは512GBでした。データサイズが小さいお客様からは、このような大きなノードをプロビジョニングせずにHeatWaveを使いたいとの声が多くありました。今回、新たに32GBのシェイプを導入しました。最大50GBのデータを処理でき、月額16ドルしかかかりません。

コストパフォーマンスの向上

HeatWaveノードで処理できるデータ量(512GB)が、従来の800GBから1TBに増加されました(正確なデータ処理量は、データとワークロードの特性によって異なります)。1ノードあたりのデータ量の増加やクエリ性能の向上により、HeatWaveのコストパフォーマンスはさらに15%増加しました。

MySQLHeatWaveImprovedPricePerformance_jp

オラクルは、MySQL Autopilotの自動アンロード機能を提供します。この機能により、ユーザーは、メモリ内のどのテーブルがシステムの推奨事項に基づいて最近使用されておらず、パージされる候補であるかを判断することができます。メモリを解放することで、ワークロードの実行に必要なクラスタのサイズを縮小し、コストを削減することができます。

MySQL HeatWaveの詳細、またはこれらの新機能の詳細については、oracle.com/mysqlのテクニカル・ブリーフを参照してください。