この記事は Interactive console for machine learning in MySQL HeatWave の翻訳版です。
機械学習が浸透し、企業は自社製品に機械学習やAIベースの機能を競って導入しています。最大の課題は、機械学習ベースのプロジェクトを実現するための専門知識・技術を持つ人材の不足です。現在、MySQL HeatWave(別名:MySQL HeatWave AutoML)の機械学習用対話型コンソールにより、ビジネスアナリストでも機械学習モデルを簡単に作成・管理できるようになりました。企業は、データサイエンスに精通した人材の確保を心配することなく、顧客に付加価値をもたらす機能の構築に集中することができます。MySQL HeatWaveの対話型コンソールを使用すると追加コストなしで、インタラクティブかつ迅速にモデル構築・予測、説明の生成を行うことができます。
MySQL HeatWaveの対話型コンソールは、データベーススキーマオブジェクトの管理、インタラクティブなクエリ実行、パフォーマンスの監視、機械学習機能の利用を可能にする統合環境で、ビジネスアナリストがアプリケーションの開発、データオブジェクトの管理、機械学習モデルを容易に行えるようにします。ユーザーは、機械学習モデルのトレーニング、スコアリング、説明、予測、What Ifシナリオを実行し、特徴量の変化がモデルの出力結果に与える影響を確認することができます。

対話型コンソールで機械学習モデルを管理する方法を説明するために、UCI機械学習リポジトリで公開されている 銀行のマーケティングデータセット を利用して機械学習モデルを構築してみましょう。このデータセットに基づく機械学習モデルの目的は、銀行の定期預金の電話によるマーケティング・キャンペーンに対する顧客の反応予測です。顧客の反応は「Yes」か「No」のどちらかであるため、分類のモデルを構築します。
トレーニングデータセットとテストデータセットの作成
コンソールの「ワークスペース」タブでデータ管理機能をサポートしています。銀行のマーケティングデータをトレーニング用とテスト用のデータセットに分割します。トレーニング用データセットを格納するtrainingテーブルと、テスト用データセットを格納するtestテーブルを作成します。trainテーブルはモデルの学習に、testテーブルはモデルの評価に使用します。

モデルの生成 (トレーニング)
コンソールのHeatWave AutoMLタブでモデル管理機能をサポートしています。現在のDBシステムで作成されたすべてのモデルが、モデル名、モデル状態、予測カラム、トレーニングテーブル、アルゴリズム、トレーニングスコア、モデル作成日などの詳細とともに表示されます。トレーニングデータセットやターゲットカラムを選択し、選択したトレーニングデータセットからトレーニングに利用するカラムを選択します。機械学習タスクとして、銀行マーケティングデータセットのClassification(分類)を選択します。
オプションで、’Advanced’メニューをクリックし、詳細オプションを表示します。「Advanced」メニューで、モデル作成に考慮する最適化指標とアルゴリズムを選択します。デフォルトでは、最適化指標として「neg_log_loss」が使用され、機械学習タスク「分類」でサポートされているすべてのアルゴリズムが表示されます。「Create」ボタンをクリックすると、モデルの学習が開始されます。

モデルを作成する際に、自動機械学習パイプラインは、データの前処理、アルゴリズムの選択、特徴量の選択、ハイパーパラメータのチューニングを行い、モデルの説明を作成します。このように、ユーザーは機械学習の専門知識がなくても、高度な機械学習モデルを構築することができます。
モデルの評価
銀行マーケティングモデルを作成したら、ユーザーはモデルの品質をチェックするために評価を行う必要があります。このステップでは、モデルスコアの計算、モデルの説明の確認、予測値の生成、予測値の説明の閲覧、What If分析の実行を行います。
最適なモデルの作成は、繰り返し行われるプロセスです。MySQL HeatWave AutoMLでのモデル構築は非常に高速(Redshift MLと比較して平均25倍高速)であるため、ユーザーはモデルのスコアや説明、必要に応じてデータ機能の追加、モデルの再トレーニングを行い、モデル品質を迅速に確保することができます。

予測を立てる
トレーニングデータセットと同じカラムを持つデータソースを選択し、ターゲットカラムを含むか含まないかで、インタラクティブコンソールから予測を生成することができます。ターゲットカラムが存在する場合、モデルの出力結果がターゲットカラムのグランドトゥルースと一致しない予測値は赤色で表示されます。生成された予測値から特定のレコードを選択すると、予測値の説明を表示したり、What If分析でシナリオを実行することができます。

モデル・予測の説明
HeatWave AutoMLは、提供された入力テーブルに対して最も正確な機械学習モデルを見つけるだけでなく、統合された説明可能モジュールによって、ユーザーがモデルとその予測値を理解し解釈できるようにします。データとモデルから洞察を得ることで、ユーザーはどのような要素が最も重要か、なぜそのモデルがそのように動作するのか、どのように改善できるのかといった疑問に答えることができます。
モデルの説明ではモデル全体の重要な属性を提供し、予測の説明ではデータの1行または複数の行の重要な属性を特定します。 銀行のマーケティングの例では、モデルの説明では「duration(通話時間)」と通話が行われた「month(月)」がモデル全体にとって最も重要な属性であると特定されます。しかし、特定の顧客では、「age(年齢)」や「loan(ローン)」の方がより重要な要素になり得ます。

What If分析
対話型コンソールはWhat If分析をサポートします。ユーザーはデータレコードの特定の値を変更し、モデルの出力結果を元の値(別名ベースライン)と比較することができます。また、更新されたレコードとベースラインの間の予測説明の比較も表示されます。比較の解釈はユーザーが理解しやすいようにテキストで提供されます。
銀行のマーケティングモデルの場合、あるデータレコードの予測説明では、「month(月)」が「定期預金を購入しない」という予測に最も大きな影響を与え、「duration(通話時間)」が「定期預金を購入する」という予測に最も大きな影響を与えています。月を「5月」から「12月」に変更し、通話時間を「238秒」から「1000秒」に延長したところ、「定期預金を購入する」と予測されました。

要約すると、MySQL HeatWave の機械学習を活用するための対話型コンソールは、データと機械学習モデルを追加費用なしで管理する統合環境を提供します。 ビジネスユーザーでも機械学習モデルを簡単に管理できるため、企業や組織はモデル構築の詳細な技術的ではなく、ビジネス目標に集中できるようになります。 ユーザーは、予測の説明に基づいて What If 分析を実行し、シナリオを実行して、モデルの出力結果を元に戻すために変更できるデータの特徴を特定できます。 MySQL HeatWave AutoML に追加料金はかかりません。

