※ 本記事は、Luis Rivasによる”Master Your Data: A Guide to Seamless Standardization with Oracle Analytics Cloud’s Replace Value List Feature“を翻訳したものです。

2024年2月2日


バリアント名またはスペルミスのある複数の値を含む列がデータに含まれていることはありますか? これらのデータ品質の問題は、データ分析の正確性と有用性に大きく影響するため、データセットのオーサリング・プロセス中に修正する必要があります。Oracle Analytics Cloudデータセット・エディタの「値リストの置換」ダイアログを使用してユース・ケースを見てみましょう。まず、承認されたベンダーからの費用情報がMerchantName列にあるデモ・データセットから始めます。データセットの作成中にも、「Merchant Name」列が標準化されておらず、クリーンアップする必要があることがデータ品質インサイトを確認することによって明らかになります。

This figure shows the unstandardized merchant names

このデータからワークブックを作成する場合、Apple ComputerやApple Incなどの標準化されていない承認済ベンダー名のために支出の視覚化はあまり役に立ちません。

This figure shows the viz created with unstandardized merchant names


支出分析が理にかなうように、すべてのベンダー名を標準化する必要があります。データ値の標準化は、スペルの修正とは同じではありません。この例のバリエーションのほとんどは、正しく綴られていますが、各ベンダーの支出分析が正確になるように、標準化または変更する必要がある様々な形式になっています。データセットに戻り、新しい値リストの置換機能を使用します。ダイアログを表示するには、メニューをクリックし、ドロップダウン・リストから「Replace Value List」を選択します。元の値が左側にロードされ、値の置換側をダブルクリックすると、置換値の入力を開始できます。新しい値を入力し、[Enter]または[Tab]を押すと、置換する準備ができたリスト内の次の値にカーソルが自動的に置かれます。

This animation shows the merchant names being standardized

 

この例では、これらの承認済みベンダーのすべての値をフィクシャスな会社に標準化します。新しい値を入力すると、次の品質インサイトがリフレッシュされ、すべての値の標準化に向けた進捗の結果が表示されます。完了したら、「OK」ボタンをクリックして変更を適用し、品質インサイトとサンプル値に変更が反映されます。「Transform Script」パネルには、「Replace List for Supplier Name」という単一の変換があり、値を変更や値を追加する必要がある場合に編集できます。

This figure shows the transform script with the replace list transform

さらに、品質タイルから値を直接変更すると、これらの置換値が「Replace Value List」に自動的に追加され、「Pencil」アイコンをクリックして編集できます。変更を保存し、上記と同じビジュアライゼーションでワークブックを作成したら、仕入先の支出について、ビジュアライゼーションがいかに正確で洞察力に富んでいるかに注目してください。

This figure shows the result of standardization but with one issue

ただし、マーチャント名にはまだ1つの問題があります。Adobe, Inc.の一部の行はAdobeに標準化されていません。その理由は、品質インサイトがデータの代表的なランダム・サンプルに基づいており、Adobe, Inc.などのカーディナリティが低い行がサンプリング・パス中に取得されていない可能性があるためです。ただし、「Replace」ダイアログでこれに対処する方法があります。この問題を解決するには、データセット・エディタに戻り、「Replace List Merchant」の名前を見つけて、「Pencil」アイコンをクリックして前回の作業を編集します。

Click on the transform script for Replace List Merchant Name

以前の置換値を含む「Replace List」ダイアログが表示されます。リストにない値を追加するには、リストの一番下までスクロールして、古い値と置換値の両方を入力できるフィールドを見つけます。古い価値として「Adobe Inc.」と入力し、Adobeの他のすべての種類と同様に「Adobe」に標準化します。

Fix the Adobe issue

これで、ビジュアライゼーションの問題が修正されました。見てみましょう。

Final Viz with results.

承認された各ベンダーの実際の支出を反映した鮮明なビジュアライゼーションを実現しました。

行動喚起

この情報が役に立ち、複数置換機能を使用したデータの標準化を試すことをお薦めします。この例で学習したように、複数の値の置換は新しいダイアログを使用すると、非常に簡単で、1つの変換内でいつでも戻って編集できます。「置換を使用したデータの変換」を参照してください。そして、より多くのヒントやコツで追加のブログに注目してください!