Data Editor によるクエリモデルの作成と予測

Creating query models and making predictions in the Data Editor

概要

この機能は、ベータ版です。正式版リリース後は、手順含め新たに作り直しとなる可能性があります。その点を踏まえた上で、ご利用願います。

また、ベータ版での提供となるため、一部の機能が正常に動作しない可能性があります。機能改善や不具合などのフィードバックは、フォーラムお問い合わせで情報提供をお願いします。フィードバックの内容は MAGELLAN BLOCKS の品質向上のために利用いたします。

Data Editor では、Data Editor 上のデータを使ったクエリモデルの作成と予測が行えます(機械学習)。このクエリモデルは、モデルジェネレーターの機械学習モデルとは仕組みそのものが異なります。データ構造が複雑でない場合などでは、より簡単にモデルの作成が可能です。

現在、Data Editor では、以下のクエリモデルをサポートしています。

モデル 説明
線形回帰(数値回帰)モデル

数値の予測に使用します。天候や曜日などから来場者数や販売数を予測したり、交通機関の利用者数を予測したりといったことなどに使用します。

ロジスティック回帰(分類)モデル

与えられたデータの分類に使用します。クレジットカードや ATM の利用特性から正当利用か不正利用に分類したり、キャンペーンなどの実施により会員登録するかしないかに分類したりといったことなどに使用します。

k-平均法(クラスタリング)モデル

データをいくつかの似ているデータの集まり(クラスタリング)に分類します。マーケットの分析やコンピュータビジョンなどのデータ分析において使用します。

Data Editor でクエリモデルを利用する場合の利点は、以下のとおりです。

  • Data Editor 上でデータを構築するだけで、難しい専門知識は不要です。簡単に機械学習が利用できます。
  • 学習データの準備→モデルの作成→評価のサイクルがすべて Data Editor 上で自己完結するため、モデル開発のスピードが向上します。

Data Editor のモデルジェネレーターでモデル作成機能を使用すると、上記クエリモデルと同様の利点が得られます。モデルジェネレーターでモデル作成機能については、基本操作ガイドの Data Editor の機能紹介ページを参照願います。また、弊社ブログの「細かい新機能シリーズ No.5 Data Editorの画面から数値分類/数値回帰のモデルジェネレーター作成」や「最小手で需要予測をやってみる | MAGELLAN BLOCKS」の記事も参考になります。

線形回帰(数値回帰)モデルの例

ここでは、「モデルジェネレーターの使い方(数値回帰タイプ)」の電力需要予測データを使った線形回帰(数値回帰)モデルの使用例を紹介します。

データの準備

まず、機械学習モデルの作成時に必要となる学習(トレーニング)データを準備します。

ここでは、「モデルジェネレーターの使い方(数値回帰タイプ)」のデータを使用します。

まだ、「モデルジェネレーターの使い方(数値回帰)」を試していない方は、「数値回帰を始める前に」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

クエリモデル作成を実行する様子
  1. 名前が[電力の需要予測の基礎データ_train]の行右端の をクリック
  2. クエリモデル作成]をクリック
作成するモデルの情報を設定する様子
  1. 名前を[電力の需要予測モデル]に変更
  2. 作成]ボタンをクリック

しばらくすると、モデルの作成が完了します。

モデルの確認

モデルの作成が完了したら、作成したモデルの内容を確認して評価します。

モデル一覧に切り替える様子

モデル]タブをクリックして、モデルの一覧を表示します。

作成したモデル名をクリックする様子

モデル一覧画面から名前が[電力の需要予測モデル]をクリックします。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブをクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブをクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
データの重み情報を確認する様子

データの重み情報]タブをクリックすると、トレーニングデータ各列ごとの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価を行います。このサイクルを良い結果が得られるまで繰り返します。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

モデル一覧画面に戻る様子

]をクリックして、モデル一覧画面を表示します。

テーブル一覧画面に戻る様子

テーブル]タブをクリックして、テーブル一覧画面を表示します。

予測湯データをクリックする様子

テーブル一覧画面から名前が[電力の需要予測の基礎データ_test]をクリックします。

クエリモデル予測画面に切り替える様子

テーブルの詳細画面から[クエリモデル予測]をクリックします。

モデルを選択し予測を実行する様子
  1. 上図❶の部分をクリック
  2. 電力の需要予測モデル]をクリック
  3. 予測]ボタンをクリック
予測結果を確認する様子

予測が完了すると、結果が表示されます。

保存]ボタン横の[ダウンロード]ボタンをクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

このように Data Editor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。

ロジスティック回帰(分類)モデルの例

ここでは、「モデルジェネレーターの使い方(数値分類タイプ)」のあやめの分類データを使ったロジスティック回帰(分類)モデルの使用例を紹介します。

以下の手順を実際に手を動かして試してみたい場合は、「モデルジェネレーターの使い方(数値分類タイプ)」の手順に沿って、学習データの作成を済ませておいてください。

データの準備

まず、機械学習モデルの作成時に必要となる学習(トレーニング)データを準備します。

ここでは、「モデルジェネレーターの使い方(数値分類タイプ)」のデータを使用します。

まだ、「モデルジェネレーターの使い方(数値分類)」を試していない方は、「数値分類を始める前に」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

クエリモデル作成を実行する様子
  1. 名前が[あやめの基礎データ_train]の行右端の をクリック
  2. クエリモデル作成]をクリック
モデル情報を設定する様子
  1. 名前を[あやめの分類モデル]に変更
  2. モデルタイプから[ロジスティック回帰モデル(分類)]をクリック
  3. 作成]ボタンをクリック

しばらくすると、モデルの作成が完了します。

モデルの確認

モデルの作成が完了したら、作成したモデルの内容を確認して評価します。

モデル一覧画面に切り替える様子

モデル]タブをクリックして、モデルの一覧を表示します。

モデルをクリックする様子

モデル一覧画面から名前が[あやめの分類モデル]をクリックします。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブをクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブをクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
データの重み情報を確認する様子

データの重み情報]タブをクリックすると、トレーニングデータの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価を行います。このサイクルを良い結果が得られるまで繰り返します。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

モデル一覧画面に戻る様子

]をクリックして、モデル一覧画面を表示します。

テーブル一覧画面に戻る様子

テーブル]タブをクリックして、テーブル一覧画面を表示します。

予測用データをクリックする様子

テーブル一覧画面から名前が[あやめの基礎データ_test]をクリックします。

クエリモデル予測画面に切り替える様子

詳細画面から[クエリモデル予測]をクリックします。

予測を実行する様子
  1. 上図❶の部分をクリック
  2. あやめの分類モデル]をクリック
  3. 予測]ボタンをクリック
予測結果を確認する様子

予測が完了すると、結果が表示されます。

保存]ボタン横の[ダウンロード]ボタンをクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • 各ラベルの結果(predicted_label_probs)欄は出力から除外

このように Data Editor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。

k-平均法(クラスタリング)モデルの例

ここでは、「モデルジェネレーターの使い方(数値分類タイプ)」のあやめの分類データを使ったk-平均法(クラスタリング)モデルの使用例を紹介します。

以下の手順を実際に手を動かして試してみたい場合は、「モデルジェネレーターの使い方(数値分類タイプ)」の手順に沿って、学習データの作成を済ませておいてください。

データの準備

まず、機械学習モデルの作成時に必要となるデータを準備します。

ここでは、「モデルジェネレーターの使い方(数値分類タイプ)」のデータを使用します。

まだ、「モデルジェネレーターの使い方(数値分類)」を試していない方は、「数値分類を始める前に」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

クエリモデル作成を実行する様子
  1. 名前が[あやめの基礎データ_train]の行右端の をクリック
  2. クエリモデル作成]をクリック
モデル情報を設定する様子
  1. 名前をあやめの分析モデルに変更
  2. モデルタイプから[k-平均法(クラスタリング)]をクリック
  3. クラスタ数を 3 に変更
  4. class 列を[使わない]に変更
  5. 作成]ボタンをクリック

しばらくすると、モデルの作成が完了します。

k-平均法は教師なし学習となるため、トレーニングデータ設定で与えるデータには、答えである class 列は含めません。

モデルの確認

モデルの作成が完了したら、作成したモデルの内容を確認して評価します。

モデル一覧画面に切り替える様子

モデル]タブをクリックして、モデルの一覧を表示します。

モデルをクリックする様子

モデル一覧画面から名前が[あやめの分析モデル]をクリックします。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブをクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • クラスタの重心 ID:クラスタの重心ごとの ID です。
  • クラスタの半径:クラスタの半径です。
  • クラスタのサイズ:クラスタのサイズです。
  • 完了時刻(秒):各トレーニングの時間です。
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブをクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
クラスタの重心情報を確認する様子

クラスタの重心情報]タブをクリックすると、トレーニングデータのクラスタの重心情報が確認できます。

  • centroid_id:クラスタの重心ごとにつけられた ID です。
  • feature:列の名前です。
  • numerical_value:feature が数値の場合は、feature が表す列の重心値です。feature が数値以外の場合は、NULL です。
  • categorical_value.category:文字列型の列の場合、重心となる文字列です。数値型の列の場合は空欄です。
  • categorical_value.value:categorical_value.category の重心としての確からしさです。値は 0 から 1 の範囲です。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

モデル一覧画面に戻る様子

]をクリックして、モデル一覧画面を表示します。

テーブル一覧画面に戻る様子

テーブル]タブをクリックして、テーブル一覧画面を表示します。

予測用データをクリックする様子

テーブル一覧画面から名前が[あやめの基礎データ_test]をクリックします。

クエリモデル予測画面に切り替える様子

詳細画面から[クエリモデル予測]をクリックします。

予測を実行する様子
  1. あやめの分析モデル]をクリック
  2. 予測]ボタンをクリック
予測結果を確認する様子

予測が完了すると、結果が表示されます。

保存]ボタン横の[ダウンロード]ボタンをクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • NEAREST_CENTROIDS_DISTANCE 欄は出力から除外

このように Data Editor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。