DataEditor によるモデルの作成と予測

Creating models and making predictions in the DataEditor

概要

DataEditor では、DataEditor 上のデータを使った機械学習のモデル作成と予測が行えます。

現在、DataEditor では、以下のモデルをサポートしています。

モデル 説明
数値回帰

数値の予測に使用します。

天候や曜日などから来場者数や販売数を予測したり、交通機関の利用者数を予測したりといったことなどに使用します。

数値分類

与えられたデータの分類に使用します。

クレジットカードや ATM の利用特性から正当利用か不正利用に分類したり、キャンペーンなどの実施により会員登録するかしないかに分類したりといったことなどに使用します。

クラスタリング

データをいくつかの似ているデータの集まり(クラスタリング)に分類します。

マーケットの分析やコンピュータビジョンなどのデータ分析において使用します。

数値分類と数値回帰については、モデルジェネレーターを使用したモデルとモデルジェネレーターを使用しないモデルの 2 種類があります。

モデルジェネレーターを使用したモデルの作成は、複雑な問題を解くのに向いていますが、その分学習に時間がかかります。一方、モデルジェネレーターを使用しないモデルの作成は、簡単な問題を解くのに向いています(学習時間も短い)。

以降、モデルジェネレーターを使用したモデルについては、「(モデルジェネレーター版)」という表記を付記して区別します。

DataEditor でモデルを利用する場合の利点は、以下のとおりです。

  • DataEditor 上でデータを構築するだけで、難しい専門知識は不要です。簡単に機械学習が利用できます。
  • 学習データの準備→モデルの作成→評価のサイクルがすべて DataEditor 上で自己完結するため、モデル開発のスピードが向上します。

数値回帰(モデルジェネレーター版)の例

ここでは、「数値回帰モデルを利用した需要予測」の電力需要予測データを使った数値回帰(モデルジェネレーター版)の使用例を紹介します。

データの準備

まず、機械学習のモデル作成時に必要となる学習(トレーニング)データを準備します。

ここでは、「数値回帰モデルを利用した需要予測」のデータを使用します。

まだ、「数値回帰モデルを利用した需要予測」を試していない方は、「CSV ファイルを準備しよう」と「DataEditor でデータを分割しよう」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

トレーニング用データのデータ編集画面へ切り替える様子
  1. 電力の需要予測の基礎データ_train]をクリック
モデル作成タブから数値回帰(モデルジェネレーター版)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. 数値回帰]をクリック
  3. モデルに付ける名前を入力
  4. Google Cloud Storage(ストレージ)のバケットを選択(初回のみ、新規に作成も可能)
    例:-us-central1-data で終わるバケット
  5. フォルダーを選択もしくは作成(初回のみ)
    例:blocks_ml
  6. 自動設定]か[手動設定]を選択
    • 自動設定]:経過制限時間を 30 分・最大試行回数を 20 回の設定で、モデル作成を実行
    • 手動設定]:経過制限時間や最大試行回数、トレーニングデータ設定を手動で設定して、モデル作成を実行
      手動設定の様子

      試行の途中で学習結果が悪化する(学習の過剰状態になる)と、[経過制限時間]を待たずに試行を止めます。また、おおよその最大時間は、目安です。

  7. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. <]をクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]をクリック
    モデルのスキーマが確認できます。
  2. <]をクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測を行います。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測を行います。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

まず、予測用データの画面を以下の手順で開きます。

予測用データを開く様子
  1. データ]タブをクリック
  2. 予測用データである[電力の需要予測の基礎データ_test]をクリック

予測用データの画面が開きます。

モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデル[電力の需要予測の基礎データ_train_model(数値回帰)]をクリック
  3. 予測]ボタンをクリック
予測結果を確認する様子

しばらくすると、予測結果が表示されます。

予測結果の意味は、以下のとおりです。

列名 説明
output

予測結果です。

key
high_temperature
low_temperature
sunlight_hours
average_humidity
daytime_minutes

予測用データです。

数値回帰の例

ここでは、「数値回帰モデルを利用した需要予測」の電力需要予測データを使った数値回帰の使用例を紹介します。

データの準備

まず、機械学習のモデル作成時に必要となる学習(トレーニング)データを準備します。

ここでは、「数値回帰モデルを利用した需要予測」のデータを使用します。

まだ、「数値回帰モデルを利用した需要予測」を試していない方は、「CSV ファイルを準備しよう」と「DataEditor でデータを分割しよう」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

トレーニングデータを選択する様子
  1. 電力の需要予測の基礎データ_train]をクリック
数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. 数値回帰]をクリック
  3. モデルジェネレーター]の[OFF]をクリック
  4. 名前を電力の需要予測モデルに変更
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 開く]ボタンをクリック

以上で、モデルの作成は完了です。ここでは、作成したモデルの内容を確認するため、[開く]ボタンをクリックしています。モデルの確認が必要なければ、[閉じる]ボタンをクリックします。

モデルの確認

モデルの作成が完了したので、作成したモデルの内容を確認して評価します。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータ各列ごとの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価を行います。このサイクルを良い結果が得られるまで繰り返します。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

モデル一覧へ戻る様子
  1. <](❶)をクリック
データ一覧画面へ切り替える様子
  1. データ]タブ(❶)をクリック
予測用データをクリックする様子
  1. 電力の需要予測の基礎データ_test](❶)をクリック
予測画面に切り替える様子
  1. 予測]タブ(❶)をクリック
モデルを選択し予測を実行する様子
  1. 電力の需要予測モデル](❶)をクリック
  2. 予測]ボタン(❷)をクリック
予測結果を確認する様子

予測が完了すると、結果(❶)が表示されます。

ダウンロード]ボタン(❷)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

このように DataEditor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。

数値分類(モデルジェネレーター版)の例

ここでは、「数値分類モデルを利用した分類」のあやめの分類データを使った数値分類(モデルジェネレーター版)の使用例を紹介します。

データの準備

まず、機械学習のモデル作成時に必要となるデータを準備します。

ここでは、「数値分類モデルを利用した分類」のデータを使用します。

まだ、「数値分類モデルを利用した分類」を試していない方は、「CSV ファイルを準備しよう」の章と「DataEditor でデータを分割しよう」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

トレーニング用データのデータ編集画面へ切り替える様子
  1. あやめの基礎データ_train]をクリック
モデル作成タブから数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. 数値分類]をクリック
  3. モデルに付ける名前を入力
  4. Google Cloud Storage(ストレージ)のバケットを指定(初回のみ、新規に作成も可能)
    例:-us-central1-data で終わるバケット
  5. フォルダーを選択もしくは作成(初回のみ)
    例:blocks_ml
  6. 自動設定]か[手動設定]を選択
    • 自動設定]:経過制限時間を 30 分・最大試行回数を 20 回の設定で、モデル作成を実行
    • 手動設定]:経過制限時間や最大試行回数、トレーニングデータ設定を手動で設定して、モデル作成を実行
      手動設定の様子

      試行の途中で学習結果が悪化する(学習の過剰状態になる)と、[経過制限時間]を待たずに試行を止めます。また、おおよその最大時間は、目安です。

  7. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. <]をクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]タブをクリック
    モデルのスキーマが確認できます。
  2. <]をクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測を行います。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測を行います。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

まず、予測用データの画面を以下の手順で開きます。

予測用データを開く様子
  1. データ]タブをクリック
  2. 予測用データである[あやめの基礎データ_test]をクリック

予測用データの画面が開きます。

モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデル[あやめの基礎データ_train_model(数値分類)]をクリック
  3. 予測]ボタンをクリック
予測結果を確認する様子

しばらくすると、予測結果が表示されます。

予測結果の意味は、以下のとおりです。

列名 説明
label

予測結果です。

今回の例では、Iris-virginicaIris-setosaIris-versicolor のいずれかになります。

label_index

score 列のどの値が label として採用されたかを示す数値です。0score 列の先頭の数値、1score 列のその次の数値を示しています。

今回の例では score 列は、Iris-virginicaIris-setosaIris-versicolor の順に並んでいます。よって、0Iris-virginica1Iris-setosa2Iris-versicolor です。

score

分類ごとの予測の確からしさのリストです。

今回の例では、Iris-virginicaIris-setosaIris-versicolor の順に並びます。

key
sepal_length
sepal_width
petal_length
petal_width

予測用データです。

数値分類の例

ここでは、「数値分類モデルを利用した分類」のあやめの分類データを使った分類の使用例を紹介します。

データの準備

まず、機械学習のモデル作成時に必要となる学習(トレーニング)データを準備します。

ここでは、「数値分類モデルを利用した分類」のデータを使用します。

まだ、「数値分類モデルを利用した分類」を試していない方は、「CSV ファイルを準備しよう」の章と「DataEditor でデータを分割しよう」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

トレーニング用データの編集画面へ切り替える様子
  1. あやめの基礎データ_train](❶)をクリック
数値分類モデルを作成する様子
  1. モデル作成]タブをクリック
  2. 数値分類]をクリック
  3. モデルジェネレーター]の[OFF]をクリック
  4. 名前をあやめの分類モデルに変更
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 開く]ボタンをクリック

以上で、モデルの作成は完了です。ここでは、作成したモデルの内容を確認するため、[開く]ボタンをクリックしています。モデルの確認が必要なければ、[閉じる]ボタンをクリックします。

モデルの確認

モデルの作成が完了したら、作成したモデルの内容を確認して評価します。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価を行います。このサイクルを良い結果が得られるまで繰り返します。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

ホーム画面へ戻る様子
  1. <]をクリック
データ一覧画面へ切り替える様子
  1. データ]タブをクリック
予測用データのデータ編集画面へ切り替える様子
  1. あやめの基礎データ_test]をクリック
予測画面へ切り替える様子
  1. 予測]タブをクリック
予測を実行する様子
  1. あやめの分類モデル]をクリック
  2. 予測]ボタンをクリック
予測結果を確認する様子

予測が完了すると、結果(❶)が表示されます。

ダウンロード]ボタン(❷)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • 各ラベルの結果(predicted_label_probs)欄は出力から除外

このように DataEditor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。

クラスタリングの例

ここでは、「数値分類モデルを利用した分類」のあやめの分類データを使ったクラスタリングの使用例を紹介します。

データの準備

まず、機械学習のモデル作成時に必要となるデータを準備します。

ここでは、「数値分類モデルを利用した分類」のデータを使用します。

まだ、「数値分類モデルを利用した分類」を試していない方は、「CSV ファイルを準備しよう」の章と「DataEditor でデータを分割しよう」の章を実施して、データを準備してください。

モデルの作成

トレーニングデータの準備ができたら、モデルを作成します。

トレーニング用データのデータ編集画面へ切り替える様子
  1. あやめの基礎データ_train]をクリック
クラスタリングモデルを作成する様子
  1. モデル作成]タブをクリック
  2. クラスタリング]をクリック
  3. 名前をあやめの分析モデルに変更
  4. クラスタ数を 3 に変更
  5. 詳細設定]をクリック
  6. class 列を[使わない]に変更
  7. モデル作成]ボタンをクリック

クラスタリングは教師なし学習となるため、トレーニングデータ設定で与えるデータには、答えである class 列は含めません。

モデル作成の完了を通知する画面
  1. 開く]ボタンをクリック

以上で、モデルの作成は完了です。ここでは、作成したモデルの内容を確認するため、[開く]ボタンをクリックしています。モデルの確認が必要なければ、[閉じる]ボタンをクリックします。

モデルの確認

モデルの作成が完了したら、作成したモデルの内容を確認して評価します。

モデルのスキーマ情報を確認する様子

モデルの詳細画面では、まずモデルのスキーマ情報(列名と型)が確認できます。

トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • クラスタの重心 ID:クラスタの重心ごとの ID です。
  • クラスタの半径:クラスタの半径です。
  • クラスタのサイズ:クラスタのサイズです。
  • 完了時刻(秒):各トレーニングの時間です。
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
クラスタの重心情報を確認する様子

クラスタの重心情報]タブ(❶)をクリックすると、トレーニングデータのクラスタの重心情報が確認できます。

  • centroid_id:クラスタの重心ごとにつけられた ID です。
  • feature:列の名前です。
  • numerical_value:feature が数値の場合は、feature が表す列の重心値です。feature が数値以外の場合は、NULL です。
  • categorical_value.category:文字列型の列の場合、重心となる文字列です。数値型の列の場合は空欄です。
  • categorical_value.value:categorical_value.category の重心としての確からしさです。値は 0 から 1 の範囲です。

予測

モデルの内容を確認し問題がなければ、そのモデルを使って予測を行います。

ホーム画面へ戻る様子
  1. <]をクリック
データ一覧画面へ切り替える様子
  1. テーブル]タブをクリック
予測用データのデータ編集画面へ切り替える様子
  1. あやめの基礎データ_test]をクリック
予測画面へ切り替える様子
  1. 予測]タブをクリック
予測を実行する様子
  1. あやめの分析モデル]をクリック
  2. 予測]ボタンをクリック
予測結果を確認する様子

予測が完了すると、結果が表示されます。

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • NEAREST_CENTROIDS_DISTANCE 欄は出力から除外

このように DataEditor 上にデータさえあれば、機械学習に関する難しい専門知識なしで、簡単かつ迅速に機械学習が利用できます。