DataEditorによるモデルの作成と予測

Creating models and making predictions in the DataEditor

概要

DataEditorでは、DataEditor上のデータを使った機械学習のモデル作成と予測が行えます。

DataEditorでサポートしている機械学習モデルは、以下のとおりです。

限定公開の利用にあたっては、ライセンス購入申請が必要です。限定公開のモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデルジェネレーター(回帰)の例

モデル作成

トレーニング用データのデータ編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
モデル作成タブから数値回帰(モデルジェネレーター版)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. モデルジェネレーター(回帰)]をクリック
  3. モデルに付ける名前を入力

セルフサービスプランのみ
プロジェクト作成後に初めてモデルを作成する場合は、ストレージ設定の操作が必要です。

  1. Google Cloud Storage(ストレージ)のバケットを選択
    例:-us-central1-mlで終わるバケット
  2. フォルダーを選択もしくは作成
    例:blocks_ml

ストレージ設定は、初回以降は変更できません。次回以降のモデル作成時は、設定内容を確認するだけの項目として表示されます。

  1. 自動設定]か[手動設定]を選択
    • 自動設定]:トレーニングを300分かけて、モデル作成を実行
    • 手動設定]:経過制限時間やトレーニングデータ設定を手動で設定して、モデル作成を実行
      マルチモーダル用のデータの場合は、必ず手動設定を選択し、画像データの型に[画像URL]を指定します。
      手動設定の様子(1)
      1. テーブルから生成する]ボタンをクリック
      手動設定の様子(2)

      トレーニングは、複数のマシンを使ってトレーニングを並列実行します。トレーニングの途中で学習結果が悪化する(学習の過剰状態になる)と、自動設定の場合は300分、手動設定の場合は設定した[経過制限時間]を待たずにトレーニングを止めます。

  2. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. アイコンをクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]をクリック
    モデルのスキーマが確認できます。
  2. アイコンをクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測ができます。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測します。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

まず、予測用データの画面を以下の手順で開きます。

予測用データを開く様子
  1. データ]タブをクリック
  2. 予測用データをクリック
モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルをクリック
  3. 予測]ボタンをクリック

しばらくすると、予測結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果をCSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

線形回帰(回帰)の例

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. 線形回帰(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデルの確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい線形回帰(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合はNULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合はNULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合はNULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合はNULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合はNULL。
  • NULLの数:NULL値の数
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータ各列ごとの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する線形回帰(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表をCSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

AutoML(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
AutoML(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. AutoML(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. トレーニングの最大時間を時間単位で設定
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいAutoML(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値
  • 最大値:トレーニングデータの最大値
  • 平均値:トレーニングデータの平均値
  • 標準偏差:トレーニングデータの標準偏差
  • カテゴリの数:カテゴリの数
  • NULLの数:NULL値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するAutoML(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表をCSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

XGBoost(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
XGBoost(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. XGBoost(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ブースタータイプ

    使用するブースターのタイプを指定します。

    DARTブースターの正規化アルゴリズムのタイプ

    DARTブースターの正規化アルゴリズムのタイプを指定します。

    • Tree
    • Forest
    各反復中に構築された並列ツリーの数

    各反復の間に構築される並列ツリーの数。デフォルト値は1です。ブーストされたランダムフォレストを学習するには、この値を1よりも大きく設定してください。

    ツリー構築アルゴリズムのタイプ

    ツリー構築アルゴリズムの種類を指定します。

    • AUTO
    • EXACT
    • APPROX
    • HIST
    分割するために子で必要なインスタンスの重みの最小合計

    さらなるパーティショニングに必要な子ノードのインスタンスの重みの最小値を指定します。

    ツリーの分割ステップの結果、インスタンス重みの合計が指定した値よりも小さいリーフノードが得られた場合、構築プロセスはそれ以上の分割を停止します。指定した値が大きいほど、アルゴリズムはより保守的になります。

    値は必ず0以上を指定します。

    各ツリーを構築する際の列のサブサンプル比

    各ツリーを構築する際の列のサブサンプル率を指定します。

    サブサンプリングは、構築されたツリーごとに1回行われます。

    値は0から1の間で指定します。

    各レベルの列のサブサンプル比

    各レベルの列のサブサンプル率を指定します。

    サブサンプリングは、ツリー内の新しい深さレベルへ到達するごとに1回行われます。列は、現在のツリーで選択された列のセットからサブサンプリングされます。

    値は0から1の間で指定します。

    各ノードの列のサブサンプル比

    各ノード(スプリット)の列のサブサンプル率を指定します。

    サブサンプリングは、新しいスプリットが評価されるたびに1回発生します。

    列は、現在のレベルで選択された列のセットからサブサンプリングされます。

    値は0から1の間で指定します。

    ツリーの葉ノードにさらにパーティションを作成するために必要な最小の損失削減

    ツリーのリーフノードでさらに分割するのに必要な損失の最小値を指定します。

    指定した値が大きいほど、アルゴリズムはより保守的になります。

    木の最大深度

    ツリーの最大深度を指定します。

    トレーニングインスタンスのサブサンプル比

    トレーニングインスタンスのサブサンプル率を指定します。

    この値を0.5に設定すると、ツリーを成長させる前にトレーニングがトレーニングデータの半分をランダムにサンプリングすることになり、オーバーフィットを防ぐことができます。

    サブサンプリングは、各反復ごとに1回行われます。

    値は0から1の間で指定します。

    適用されるL1正則化の量

    L1正則化の適用量を指定します。

    適用されるL2正則化の量

    L2正則化の適用量を指定します。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    最初の反復の後で、「「早期停止」がtrueに設定されている場合にトレーニングを継続するために必要な最小相対損失の改善」パラメーターで指定された値よりも小さいときに、トレーニングを停止するかどうかを指定します。

    • true:停止する
    • false:停止しない
    「早期停止」がtrueに設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    早期停止」パラメーターにtrueを指定した場合、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    たとえば、0.01の値を指定すると、トレーニングを継続するためには、各反復で損失を1%減少させる必要があります。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    学習率を指定します。

    ブースティングの最大ラウンド数

    ブースティング時の最大ラウンド数を指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいXGBoost(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合はNULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合はNULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合はNULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合はNULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合はNULL。
  • NULLの数:NULL値の数
特徴量重要度の情報

特徴量重要度の情報]タブ(❶)をクリックすると、どの列が予測結果に与える影響が大きいのかを示す指標が確認できます。値が大きいほど、その列が予測結果に重要であることを意味します。

ここでは、以下3種類の指標が確認できます。

指標の種類 説明
特徴を使用してデータをツリーに分割した回数

ウェイト(weight)と呼ばれる指標です。

ツリーの分岐に、各列が何回用いられたかを表します。

特徴が使用されているすべての分割の平均ゲイン

ゲイン(gain)と呼ばれる指標です。

ゲインは、各ツリーに対して、各列の寄与度を取ることで算出されます。これは、各列のモデルへの相対的な寄与度を意味します。

特徴が使用されているすべての分割の平均カバレッジ

カバー(cover)と呼ばれる指標です。

ツリーの分岐に、到達する各列のトレーニングデータ数の平均値を表します。

この指標の中で、「特徴が使用されているすべての分割の平均ゲイン」が、各列の相対的な重要性を解釈する上で最も良い指標です。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するXGBoost(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

Deep Neural Network(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
Deep Neural Network(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. Deep Neural Network(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ニューラルネットワークのアクティベーション関数

    ニューラルネットワークの活性化関数(ニューロンへの入力値から出力値を求める関数)を指定します。

    ニューラルネットワークに供給されるサンプルのミニバッチサイズ

    データをいくつかのサブセットに分割するミニバッチサイズを8192以下の正の数で指定します。

    慣習的には、1024や2048などの2のn乗値が使われます。

    ニューラルネットワーク内のユニットのドロップアウト率

    ニューラルネットワークのユニットのドロップアウト率を指定します。

    指定可能な値は、0.0から1.0です。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    トレーニングの結果に改善が見られなかったとき、学習を停止するかしないかを指定します。

    • true:トレーニングを停止する(過学習防止)
    • false:トレーニングを停止しない
    「早期停止」がtrueに設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    上記「早期停止」パラメーターをtrueに指定したとき、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    例えば、0.01の値を指定すると、イテレーションごとに損失が1%減少すると、トレーニングが継続します。

    隠れ層の構造

    隠れ層の数と、隠れ層ごとのユニット数を指定します。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    トレーニングごとに重み付けパラメーターを更新する率を指定します。

    トレーニングの最大繰り返し回数またはステップ数

    イテレーション回数の最大値を指定します。

    モデルをトレーニングするためのオプティマイザー

    モデルをトレーニングするためのオプティマイザーを指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいDeep Neural Network(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合はNULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合はNULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合はNULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合はNULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合はNULL。
  • NULLの数:NULL値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するDeep Neural Network(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

モデルジェネレーター(分類)の例

モデル作成

トレーニング用データのデータ編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
モデル作成タブから数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. モデルジェネレーター(分類)]をクリック
  3. モデルに付ける名前を入力

セルフサービスプランのみ
プロジェクト作成後に初めてモデルを作成する場合は、ストレージ設定の操作が必要です。

  1. Google Cloud Storage(ストレージ)のバケットを指定
    例:-us-central1-mlで終わるバケット
  2. フォルダーを選択もしくは作成
    例:blocks_ml

ストレージ設定は、初回以降は変更できません。次回以降のモデル作成時は、設定内容を確認するだけの項目として表示されます。

  1. 自動設定]か[手動設定]を選択
    • 自動設定]:トレーニングを300分かけて、モデル作成を実行
    • 手動設定]:経過制限時間やトレーニングデータ設定を手動で設定して、モデル作成を実行
      マルチモーダル用のデータの場合は、必ず手動設定を選択し、画像データの型に[画像URL]を指定します。
      手動設定の様子(1)
      1. テーブルから生成する]ボタンをクリック
      手動設定の様子(2)

      トレーニングは、複数のマシンを使ってトレーニングを並列実行します。トレーニングの途中で学習結果が悪化する(学習の過剰状態になる)と、自動設定の場合は300分、手動設定の場合は設定した[経過制限時間]を待たずにトレーニングを止めます。

  2. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. アイコンをクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]タブをクリック
    モデルのスキーマが確認できます。
  2. アイコンをクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測します。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測します。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

予測用データを開く様子
  1. ホーム画面のデータ一覧から予測用データをクリック
モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルジェネレーター(分類)モデルをクリック
  3. 予測]ボタンをクリック

しばらくすると、予測結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

ロジスティック回帰(分類)の例

モデル作成

トレーニング用データの編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
数値分類モデルを作成する様子
  1. モデル作成]タブをクリック
  2. ロジスティック回帰(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいロジスティック回帰(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULLになります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULLになります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULLになります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULLになります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULLになります。
  • NULLの数:NULLの数です。
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データのデータをクリックする様子
  1. ホーム画面のデータ一覧から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するロジスティック回帰(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロードページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

AutoML(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
AutoML(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. AutoML(分類)]をクリック
  3. 名前を必要に応じて変更
  4. トレーニングの最大時間を時間単位で設定
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいAutoML(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値
  • 最大値:トレーニングデータの最大値
  • 平均値:トレーニングデータの平均値
  • 標準偏差:トレーニングデータの標準偏差
  • カテゴリの数:カテゴリの数
  • NULLの数:NULL値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するAutoML(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

XGBoost(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
XGBoost(分類)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. XGBoost(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ブースタータイプ

    使用するブースターのタイプを指定します。

    DARTブースターの正規化アルゴリズムのタイプ

    DARTブースターの正規化アルゴリズムのタイプを指定します。

    • Tree
    • Forest
    各反復中に構築された並列ツリーの数

    各反復の間に構築される並列ツリーの数。デフォルト値は1です。ブーストされたランダムフォレストを学習するには、この値を1よりも大きく設定してください。

    ツリー構築アルゴリズムのタイプ

    ツリー構築アルゴリズムの種類を指定します。

    • AUTO
    • EXACT
    • APPROX
    • HIST
    分割するために子で必要なインスタンスの重みの最小合計

    さらなるパーティショニングに必要な子ノードのインスタンスの重みの最小値を指定します。

    ツリーの分割ステップの結果、インスタンス重みの合計が指定した値よりも小さいリーフノードが得られた場合、構築プロセスはそれ以上の分割を停止します。指定した値が大きいほど、アルゴリズムはより保守的になります。

    値は必ず0以上を指定します。

    各ツリーを構築する際の列のサブサンプル比

    各ツリーを構築する際の列のサブサンプル率を指定します。

    サブサンプリングは、構築されたツリーごとに1回行われます。

    値は0から1の間で指定します。

    各レベルの列のサブサンプル比

    各レベルの列のサブサンプル率を指定します。

    サブサンプリングは、ツリー内の新しい深さレベルへ到達するごとに1回行われます。列は、現在のツリーで選択された列のセットからサブサンプリングされます。

    値は0から1の間で指定します。

    各ノードの列のサブサンプル比

    各ノード(スプリット)の列のサブサンプル率を指定します。

    サブサンプリングは、新しいスプリットが評価されるたびに1回発生します。

    列は、現在のレベルで選択された列のセットからサブサンプリングされます。

    値は0から1の間で指定します。

    ツリーの葉ノードにさらにパーティションを作成するために必要な最小の損失削減

    ツリーのリーフノードでさらに分割するのに必要な損失の最小値を指定します。

    指定した値が大きいほど、アルゴリズムはより保守的になります。

    木の最大深度

    ツリーの最大深度を指定します。

    トレーニングインスタンスのサブサンプル比

    トレーニングインスタンスのサブサンプル率を指定します。

    この値を0.5に設定すると、ツリーを成長させる前にトレーニングがトレーニングデータの半分をランダムにサンプリングすることになり、オーバーフィットを防ぐことができます。

    サブサンプリングは、各反復ごとに1回行われます。

    値は0から1の間で指定します。

    各クラスラベルに使用する重み

    クラスラベルごとに重みを設定します。

    適用されるL1正則化の量

    L1正則化の適用量を指定します。

    適用されるL2正則化の量

    L2正則化の適用量を指定します。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    最初の反復の後で、「「早期停止」がtrue に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善」パラメーターで指定された値よりも小さいときに、トレーニングを停止するかどうかを指定します。

    • true:停止する
    • false:停止しない
    「早期停止」がtrueに設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    早期停止」パラメーターにtrueを指定した場合、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    たとえば、0.01の値を指定すると、トレーニングを継続するためには、各反復で損失を1%減少させる必要があります。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    学習率を指定します。

    ブースティングの最大ラウンド数

    ブースティング時の最大ラウンド数を指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいXGBoost(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合はNULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合はNULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合はNULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合はNULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合はNULL。
  • NULLの数:NULL値の数
特徴量重要度の情報

特徴量重要度の情報]タブ(❶)をクリックすると、どの列が予測結果に与える影響が大きいのかを示す指標が確認できます。値が大きいほど、その列が予測結果に重要であることを意味します。

ここでは、以下3種類の指標が確認できます。

指標の種類 説明
特徴を使用してデータをツリーに分割した回数

ウェイト(weight)と呼ばれる指標です。

ツリーの分岐に、各列が何回用いられたかを表します。

特徴が使用されているすべての分割の平均ゲイン

ゲイン(gain)と呼ばれる指標です。

ゲインは、各ツリーに対して、各列の寄与度を取ることで算出されます。これは、各列のモデルへの相対的な寄与度を意味します。

特徴が使用されているすべての分割の平均カバレッジ

カバー(cover)と呼ばれる指標です。

ツリーの分岐に、到達する各列のトレーニングデータ数の平均値を表します。

この指標の中で、「特徴が使用されているすべての分割の平均ゲイン」が、各列の相対的な重要性を解釈する上で最も良い指標です。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するXGBoost(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

Deep Neural Network(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
Deep Neural Network(分類)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. Deep Neural Network(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ニューラルネットワークのアクティベーション関数

    ニューラルネットワークの活性化関数(ニューロンへの入力値から出力値を求める関数)を指定します。

    各クラスの頻度に反比例して各クラスの重みを使用してクラスラベルのバランスを取るかどうか

    各クラスの頻度に反比例して各クラスの重みを使用してクラスラベルのバランスを取るかどうかを指定します。

    • true:クラスラベルのバランスを取る
    • false:クラスラベルのバランスを取らない
    各クラスラベルに使用する重み

    クラスラベルごとに重みを設定します。

    ニューラルネットワークに供給されるサンプルのミニバッチサイズ

    データをいくつかのサブセットに分割するミニバッチサイズを8192以下の正の数で指定します。

    慣習的には、1024や2048などの2のn乗値が使われます。

    ニューラルネットワーク内のユニットのドロップアウト率

    ニューラルネットワークのユニットのドロップアウト率を指定します。

    指定可能な値は、0.0から1.0です。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    トレーニングの結果に改善が見られなかったとき、学習を停止するかしないかを指定します。

    • true:トレーニングを停止する(過学習防止)
    • false:トレーニングを停止しない
    「早期停止」がtrueに設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    上記「早期停止」パラメーターをtrueに指定したとき、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    例えば、0.01の値を指定すると、イテレーションごとに損失が1%減少すると、トレーニングが継続します。

    隠れ層の構造

    隠れ層の数と、隠れ層ごとのユニット数を指定します。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    トレーニングごとに重み付けパラメーターを更新する率を指定します。

    トレーニングの最大繰り返し回数またはステップ数

    イテレーション回数の最大値を指定します。

    モデルをトレーニングするためのオプティマイザー

    モデルをトレーニングするためのオプティマイザーを指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいDeep Neural Network(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合はNULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合はNULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合はNULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合はNULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合はNULL。
  • NULLの数:NULL値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するDeep Neural Network(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表をCSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

k-平均法の例

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
クラスタリングモデルを作成する様子
  1. モデル作成]タブをクリック
  2. k-平均法]をクリック
  3. 名前をあやめの分析モデルに変更
  4. クラスタ数(分類する数)を適切に変更
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
    因子に結果となる値の列が含まれている場合は、因子設定を「使わない」に変更します。k-平均法は教師なし学習となるため、トレーニングデータ設定で与えるデータには、結果(答え)となる値の列は含めません。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいk-平均法モデルの名前をクリック
確認するモデルを選択する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • クラスタの重心ID:クラスタの重心ごとのIDです。
  • クラスタの半径:クラスタの半径です。
  • クラスタのサイズ:クラスタのサイズです。
  • 完了時刻(秒):各トレーニングの時間です。
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULLになります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULLになります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULLになります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULLになります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULLになります。
  • NULLの数:NULLの数です。
クラスタの重心情報を確認する様子

クラスタの重心情報]タブ(❶)をクリックすると、トレーニングデータのクラスタの重心情報が確認できます。

  • centroid_id:クラスタの重心ごとにつけられたIDです。
  • feature:列の名前です。
  • numerical_value:featureが数値の場合は、featureが表す列の重心値です。featureが数値以外の場合は、NULLです。
  • categorical_value.category:文字列型の列の場合、重心となる文字列です。数値型の列の場合は空欄です。
  • categorical_value.value:categorical_value.categoryの重心としての確からしさです。値は0から1の範囲です。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データのデータをクリックする様子
  1. ホーム画面のデータ一覧から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するロジスティック回帰(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が3ページ分あり、2ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2ページ分のデータがダウンロードされます。

  • NEAREST_CENTROIDS_DISTANCE欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果をDataEditorに登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

ARIMA+(時系列)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

ARIMA+(時系列)モデルの作成手順は、以下のとおりです。

  1. ホーム画面からモデル作成用のトレーニングデータをクリック
  1. モデル作成」タブをクリック
  2. 「ARIMA+(時系列)」をクリック
  3. 必要に応じて名前を変更
  4. トレーニングデータのタイムスタンプ列のカラムを選択
  5. トレーニングデータのデータ列(予測したいデータ)のカラムを選択
  6. 詳細設定」をクリック
    ARIMA+の各種パラメーターの調整ができます。初期値で問題なければ、調整不要です。
    パラメーター 説明
    時系列の種類の列(複数の時系列の場合に指定)

    複数の時系列カラムがある場合は、その数分のカラムが指定できます。

    予測する期間の数

    予測したい期間の長さを指定します。単位は、タイムスタンプ列のデータ頻度の扱いによります。タイムスタンプ列のデータが、月ごとの扱いであれば月単位、日ごとの扱いであれば日単位となります。

    ARIMAモデルの最適な順序を自動的に検出する

    AIC(Akaike Information Criterion:赤池情報量規準)が最も低い最適なモデルを自動的に検出するかどうかを指定します。

    非季節性の自己回帰係数(p)と移動平均係数(q)の合計の最大値

    自己回帰係数(p)と移動平均係数(q)の合計の最大値を指定します。指定できる値は、1から5の整数です。

    ARIMAモデルの最適な順序を自動的に検出する」がオフの場合は、指定できません。

    非季節性の自己回帰係数(p)、差分を取る回数(d)、移動平均係数(q)

    ARIMAモデルの最適な順序を自動的に検出しない場合は、自己回帰係数(p)、差分を取る回数(d)、移動平均係数(q)を手動で設定します。

    ARIMAモデルの最適な順序を自動的に検出する」がオンの場合は、指定できません。

    時系列のデータ頻度

    トレーニングデータのタイムスタンプ列のデータ頻度を指定します。

    • タイムスタンプから自動的に推測
    • 分毎
    • 時間毎
    • 日毎
    • 週毎
    • 月毎
    • 四半期毎
    • 年毎
    モデルにドリフト項が含まれる(非季節性の差分を取る回数(d)が1の場合に適用されます)

    ドリフト項を含めるかどうかを指定します。

    ARIMAモデルの最適な順序を自動的に検出する」がオンの場合は、自動的に決定されます。

    休日効果を適用する

    休日効果を適用したい場合は、適用したい国や地域を選択します。

    休日効果を有効にすると、休日中に見られる異常な増大と減少が異常として処理されなくなります。

    時系列データの異常値を除去する

    時系列データの異常値を除去するかどうかを指定します。

    時系列データの変化点を検知し自動調整する

    時系列データの変化点を検知し自動調整するかどうかを指定します。

    時系列(履歴部分と予測部分)を分解し結果をモデルに保存する

    時系列(履歴部分と予測部分)を分解し結果をモデルに保存するかどうかを指定します。

    時系列トレンドコンポーネントのモデル化に使用される、時系列の補間された長さの割合

    時系列トレンドコンポーネント(成分)をモデル化するために使用される時系列の補間された長さの割合を指定します。時系列のすべての時点は、非トレンド成分をモデル化するために使用されます。たとえば、時系列に100個の時点がある場合、0.5を指定すると、モデリングに最新の50個の時点が使用されます。このパラメーターを使用すると、予測精度を犠牲にすることなくトレーニングが高速化できます。

    値は0から1の範囲内でなければなりません。初期値(1.0)では、時系列内のすべての時点が使用されます。

    このパラメーターは、「時系列のトレンドコンポーネントのモデル化に使用される時系列の最小時点数」と併用できますが、「時系列のトレンドコンポーネントのモデル化に使用される時系列の最大時点数」とは併用できません。

    時系列のトレンドコンポーネントのモデル化に使用される時系列の最小時点数

    時系列のトレンドコンポーネント(成分)をモデル化する際に使用される時系列の最小の時点数を指定します。

    値は、4以上の数値を指定してください。

    このパラメーターは、「時系列トレンドコンポーネントのモデル化に使用される、時系列の補間された長さの割合」と併用して使用します。

    時系列のトレンドコンポーネントのモデル化に使用される時系列の最大時点数

    時系列のトレンドコンポーネント(成分)のモデル化に使用される時系列の最大時点数を指定します。

    値は、4以上の数値を指定してください。最初に試す数値としては、30をおすすめします。

    このパラメーターは、「時系列トレンドコンポーネントのモデル化に使用される、時系列の補間された長さの割合」または「時系列のトレンドコンポーネントのモデル化に使用される時系列の最小時点数」と併用できません。

  7. [モデル作成]ボタンをクリック
  1. 閉じる]ボタンをクリック

以上で、モデル作成操作は完了です。

トレーニングが完了するまで、しばらく時間がかかります。トレーニングの進捗は、モデル一覧で確認できます。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいARIMA+(時系列)モデルの名前をクリック

モデル詳細画面の「概要」タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除

トレーニング情報」タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 完了時刻:各トレーニングの時間

係数」タブ(❶)をクリックすると、ARIMA+(時系列)モデルの係数が確認できます。

  • ar_coefficients:自己回帰(AR)部分のモデル係数
  • ma_coefficients:移動平均(MA)部分のモデル係数
  • intercept_or_drift:定数項

「評価」タブ(❶)をクリックすると、評価されたすべてのモデルの評価指標が確認できます。

予測

ARIMA+(時系列)の予測は、他のモデルとは異なり、作成したモデルの詳細画面で未来の時系列値を予測します。

  1. 予測」タブをクリック
  2. 予測期間の数」・「信頼度」・「履歴を含める」を調整
  3. 予測]ボタンをクリック

❶の部分で、テーブル表示と線グラフ表示が切り替えられます。

下図は、線グラフで表示した例です。

この情報は役に立ちましたか?