DataEditor によるモデルの作成と予測

Creating models and making predictions in the DataEditor

概要

DataEditor では、DataEditor 上のデータを使った機械学習のモデル作成と予測が行えます。

DataEditor でサポートしている機械学習モデルは、以下のとおりです。

限定公開の利用にあたっては、ライセンス購入申請が必要です。限定公開のモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデルジェネレーター(回帰)の例

モデル作成

トレーニング用データのデータ編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
モデル作成タブから数値回帰(モデルジェネレーター版)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. モデルジェネレーター(回帰)]をクリック
  3. モデルに付ける名前を入力

セルフサービスプランのみ
プロジェクト作成後に初めてモデルを作成する場合は、ストレージ設定の操作が必要です。

  1. Google Cloud Storage(ストレージ)のバケットを選択
    例:-us-central1-ml で終わるバケット
  2. フォルダーを選択もしくは作成
    例:blocks_ml

ストレージ設定は、初回以降は変更できません。次回以降のモデル作成時は、設定内容を確認するだけの項目として表示されます。

  1. 自動設定]か[手動設定]を選択
    • 自動設定]:トレーニングを 300 分かけて、モデル作成を実行
    • 手動設定]:経過制限時間やトレーニングデータ設定を手動で設定して、モデル作成を実行
      マルチモーダル用のデータの場合は、必ず手動設定を選択し、画像データの型に[画像 URL]を指定します。
      手動設定の様子(1)
      1. テーブルから生成する]ボタンをクリック
      手動設定の様子(2)

      トレーニングは、複数のマシンを使ってトレーニングを並列実行します。トレーニングの途中で学習結果が悪化する(学習の過剰状態になる)と、自動設定の場合は 300 分、手動設定の場合は設定した[経過制限時間]を待たずにトレーニングを止めます。

  2. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. アイコンをクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]をクリック
    モデルのスキーマが確認できます。
  2. アイコンをクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測ができます。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測します。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

まず、予測用データの画面を以下の手順で開きます。

予測用データを開く様子
  1. データ]タブをクリック
  2. 予測用データをクリック
モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルをクリック
  3. 予測]ボタンをクリック

しばらくすると、予測結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

線形回帰(回帰)の例

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. 線形回帰(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデルの確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい線形回帰(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合は NULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合は NULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合は NULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合は NULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合は NULL。
  • NULL の数:NULL 値の数
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータ各列ごとの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する線形回帰(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

AutoML(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
AutoML(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. AutoML(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. トレーニングの最大時間を時間単位で設定
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいAutoML(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値
  • 最大値:トレーニングデータの最大値
  • 平均値:トレーニングデータの平均値
  • 標準偏差:トレーニングデータの標準偏差
  • カテゴリの数:カテゴリの数
  • NULL の数:NULL 値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するAutoML(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

XGBoost(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
XGBoost(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. XGBoost(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ブースタータイプ

    使用するブースターのタイプを指定します。

    DART ブースターの正規化アルゴリズムのタイプ

    DART ブースターの正規化アルゴリズムのタイプを指定します。

    • Tree
    • Forest
    各反復中に構築された並列ツリーの数

    各反復の間に構築される並列ツリーの数。デフォルト値は 1 です。ブーストされたランダムフォレストを学習するには、この値を 1 よりも大きく設定してください。

    ツリー構築アルゴリズムのタイプ

    ツリー構築アルゴリズムの種類を指定します。

    • AUTO
    • EXACT
    • APPROX
    • HIST
    分割するために子で必要なインスタンスの重みの最小合計

    さらなるパーティショニングに必要な子ノードのインスタンスの重みの最小値を指定します。

    ツリーの分割ステップの結果、インスタンス重みの合計が指定した値よりも小さいリーフノードが得られた場合、構築プロセスはそれ以上の分割を停止します。指定した値が大きいほど、アルゴリズムはより保守的になります。

    値は必ず 0 以上を指定します。

    各ツリーを構築する際の列のサブサンプル比

    各ツリーを構築する際の列のサブサンプル率を指定します。

    サブサンプリングは、構築されたツリーごとに 1 回行われます。

    値は 0 から 1 の間で指定します。

    各レベルの列のサブサンプル比

    各レベルの列のサブサンプル率を指定します。

    サブサンプリングは、ツリー内の新しい深さレベルへ到達するごとに 1 回行われます。列は、現在のツリーで選択された列のセットからサブサンプリングされます。

    値は 0 から 1 の間で指定します。

    各ノードの列のサブサンプル比

    各ノード(スプリット)の列のサブサンプル率を指定します。

    サブサンプリングは、新しいスプリットが評価されるたびに 1 回発生します。

    列は、現在のレベルで選択された列のセットからサブサンプリングされます。

    値は 0 から 1 の間で指定します。

    ツリーの葉ノードにさらにパーティションを作成するために必要な最小の損失削減

    ツリーのリーフノードでさらに分割するのに必要な損失の最小値を指定します。

    指定した値が大きいほど、アルゴリズムはより保守的になります。

    木の最大深度

    ツリーの最大深度を指定します。

    トレーニングインスタンスのサブサンプル比

    トレーニングインスタンスのサブサンプル率を指定します。

    この値を 0.5 に設定すると、ツリーを成長させる前にトレーニングがトレーニングデータの半分をランダムにサンプリングすることになり、オーバーフィットを防ぐことができます。

    サブサンプリングは、各反復ごとに 1 回行われます。

    値は 0 から 1 の間で指定します。

    適用される L1 正則化の量

    L1 正則化 の適用量を指定します。

    適用される L2 正則化の量

    L2 正則化 の適用量を指定します。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    最初の反復の後で、「「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善」パラメーターで指定された値よりも小さいときに、トレーニングを停止するかどうかを指定します。

    • true:停止する
    • false:停止しない
    「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    早期停止」パラメーターに true を指定した場合、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    たとえば、0.01 の値を指定すると、トレーニングを継続するためには、各反復で損失を 1% 減少させる必要があります。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    学習率を指定します。

    ブースティングの最大ラウンド数

    ブースティング時の最大ラウンド数を指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい XGBoost(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合は NULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合は NULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合は NULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合は NULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合は NULL。
  • NULL の数:NULL 値の数
特徴量重要度の情報

特徴量重要度の情報]タブ(❶)をクリックすると、どの列が予測結果に与える影響が大きいのかを示す指標が確認できます。値が大きいほど、その列が予測結果に重要であることを意味します。

ここでは、以下 3 種類の指標が確認できます。

指標の種類 説明
特徴を使用してデータをツリーに分割した回数

ウェイト(weight)と呼ばれる指標です。

ツリーの分岐に、各列が何回用いられたかを表します。

特徴が使用されているすべての分割の平均ゲイン

ゲイン(gain)と呼ばれる指標です。

ゲインは、各ツリーに対して、各列の寄与度を取ることで算出されます。これは、各列のモデルへの相対的な寄与度を意味します。

特徴が使用されているすべての分割の平均カバレッジ

カバー(cover)と呼ばれる指標です。

ツリーの分岐に、到達する各列のトレーニングデータ数の平均値を表します。

この指標の中で、「特徴が使用されているすべての分割の平均ゲイン」が、各列の相対的な重要性を解釈する上で最も良い指標です。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する XGBoost(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

Deep Neural Network(回帰)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
Deep Neural Network(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. Deep Neural Network(回帰)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ニューラルネットワークのアクティベーション関数

    ニューラルネットワークの活性化関数 (ニューロンへの入力値から出力値を求める関数)を指定します。

    ニューラルネットワークに供給されるサンプルのミニバッチサイズ

    データをいくつかのサブセットに分割するミニバッチサイズを 8192 以下の正の数で指定します。

    慣習的には、1024 や 2048 などの 2 の n 乗値が使われます。

    ニューラルネットワーク内のユニットのドロップアウト率

    ニューラルネットワークのユニットのドロップアウト率を指定します。

    指定可能な値は、0.0 から 1.0 です。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    トレーニングの結果に改善が見られなかったとき、学習を停止するかしないかを指定します。

    • true:トレーニングを停止する(過学習防止)
    • false:トレーニングを停止しない
    「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    上記「早期停止」パラメーターを true に指定したとき、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    例えば、0.01 の値を指定すると、イテレーションごとに損失が 1% 減少すると、トレーニングが継続します。

    隠れ層の構造

    隠れ層の数と、隠れ層ごとのユニット数を指定します。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    トレーニングごとに重み付けパラメーターを更新する率を指定します。

    トレーニングの最大繰り返し回数またはステップ数

    イテレーション回数の最大値を指定します。

    モデルをトレーニングするためのオプティマイザー

    モデルをトレーニングするためのオプティマイザーを指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい Deep Neural Network(回帰)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合は NULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合は NULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合は NULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合は NULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合は NULL。
  • NULL の数:NULL 値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する Deep Neural Network(回帰)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

モデルジェネレーター(分類)の例

モデル作成

トレーニング用データのデータ編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
モデル作成タブから数値回帰のモデルを作成する様子
  1. モデル作成]タブをクリック
  2. モデルジェネレーター(分類)]をクリック
  3. モデルに付ける名前を入力

セルフサービスプランのみ
プロジェクト作成後に初めてモデルを作成する場合は、ストレージ設定の操作が必要です。

  1. Google Cloud Storage(ストレージ)のバケットを指定
    例:-us-central1-ml で終わるバケット
  2. フォルダーを選択もしくは作成
    例:blocks_ml

ストレージ設定は、初回以降は変更できません。次回以降のモデル作成時は、設定内容を確認するだけの項目として表示されます。

  1. 自動設定]か[手動設定]を選択
    • 自動設定]:トレーニングを 300 分かけて、モデル作成を実行
    • 手動設定]:経過制限時間やトレーニングデータ設定を手動で設定して、モデル作成を実行
      マルチモーダル用のデータの場合は、必ず手動設定を選択し、画像データの型に[画像 URL]を指定します。
      手動設定の様子(1)
      1. テーブルから生成する]ボタンをクリック
      手動設定の様子(2)

      トレーニングは、複数のマシンを使ってトレーニングを並列実行します。トレーニングの途中で学習結果が悪化する(学習の過剰状態になる)と、自動設定の場合は 300 分、手動設定の場合は設定した[経過制限時間]を待たずにトレーニングを止めます。

  2. モデル作成]ボタンをクリック

続いて、モデルの作成状況を確認します。

トレーニング開始メッセージ画面
  1. 閉じる]ボタンをクリック
ホーム画面へ戻る様子
  1. アイコンをクリック
モデル一覧でモデルの作成状況を確認する様子
  1. モデル]タブをクリック
  2. プログレスバーでモデル作成の進捗を確認
  3. アイコンクリックで進捗状況を更新
  4. 名前のクリックでそのモデルの詳細を確認

以下は、モデル詳細の例です。

モデルの詳細情報を確認する様子
  1. スキーマ]タブをクリック
    モデルのスキーマが確認できます。
  2. アイコンをクリック
    モデル一覧に戻ります。
モデル一覧画面でメニューを確認する様子

アイコン(❶)をクリックするとメニューが表示され、以下の操作が可能です。

  • 名前の変更
  • モデル作成のキャンセル
  • モデルの削除

モデルの作成が完了すると、予測が可能です。

予測

モデルが作成できたら、そのモデルと予測用データを使って予測します。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測します。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

予測用データを開く様子
  1. ホーム画面のデータ一覧から予測用データをクリック
モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルジェネレーター(分類)モデルをクリック
  3. 予測]ボタンをクリック

しばらくすると、予測結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

ロジスティック回帰(分類)の例

モデル作成

トレーニング用データの編集画面へ切り替える様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
数値分類モデルを作成する様子
  1. モデル作成]タブをクリック
  2. ロジスティック回帰(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいロジスティック回帰(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • 評価データの損失:評価の損失指標です。
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
データの重み情報を確認する様子

データの重み情報]タブ(❶)をクリックすると、トレーニングデータの重み情報が確認できます。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データのデータをクリックする様子
  1. ホーム画面のデータ一覧から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するロジスティック回帰(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

AutoML(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
AutoML(回帰)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. AutoML(分類)]をクリック
  3. 名前を必要に応じて変更
  4. トレーニングの最大時間を時間単位で設定
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいAutoML(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値
  • 最大値:トレーニングデータの最大値
  • 平均値:トレーニングデータの平均値
  • 標準偏差:トレーニングデータの標準偏差
  • カテゴリの数:カテゴリの数
  • NULL の数:NULL 値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する AutoML(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

XGBoost(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
XGBoost(分類)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. XGBoost(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ブースタータイプ

    使用するブースターのタイプを指定します。

    DART ブースターの正規化アルゴリズムのタイプ

    DART ブースターの正規化アルゴリズムのタイプを指定します。

    • Tree
    • Forest
    各反復中に構築された並列ツリーの数

    各反復の間に構築される並列ツリーの数。デフォルト値は 1 です。ブーストされたランダムフォレストを学習するには、この値を 1 よりも大きく設定してください。

    ツリー構築アルゴリズムのタイプ

    ツリー構築アルゴリズムの種類を指定します。

    • AUTO
    • EXACT
    • APPROX
    • HIST
    分割するために子で必要なインスタンスの重みの最小合計

    さらなるパーティショニングに必要な子ノードのインスタンスの重みの最小値を指定します。

    ツリーの分割ステップの結果、インスタンス重みの合計が指定した値よりも小さいリーフノードが得られた場合、構築プロセスはそれ以上の分割を停止します。指定した値が大きいほど、アルゴリズムはより保守的になります。

    値は必ず 0 以上を指定します。

    各ツリーを構築する際の列のサブサンプル比

    各ツリーを構築する際の列のサブサンプル率を指定します。

    サブサンプリングは、構築されたツリーごとに 1 回行われます。

    値は 0 から 1 の間で指定します。

    各レベルの列のサブサンプル比

    各レベルの列のサブサンプル率を指定します。

    サブサンプリングは、ツリー内の新しい深さレベルへ到達するごとに 1 回行われます。列は、現在のツリーで選択された列のセットからサブサンプリングされます。

    値は 0 から 1 の間で指定します。

    各ノードの列のサブサンプル比

    各ノード(スプリット)の列のサブサンプル率を指定します。

    サブサンプリングは、新しいスプリットが評価されるたびに 1 回発生します。

    列は、現在のレベルで選択された列のセットからサブサンプリングされます。

    値は 0 から 1 の間で指定します。

    ツリーの葉ノードにさらにパーティションを作成するために必要な最小の損失削減

    ツリーのリーフノードでさらに分割するのに必要な損失の最小値を指定します。

    指定した値が大きいほど、アルゴリズムはより保守的になります。

    木の最大深度

    ツリーの最大深度を指定します。

    トレーニングインスタンスのサブサンプル比

    トレーニングインスタンスのサブサンプル率を指定します。

    この値を 0.5 に設定すると、ツリーを成長させる前にトレーニングがトレーニングデータの半分をランダムにサンプリングすることになり、オーバーフィットを防ぐことができます。

    サブサンプリングは、各反復ごとに 1 回行われます。

    値は 0 から 1 の間で指定します。

    各クラスラベルに使用する重み

    クラスラベルごとに重みを設定します。

    適用される L1 正則化の量

    L1 正則化 の適用量を指定します。

    適用される L2 正則化の量

    L2 正則化 の適用量を指定します。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    最初の反復の後で、「「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善」パラメーターで指定された値よりも小さいときに、トレーニングを停止するかどうかを指定します。

    • true:停止する
    • false:停止しない
    「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    早期停止」パラメーターに true を指定した場合、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    たとえば、0.01 の値を指定すると、トレーニングを継続するためには、各反復で損失を 1% 減少させる必要があります。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    学習率を指定します。

    ブースティングの最大ラウンド数

    ブースティング時の最大ラウンド数を指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい XGBoost(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合は NULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合は NULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合は NULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合は NULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合は NULL。
  • NULL の数:NULL 値の数
特徴量重要度の情報

特徴量重要度の情報]タブ(❶)をクリックすると、どの列が予測結果に与える影響が大きいのかを示す指標が確認できます。値が大きいほど、その列が予測結果に重要であることを意味します。

ここでは、以下 3 種類の指標が確認できます。

指標の種類 説明
特徴を使用してデータをツリーに分割した回数

ウェイト(weight)と呼ばれる指標です。

ツリーの分岐に、各列が何回用いられたかを表します。

特徴が使用されているすべての分割の平均ゲイン

ゲイン(gain)と呼ばれる指標です。

ゲインは、各ツリーに対して、各列の寄与度を取ることで算出されます。これは、各列のモデルへの相対的な寄与度を意味します。

特徴が使用されているすべての分割の平均カバレッジ

カバー(cover)と呼ばれる指標です。

ツリーの分岐に、到達する各列のトレーニングデータ数の平均値を表します。

この指標の中で、「特徴が使用されているすべての分割の平均ゲイン」が、各列の相対的な重要性を解釈する上で最も良い指標です。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する XGBoost(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

Deep Neural Network(分類)【限定公開】の例

このモデルは限定公開です。利用にあたっては、ライセンス購入申請が必要です。このモデルを利用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
Deep Neural Network(分類)モデルを作成する様子
  1. モデル作成]タブをクリック
  2. Deep Neural Network(分類)]をクリック
  3. 名前を必要に応じて変更
  4. 詳細設定]をクリック
    各種パラメーターの設定とトレーニングデータの設定ができます。
    パラメーター 説明
    ニューラルネットワークのアクティベーション関数

    ニューラルネットワークの活性化関数 (ニューロンへの入力値から出力値を求める関数)を指定します。

    各クラスの頻度に反比例して各クラスの重みを使用してクラスラベルのバランスを取るかどうか

    各クラスの頻度に反比例して各クラスの重みを使用してクラスラベルのバランスを取るかどうかを指定します。

    • true:クラスラベルのバランスを取る
    • false:クラスラベルのバランスを取らない
    各クラスラベルに使用する重み

    クラスラベルごとに重みを設定します。

    ニューラルネットワークに供給されるサンプルのミニバッチサイズ

    データをいくつかのサブセットに分割するミニバッチサイズを 8192 以下の正の数で指定します。

    慣習的には、1024 や 2048 などの 2 の n 乗値が使われます。

    ニューラルネットワーク内のユニットのドロップアウト率

    ニューラルネットワークのユニットのドロップアウト率を指定します。

    指定可能な値は、0.0 から 1.0 です。

    早期停止(相対損失の改善が値よりも小さい最初の反復の後にトレーニングを停止するかどうか)

    トレーニングの結果に改善が見られなかったとき、学習を停止するかしないかを指定します。

    • true:トレーニングを停止する(過学習防止)
    • false:トレーニングを停止しない
    「早期停止」が true に設定されている場合にトレーニングを継続するために必要な最小相対損失の改善

    上記「早期停止」パラメーターを true に指定したとき、トレーニングを継続するために必要な相対的な損失の最小改善量を指定します。

    例えば、0.01 の値を指定すると、イテレーションごとに損失が 1% 減少すると、トレーニングが継続します。

    隠れ層の構造

    隠れ層の数と、隠れ層ごとのユニット数を指定します。

    過剰適合を防ぐために更新で使用されるステップサイズの収縮

    トレーニングごとに重み付けパラメーターを更新する率を指定します。

    トレーニングの最大繰り返し回数またはステップ数

    イテレーション回数の最大値を指定します。

    モデルをトレーニングするためのオプティマイザー

    モデルをトレーニングするためのオプティマイザーを指定します。

  5. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したい Deep Neural Network(分類)モデルの名前をクリック
モデル詳細の概要タブ内を確認する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)
  • 評価データの損失:評価の損失指標
  • 完了時刻:各トレーニングの時間
  • 学習率:各トレーニングの学習率
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名
  • 最小値:トレーニングデータの最小値。数値以外の場合は NULL。
  • 最大値:トレーニングデータの最大値。数値以外の場合は NULL。
  • 平均値:トレーニングデータの平均値。数値以外の場合は NULL。
  • 標準偏差:トレーニングデータの標準偏差。数値以外の場合は NULL。
  • カテゴリの数:カテゴリの数。カテゴリ以外の列の場合は NULL。
  • NULL の数:NULL 値の数

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データをクリックする様子
  1. ホーム画面から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用する Deep Neural Network(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • ラベル(predicted_label_probs)欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

k-平均法の例

モデル作成

トレーニングデータを選択する様子
  1. ホーム画面からモデル作成用のトレーニングデータをクリック
クラスタリングモデルを作成する様子
  1. モデル作成]タブをクリック
  2. k-平均法]をクリック
  3. 名前をあやめの分析モデルに変更
  4. クラスタ数(分類する数)を適切に変更
  5. 詳細設定]をクリック
    トレーニングデータ設定が編集できます。
    因子に結果となる値の列が含まれている場合は、因子設定を「使わない」に変更します。k-平均法は教師なし学習となるため、トレーニングデータ設定で与えるデータには、結果(答え)となる値の列は含めません。
  6. モデル作成]ボタンをクリック
モデル作成の完了を通知する画面
  1. 閉じる]ボタンをクリック

以上で、モデルの作成は完了です。

モデル確認

モデルの作成が完了したら、そのモデルの内容を確認して評価できます。

確認するモデルを選択する様子
  1. ホーム画面から[モデル]タブをクリック
  2. 確認したいk-平均法モデルの名前をクリック
確認するモデルを選択する様子

モデル詳細画面の[概要]タブでは、以下に挙げる情報の確認と操作ができます。

  • モデル作成状況を表すステータスの確認
  • タグの設定と確認
  • トレーニングデータの項目と型の確認
  • トレーニングオプションの確認
  • 保存期限の設定と確認
  • モデルの削除
トレーニング情報を確認する様子

トレーニング情報]タブ(❶)をクリックすると、トレーニング(学習)の情報が確認できます。

  • トレーニング繰り返し回数:トレーニングの繰返し回数です。
  • トレーニングデータの損失:トレーニングデータの繰り返し後に計算された損失指標(平均二乗誤差)です。
  • クラスタの重心 ID:クラスタの重心ごとの ID です。
  • クラスタの半径:クラスタの半径です。
  • クラスタのサイズ:クラスタのサイズです。
  • 完了時刻(秒):各トレーニングの時間です。
トレーニングデータの特徴情報を確認する様子

トレーニングデータの特徴情報]タブ(❶)をクリックすると、トレーニングデータの特徴情報が確認できます。

  • 列名:トレーニングデータの列名です。
  • 最小値:トレーニングデータの最小値です。数値以外の場合は、NULL になります。
  • 最大値:トレーニングデータの最大値です。数値以外の場合は、NULL になります。
  • 平均値:トレーニングデータの平均値です。数値以外の場合は、NULL になります。
  • 標準偏差:トレーニングデータの標準偏差です。数値以外の場合は、NULL になります。
  • カテゴリの数:カテゴリの数です。カテゴリ以外の列の場合、NULL になります。
  • NULL の数:NULL の数です。
クラスタの重心情報を確認する様子

クラスタの重心情報]タブ(❶)をクリックすると、トレーニングデータのクラスタの重心情報が確認できます。

  • centroid_id:クラスタの重心ごとにつけられた ID です。
  • feature:列の名前です。
  • numerical_value:feature が数値の場合は、feature が表す列の重心値です。feature が数値以外の場合は、NULL です。
  • categorical_value.category:文字列型の列の場合、重心となる文字列です。数値型の列の場合は空欄です。
  • categorical_value.value:categorical_value.category の重心としての確からしさです。値は 0 から 1 の範囲です。

モデルを評価した結果が悪ければ、トレーニングデータの因子(列)を見直して、モデルを作り直し再度評価します。このサイクルを良い結果が得られるまで繰り返します。

予測

作成したモデルと予測用のデータを使って、簡単に予測ができます。

予測用データのデータをクリックする様子
  1. ホーム画面のデータ一覧から予測用のデータをクリック
モデルを選択し予測を実行する様子
  1. 予測]タブをクリック
  2. 予測に使用するロジスティック回帰(分類)モデルをクリック
  3. 予測]ボタンをクリック

予測が完了すると、結果が表示されます。

予測結果を確認する様子

ダウンロード]ボタン(❶)をクリックすると、予測結果の表を CSV 形式のデータでダウンロードできます。

  • 予測結果の画面が複数ページにまたがる場合は、一度表示したページ数分のデータをダウンロード

    予測結果が 3 ページ分あり、2 ページまで画面上で確認し[ダウンロード]ボタンをクリックした場合、2 ページ分のデータがダウンロードされます。

  • NEAREST_CENTROIDS_DISTANCE 欄は出力から除外

保存]ボタン(❷)をクリックすると、予測結果を DataEditor に登録できます。これにより、データ可視化の機能を使って視覚的に予測結果の評価ができます。

この情報は役に立ちましたか?