ブロックリファレンス

BLOCKS Reference

機械学習

AutoML (分類) モデルの作成【アルファ版】

このブロックはアルファ版です。利用にあたっては利用申請が必要です。提供している機能は完全でない場合があり、下位互換性のない変更を加える可能性もあります。このため、テスト環境での使用に適しています。利用申請/機能改善の要望/不具合の報告などは、MAGELLAN BLOCKS のお問い合わせ機能からお願いします。

概要

このブロックは、Google の AutoML テーブル を使い、教師付きトレーニングデータで分類モデルを作成します。作成したモデルは、BigQuery と DataEditor に登録されます。

AutoML (分類) モデルの作成ブロックの概念図

(図をクリックすると拡大表示されます。)

教師付きトレーニングデータは、以下の要件を満たす必要があります。

  • 100 GB 以下
  • 推論/予測する値(カラム)が含まれている
  • 列数は 2 から 1,000 列の範囲内
  • 行数は 1,000 から 200,000,000 行の範囲内
    1,000 行では予測精度の高いモデルをトレーニングするには不十分な場合があります。分類モデルでは、カラム数の少なくとも 10 倍の行数を準備する必要があります。

このブロックを利用することで、以下のようなユースケースに対応できます。

  • 蓄積されていくデータを用いた再学習
  • モデル作成の試行錯誤

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント

このブロックで使用する BigQuery テーブルにアクセス可能な GCP サービスアカウントを指定します。

入力 BigQuery データセット

教師付きトレーニングデータを格納した BigQuery テーブルが属する BigQuery データセットを指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
入力 BigQuery テーブル

教師付きトレーニングデータを格納した BigQuery テーブルを指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
モデル名

DataEditor で参照する際の名前を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
トレーニング完了時に付加するタグ名

トレーニングが完了した際に、タグも同時に付けたい場合に指定します。

タグは、別途「推論/予測に使用するタグの設定」ブロックを使って、後付けできます。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
推論/予測の対象に使用するカラム名

トレーニングデータの推論/予測の対象に使用するカラム名を指定します。

ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。
トレーニング完了時からのモデル保持日数(0 は制限なし)

トレーニング完了時点からモデルを保持する日数を指定します。指定した日数を経過するとモデルは自動で削除されます。0 日を指定すると、自動削除されません。

初期値は、0 日です。

データ分割に使用するカラム名(タイムスタンプまたは文字列のカラム)

AutoML テーブルでは、教師付きトレーニングデータをトレーニング用・検証用・テスト用に分割して利用します。

デフォルトでは、データ行の 80% をトレーニング用、10% を検証用、10% をテスト用としてランダムに選択します。

分割比率やデータのどの行をトレーニング用・検証用・テスト用に適用するかをコントロールしたい場合は、特定のカラムを追加して行います。

  • タイムスタンプ型のカラムを使用する場合:

    最も時間の古い 80% の行がトレーニング用に、その後の 10% が検証用に、最も時間の新しい 10% がテスト用に使用されます。

  • 文字列型のカラムを使用する場合:

    次のいずれかの値を含めることで、それぞれの行がどの分割データに適用するかを決めます。

    • TRAIN:トレーニング用
    • VALIDATE:検証用
    • TEST:テスト用
    • UNASSIGNED:AutoML テーブルによって自動的にトレーニング用か検証用に振り分け

    値は、以下の組み合わせのいずれかにする必要があります(空文字列は不可)。

    • TRAINVALIDATETEST
    • TESTUNASSIGNED

このデータ分割の詳細については、Google のドキュメントの「データ分割の用途 」を参照願います。

トレーニングの最大時間(時間)

モデルの最大トレーニング時間数を時間単位で指定します。

推奨されるトレーニング時間は、教師付きトレーニングデータのサイズに応じて変わります。以下に、行数別の推奨トレーニング時間を示します。

行数 推奨トレーニング時間の最大時間
100,000 未満 1 から 3 時間
100,000 から 1,000,000 1 から 6 時間
1,000,000 から 10,000,000 1 から 12 時間
10,000,001 以上 3 から 24 時間

モデルの作成は、トレーニング以外の処理も含まれます。このため、モデル作成全体にかかる合計時間は、トレーニング時間より長くなります。

トレーニングの最大時間を満たす前にモデルの改善がみられなくなると、トレーニングは停止されます。

この情報は役に立ちましたか?