基本操作ガイド

Basic Guide

その他の操作

フローテンプレート作成

フローテンプレートでは、機械学習向けのフローのひな形(テンプレート)が生成できます。

下図は、実際に生成したフローテンプレートの例です。

フローテンプレートの実例

生成されたフローテンプレートをそのまま実行して機械学習によるさまざまな予測ができます。また、生成されたテンプレートをベースにして、自身の業務用途に合わせた形でフローをカスタマイズして実行させることもできます。

現時点では、以下に挙げる機械学習向けのフローテンプレートが生成できます。

  • 数値分類タイプの予測フロー
  • 数値回帰タイプの予測フロー
  • 画像分類タイプの予測フロー

事前準備

フローテンプレートを利用するにあたっては、以下に挙げる準備が必要です。

  • トレーニングデータの準備
    • 数値分類タイプ・数値回帰タイプ:CSV 形式のデータファイル(UTF-8・BOM なし)
    • 画像分類タイプ:JPEG 形式の画像ファイル群
  • 予測に使用する ML ボードの作成、トレーニングの実施およびその結果の適用
  • 予測に使用する入力データを準備し、Google Cloud Storage(GCS)へアップロード

現時点で、対応する ML ボードのタイプは、以下の 3 種類です。

  • 数値分類タイプ
  • 数値回帰タイプ
  • 画像分類タイプ

フローテンプレート作成の流れ

フローテンプレート作成のおおまかな流れは以下のとおりです。

フローテンプレートの作成ステップ図

フローテンプレート作成は、画面に表示されるいくつかの質問(設定項目)に答えていくだけでできます。画面は、上記 6 ステップの 6 画面で構成されていてます。

以下、簡単に各ステップ(画面)の質問(設定項目)について紹介します。

  1. フロータイプ設定

    Big Data ボードヘッダー部分の[フローテンプレート作成]ボタンをクリックすると、生成するフローテンプレートの選択画面が表示されます。ここで、予測のタイプを選択します。

  2. フロー名設定

    フローに付ける名前を設定します([フローの開始]ブロックのブロック名になる)。

  3. 予測ブロック設定

    予測に使用する ML ボードの選択と、予測方法(オンラインかバッチ)を選択します。大量のデータを使った予測の場合は、予測方法にバッチの選択をおすすめします。

  4. 入力データ設定
    • 数値分類予測・数値回帰予測の場合

      入力データの入力元を以下から選択します。

      • BigQuery
      • Google Cloud Storage (GCS)

      入力元によって、さらなる設定項目があります。

      • BigQuery の場合

        入力元が BigQuery の場合は、データの入力元となるデータセットとテーブルを設定します。

      • Google Cloud Storage (GCS) の場合

        入力元が GCS の場合は、CSV 形式のファイル(UTF-8・BOM なし)のみが対象です。ファイル形式は、CSV を選択してください。

        GCS URL には、GCS 上にアップロード済みのファイルへの GCS URL を設定してください。

    • 画像分類予測の場合

      入力データは、GCS 上の JPEG 形式の画像ファイル(群)のみです。ストレージの選択とファイル形式は、それぞれ GCS と画像ファイルを選択してください。

      GCS URL には、GCS 上にアップロード済みの入力データへの GCS URL を指定してください。

      • バッチ予測の場合は、画像ファイル(群)を配置したフォルダーまでのパスを指定します。
      • オンライン予測の場合は、画像ファイルへのパスを指定します。複数ファイルを指定する場合は、アスタリスク(*)の指定が可能です。
        例)gs://my-bucket/my-folder/*
  5. 出力データ設定

    出力データの保存先を以下から選択します。

    • BigQuery
    • Google Cloud Storage (GCS)
    • Google スプレッドシート

    保存先によって、さらなる設定項目が変わります。

    • BigQuery の場合

      保存先が BigQuery の場合は、データの保存先となるデータセットとテーブルを設定します。

    • Google Cloud Storage (GCS) の場合

      保存先が GCS の場合は、保存するデータのファイル形式(CSV のみ)と保存先 GCS URL を設定します。

    • Google スプレッドシートの場合

      保存先が Google スプレッドシートの場合は、データの保存先となるスプレッドシートのファイル名とそのファイルを共有するユーザーのメールアドレスを設定します。

  6. フロー配置設定

    生成するフローを配置する Big Data ボード上のタブを選択します。

カスタマイズ

生成されたフローのカスタマイズは、自由に行って構いません。ただし、フローテンプレート作成時に設定した入力データ設定と出力データ設定の項目は、[フローの開始]ブロックの直下にある[オブジェクト生成]ブロックでまとめています。

入力データ設定と出力データ設定で設定した内容を変更したい場合は、この[オブジェクト生成]ブロックの[データ]プロパティを変更すると便利です。

以下に、変更可能な設定項目について紹介します(値のみ変更可能)。

項目 説明
input.dataset String

入力データ設定で設定したデータセットです。

input.table String

入力データ設定で設定したテーブルです。

input.gcs_url String

入力データ設定で設定した GCS URL です。

output.dataset String

出力データ設定で設定したデータセットです。

output.table String

出力データ設定で設定したテーブルです。

output.gcs_url String

出力データ設定で設定した GCS URL です。

info_outlineオブジェクト生成ブロックにまとめられていない入力データ設定および出力データ設定の項目については、該当するブロック内の該当プロパティに直接値が設定されています。