ML ボードヘルプ

ML Board Help

ML ボードヘルプ

はじめに

これは、ML ボードおよびそのトレーニングに関する各画面について解説しているヘルプドキュメントです。各画面に「ヘルプ」と書かれたリンクがあり、そのリンク先がこのドキュメントです。

ML ボードの使い方については、以下のドキュメントを参考にしてください。

ML ボードとは何か

ML ボードは、機械学習を誰にでも簡単に扱えるようにする MAGELLAN BLOCKS の機能です。

BLOCKS の機械学習は、「学習」と「予測」の 2 つのステップからなります。

  1. 学習ステップで過去のデータから学習を行います。

  2. 予測ステップで学習結果を使って未来のデータから予測(分類や回帰)を行います。

ML ボードは、この機械学習における 1 の学習ステップをサポートするボードです。2 の予測ステップは、Big Data ボードの「ML Board オンライン予測」ブロックでサポートします。

ML ボードでは、この学習のステップを「トレーニング」と呼びます。トレーニングでは、訓練データと検証データを使って学習し、最適な学習結果(トレーニング結果)を導き出します。

訓練データと検証データは、トレーニング用に用意する過去のデータを適切に分けたものです。

なお、ML ボードは、Google Cloud Machine Learning Engine (Cloud ML Engine) を活用して機械学習の機能を実現しています。

GCP サービスアカウント設定画面のヘルプ

セルフサービスプランのみの機能です。

この画面では、GCP のサービスアカウントキーファイルの設定と Google Cloud Machine Learning を利用するための API を有効にします。

GCP サービスアカウント設定

GCP サービスアカウント選択

ML ボードは、お客さまの GCP プロジェクトに、環境を構築し運用します。これには、MAGELLAN BLOCKS がお客さまの GCP プロジェクトを使用する権限が必要です。これを可能にするのが、GCP サービスアカウントです。

API の有効化

「確認」ボタンの前にチェックマークが付いていない API がある場合は、以下の操作を行います。

  1. チェックマークが付いていない API のリンクをクリックします。
  2. 「Google API Console」画面上部の「有効にする」ボタンをクリックします。
  3. 「有効にする」ボタンが「無効にする」ボタンに切り替わったら、Google API Console の画面を閉じて、BLOCKS の画面に戻ります。

すべての API について、上記操作が終わったら、「確認」ボタンをクリックします。「確認」ボタンの前にチェックマークが付くことを確認してください。

もし、チェックマークが付かない場合は、しばらく時間をおいてから「確認」ボタンをクリックしてください。状況によっては、なかなかチェックが付かない場合もあります。その場合は、チェックマークが付くまで、しばらく時間をおく→「確認」ボタンをクリックする操作を繰り返してください。

が表示される原因としては、以下のことが考えられます。

  • 対象となる API が有効化されていない。
    API 名横の をクリックして、表示されるページで確認します。もし、有効となっていない場合は、有効にします。
  • GCP サービスアカウントの役割が「編集者」となっていない。
    GCP コンソール メニュー(GCP コンソール左上の )の「IAM と管理」をクリックし、「IAM」で確認します。もし、役割が「編集者」となっていない場合は、「編集者」を選択します。
  • 対象となる GCP プロジェクトの課金が有効になっていない。
    GCP コンソール メニュー(GCP コンソール左上の )の「お支払い」で確認します。もし、課金が有効になっていない場合は、課金を有効にします。

Google Cloud Machine Learning Engine 設定画面のヘルプ

セルフサービスプランのみの機能です。

この画面では、Google Cloud Machine Learning Engine のサービスを使用するための設定を行います。この設定は、ML ボードを作成する GCP プロジェクトごとに 1 度だけ行います。

Google Cloud Machine Learning Engine 設定
  1. 「Google Cloud Console」と書かれたリンクをクリックします。

  2. 「Google Cloud Console」画面上部の「Google Cloud Shell を有効にする」ボタン()をクリックします。

  3. もし、以下の画面が表示された場合は、「CLOUD SHELL の起動」ボタンをクリックします。

  4. 画面下部に表示された Google Cloud Shell(黒い部分)に、gcloud ml-engine init-project と入力して、「return」キーを入力します。

    Do you want to continue (Y/n)? とメッセージが表示されたら、Y と入力して、「return」キーを入力します。

  5. Google Cloud Shell の右上端の「すべてのタブを閉じる」(×)ボタンをクリックして、Google Cloud Shell を閉じます。

  6. Google Cloud Console 画面を閉じて、BLOCKS の画面に戻ります。

ストレージ設定画面のヘルプ

セルフサービスプランのみの機能です。

この画面では、トレーニング結果を格納するための Google Cloud Storage (GCS) のバケットを設定します。

ストレージ設定

GCS バケットを選択する

バケットは、ML ボード専用のバケットを用意して、そのバケットを選択してください。用意するバケットは、ML ボードを最適な状態で使用するために、以下の設定で作成してください。

オプション
デフォルトのストレージクラス Regional
Regional のロケーション us-central1

GCS バケット内のディレクトリを指定する

ディレクトリは、複数の ML ボードで共有することを想定し、ML ボードごとにディレクトリを分けて使用します。ディレクトリは、事前に準備する必要はありません。ここで指定したディレクトリ名でディレクトリが作成されます。

トレーニングデータ設定画面のヘルプ

この画面では、トレーニングに使用するデータの情報を設定します。

トレーニングデータ設定

トレーニングに使用するデータは、カンマ区切りの CSV ファイル(BOM なし、UTF-8)として準備してください。

  • データは、学習のために必要となる1つ以上の「因子データ」と、その「結果となる値」をセットにします。 「結果となる値」とは、数値分類の場合は「回答値」、数値回帰の場合は「実績値」です。
  • 1 行ごとに「因子データ」と、「結果となる値」をセットにして並べます。
  • 1 行のデータの並び順は、「因子データ」、「結果となる値」の順です。
  • 「結果となる値」の型は、数値のみです。
  • 訓練データと検証データは同一形式にします。

因子データの設定

この画面では、「因子データ」についてのみ設定します。因子データの各データは、左から順に、項目 1、項目 2、・・・と呼びます。

「結果となる値」については設定しないでください。

「因子データ」の設定は、「項目を追加する」ボタンをクリックして、項目数分の項目名と型に関する情報を設定していきます。

設定項目 説明
項目名 項目を内容を示す名称を入力します。英数字と _ が使用できます。
項目のデータの種類を指定します。数値 / 月 / 曜日 / 文字列列挙の 4 種類の型をサポートしています。型について詳しくは、下の表を参照してください。

型の種類:

説明
数値 整数や小数です。型が数値の場合は、さらに次元数が指定できます。1 つの項目に、複数の数値が列挙される場合は、列挙される数値の数を指定します。例えば、 98,1.3,0,"A" というデータのうち、98,1.3を 1 つの項目として扱いたい場合は、2 と指定します。
月を表す数値です。数値の範囲は、0 から 11 もしくは、1 から 12 です。
曜日 曜日を表す数値です。数値の範囲は、0 から 6 です。
文字列列挙

文字列です。文字列では、さらに「キーワードリスト」か「おおよその件数を指定」かを選択します。

文字列列挙のオプション 説明
キーワードリスト 項目に出現する文字列のパターンが明確な場合に選択します。また、そのパターンをカンマ区切りで列挙します。
おおよその件数を指定 項目に出現する文字列のパターンが不明瞭な場合に選択します。また、項目に出現するであろうおおよそのパターン数を指定します。

分類する数の設定

数値分類タイプの場合は、「分類する数」に結果となる値(回答値)のパターン数を設定します。

出力次元数の設定

数値回帰タイプの場合は、「出力次元数」に結果となる値(実績値)の次元数(値の個数)を設定します。

例えば、実績値が地球上の位置を表す緯度、経度および高さを持つような場合は、3 と設定します。

トレーニング詳細画面のヘルプ

この画面では、以下のことができます。

  • トレーニングを開始する
  • トレーニングを一覧する
  • トレーニングの詳細を確認する
  • ML ボードの情報を確認する
  • ボードを削除する
トレーニング詳細

トレーニングを開始する

[トレーニング開始] ボタンをクリックすると「トレーニング開始」画面が表示されます。

トレーニング開始画面で、トレーニングに必要な情報を項目を設定して、トレーニングを開始します。

トレーニングを一覧する

トレーニングが 1 つ以上あるとトレーニングが一覧表示されます。トレーニングの一覧では、トレーニングごとに以下の情報が確認できます。

情報 説明
トレーニング名 トレーニング開始」で設定したトレーニング名です。
トレーニング開始日時 トレーニングを開始した日時です。
トレーニング終了日時 トレーニングが終了した日時です。
ステータス トレーニングの状況です。トレーニングの状況に応じて、準備中 / トレーニング中 / 中断済み / 成功 / 失敗 のいずれかが表示されます。
正確率 / 誤差 トレーニングの評価結果です。分類の場合は正確率、数値回帰の場合は誤差で表します。
詳細 トレーニングの詳細な情報が確認できます。
アクション トレーニングの中断とトレーニング結果の適用ができます。トレーニング結果は 1 つのみ適用できます。適用するとトレーニング結果を使った予測ができます。

トレーニングの詳細を確認する

トレーニングの [詳細] リンクをクリックすると、そのトレーニングの詳細な情報が確認できます。

項目 説明
トレーニング名 トレーニング開始」で設定したトレーニング名です。
トレーニング開始日時 トレーニングを開始した日時です。
トレーニング終了日時 トレーニングが終了した日時です。
ステータス トレーニングの状況です。トレーニングの状況に応じて、準備中 / トレーニング中 / 中断済み / 成功 / 失敗 のいずれかが表示されます。
正確率 / 誤差 トレーニングの評価結果です。分類の場合は正確率、数値回帰の場合は誤差で表します。
トレーニングの説明 トレーニング開始」で設定したトレーニングの説明です。説明が未入力の場合は、- と表示されます。
設定内容 トレーニングデータ設定」で設定した内容です。

ML ボードの情報を確認する

「設定内容」の項目で ML ボードの情報が確認できます。

項目 説明
ボード名 ML ボード作成」で設定した ML ボードのボード名です。
タイプ ML ボード作成」で設定した ML ボードのタイプです。
GCP サービスアカウント ML ボードが使用する GCP プロジェクト ID です。
モデル名 トレーニングのモデル名(トレーニング結果)です。
トレーニングデータ設定 トレーニングデータ設定」で設定した内容です。

ボードを削除する

「ボード削除」項目の「ボードを削除する」をクリックすると ML ボードが削除できます。

トレーニング開始画面のヘルプ

この画面では、トレーニングに必要な項目を設定して、トレーニングを開始します。

数値分類タイプ・数値回帰タイプ

トレーニング開始

設定項目は以下のとおりです。

設定項目 説明
トレーニング名 トレーニングに名前をつけます。
トレーニングデータアップロード

トレーニングデータのアップロード先に使用する Google Cloud Storage (GCS) の場所が「gs://バケット名」の形式で表示されます。

リンクをクリックすると、ウェブブラウザーの別タブで Google Cloud Console が開き、この GCS にアクセスできます(プロジェクト設定の GCP アクセスで登録した Google アカウントによるログインが必要)。

フルサービスプランのときのみ表示されます。

訓練データ URL

訓練データファイルのパス(gs://バケット名/ファイル名.csv のような URL)を指定します。

訓練データファイルは、GCS に格納してください。

検証データ URL

検証データファイルのパス(gs://バケット名/ファイル名.csv のような URL)を指定します。

検証データファイルも GCS に格納してください。

トレーニングの経過制限時間

ML ボードのトレーニングでは、最良のトレーニング結果を導き出すために、試行を繰り返します。

トレーニングの経過制限時間は、1 回の試行にかける最大の時間を指定します。

1 回の試行に時間制限をかけない場合は、0 を設定します。

試行の途中でトレーニング結果(正確率や誤差)が悪化する(トレーニングの過剰状態になる)と、「トレーニングの経過制限時間」を待たずに試行を止めます。

トレーニングの最大試行回数

トレーニングの試行回数は、試行の回数を 1 以上の値で指定します。

「トレーニングの経過制限時間 × トレーニングの最大試行回数」が、トレーニングにかかるおおよその時間です。実際には、付加的・間接的な処理による時間もあるため、もう少し時間がかかるかもしれません。

トレーニングの説明 トレーニングの説明を記入します。

画像分類タイプ

画像分類タイプは、MLボードのアルファ版として限定提供する機能となります。
また、ベータ版および正式版のリリース後、アルファ版で生成したMLボードは利用できなくなる可能性がありますのでご注意ください。

画像分類タイプのトレーニング開始画面

設定項目は以下のとおりです。

設定項目 説明
トレーニング名 トレーニングに名前をつけます。
トレーニングデータアップロード

トレーニングデータのアップロード先に使用する Google Cloud Storage (GCS) の場所が「gs://バケット名」の形式で表示されます。

リンクをクリックすると、ウェブブラウザーの別タブで Google Cloud Console が開き、この GCS にアクセスできます(プロジェクト設定の GCP アクセスで登録した Google アカウントによるログインが必要)。

フルサービスプランのときのみ表示されます。

画像フォルダー

トレーニングに使用する画像ファイルをアップロードしたフォルダーを指定します。

  • 対応する画像ファイルの形式は、JPEG のみです。
  • 極端な縦横比の画像は、正しく分類できない可能性があります。
  • トレーニング用の画像ファイルは、分類する種類ごとでフォルダーに分けて配置します。フォルダー名が分類する種類の名称として扱われます。
  • フォルダー内には、画像ファイルのみを配置します(更にフォルダーを作って整理しない)。

例えば、犬と猫の画像を分類する場合は、犬用のフォルダーと猫用のフォルダーを分けてそれぞれに犬と猫の画像ファイルを配置します。このとき、犬と猫の画像ファイルを混在させないでください。分類の精度が落ちます。

トレーニングの経過制限時間

トレーニングにかける最大の時間を指定します。

トレーニングの説明 トレーニングの説明を記入します。

GCP サービスの利用料金

ML ボードは、お客さまの GCP プロジェクトに各種 GCP サービスを利用した環境を構築します。

このため、MAGELLAN BLOCKS の料金とは別に GCP の料金が発生します。適用される料金は、サービスごとに異なります。詳しくは、ML ボードで使用する各サービスごとの料金ページを参照してください。