ML ボードヘルプ

ML Board Help

ML ボードヘルプ

はじめに

これは、ML ボードおよびそのトレーニングに関する各画面について解説しているヘルプドキュメントです。各画面に「ヘルプ」と書かれたリンクがあり、そのリンク先がこのドキュメントです。

ML ボードの使い方については、以下のドキュメントを参考にしてください。

   この機能はアルファ版です。アルファ版で作成した学習モデルは、ベータ版や正式版としてのリリース後も予測時に利用する際の互換性を保証するものではありません。ベータ版や正式版でのリリース後には、改めて学習モデルを作成しなおすことで動作します。ご注意ください。

ML ボードとは何か

ML ボードは、機械学習を誰にでも簡単に扱えるようにする MAGELLAN BLOCKS の機能です。

機械学習は、簡単に言えば、人が未来の事柄に対して「過去の経験(学習)」をもとに「予測」する様を、コンピュータで模倣したものです。

例えば、「腰や膝が痛くなると雨が降る」と言ったことを聞いたことがあると思います。これは、過去に腰や膝が痛くなったときに、雨が降った(降っている)ことが多かったという経験から予測していると考えられます。

機械学習では、この様子を「学習」(過去の経験)と「予測」の 2 つのステップに分けて模倣します。

  1. 学習ステップで過去のデータから学習を行います(過去の経験の模倣)。

    過去のデータは、先ほどの例えで言えば、○年○月○日に腰や膝が痛いという情報と、その翌日に雨が降ったかどうかの情報です。ただし、腰や膝が痛いという情報は個人差が大きいため、それと因果関係がありそうな気圧や気温などの客観的な情報とします(どのような情報で学習するかは予測精度を大きく左右するためとても重要です)。

  2. 予測ステップで学習結果(過去の経験則)を使って未来のデータから予測(分類や回帰)を行います(予測の模倣)。

    未来のデータは、学習時点よりも新しいデータのことです。先ほどの例えで言えば、明日雨が降るかどうかを予測したい場合は、今日の気圧や気温などの情報です。

ML ボードは、この機械学習における 1 の学習ステップをサポートするボードです。2 の予測ステップは、ビッグデータボードの「Cloud ML Predict」ブロックでサポートします。

ML ボードでは、この学習のステップを「トレーニング」と呼びます。トレーニングでは、訓練データと検証データを使って学習し、最適な学習結果(トレーニング結果)を導き出します。

訓練データと検証データは、トレーニング用に用意する過去のデータを適切に分けたものです。

なお、ML ボードは、Google Cloud Machine Learning (Cloud ML) を活用して機械学習の機能を実現しています。

ML ボード作成画面のヘルプ

この画面では、作成する ML ボードの「ボード名」と、トレーニングの「タイプ」を設定します。

ボード名には、わかりやすい名前をつけておくと、管理しやすくなります。なお、ボード名は、ML ボード作成後、変更できません。

トレーニングのタイプは、以下から選択します。

タイプ 説明
数値分類タイプ 数値を複数のクラスに分類する場合はこのタイプを選択してください。長さや重さなどの数値情報から種類の分類予測を行います。
数値回帰タイプ 数値の相関関係を回帰式で表現する場合はこのタイプを選択してください。需要予測や来店者数予測などに利用できます。

GCP サービスアカウント設定画面のヘルプ

この画面では、GCP のサービスアカウントキーファイル(JSON 形式)を設定します。

ML ボードは、お客さまの GCP プロジェクトに、環境を構築し運用します。これには、MAGELLAN BLOCKS がお客さまの GCP プロジェクトを使用する権限が必要です。これを可能にするのが、GCP サービスアカウントです。

GCP サービスアカウントは、「Google Cloud Platform のサービスアカウントキーを作成する 」を参考に準備してください。

準備した GCP サービスアカウントキーファイルは、次のいずれかの方法で設定(アップロード)します。

  • ドラッグ&ドロップの操作で、「GCP サービスアカウント JSON ファイルアップロード」にファイルをドロップします。
  • [ファイルを選択] ボタンをクリックしファイルを指定します。

ストレージ設定画面のヘルプ

この画面では、トレーニング結果を格納するための Google Cloud Storage (GCS) のバケットとディレクトリを設定します。

GCS バケットを選択する

バケットは、ML ボード専用のバケットを用意して、そのバケットを選択してください。用意するバケットは、ML ボードを最適な状態で使用するために、以下の設定で作成してください。

オプション
デフォルトのストレージクラス Regional
Regional のロケーション us-central1

GCS バケット内のディレクトリを指定する

ディレクトリは、複数の ML ボードで共有することを想定し、ML ボードごとにディレクトリを分けて使用します。ディレクトリは、事前に準備する必要はありません。ここで指定したディレクトリ名でディレクトリが作成されます。

Google Cloud Machine Learning 設定画面のヘルプ

この画面では、Google Cloud Machine Learning のサービスを使用するための設定を行います。設定する項目は、以下のとおりです。いずれの設定も Google Cloud Console を使います。

  1. Google Cloud Machine Learning API と Google Cloud Resource Manager API という 2 つの API を有効にします。
  2. Google Cloud Machine Learning サービスを初期化します。

API を有効にする

まず、Google Cloud Machine Learning API と Google Cloud Resource Manager API を有効にします。

API 名の横に「有効化されていません」とメッセージが表示されている場合は、以下の操作を行います。

  1. 「Google API Console」と書かれたリンクをクリックします。
  2. 「Google API Console」画面上部の「有効にする」ボタンをクリックします。
  3. 「有効にする」ボタンが「無効にする」ボタンに切り替わったら、Google API Console の画面を閉じて、BLOCKS の画面に戻ります。

それぞれの API について、上記操作が終わったら、「更新する」ボタンをクリックします。「有効化されていません」が「有効化済み」に変わることを確認してください。

もし、「有効化済み」に変わらない場合は、しばらく時間をおいてから「更新する」ボタンをクリックしてください。状況によっては、なかなか変わらない場合もあります。その場合は、「有効化済み」に変わるまで、しばらく時間をおく→「更新する」ボタンをクリックする操作を繰り返してください。

API を有効にする様子の動画

Google Cloud Machine Learning サービスを初期化する

続いて、Google Cloud Machine Learning のサービスを ML ボードで使えるようにします。この操作は、ML ボードを作成する GCP プロジェクトごとに 1 度だけ行います。

  1. 「Google Cloud Console」と書かれたリンクをクリックします。

  2. 「Google Cloud Console」画面上部の「Google Cloud Shell を有効にする」ボタン()をクリックします。

  3. もし、以下の画面が表示された場合は、「CLOUD SHELL の起動」ボタンをクリックします。

  4. 画面下部に表示された Google Cloud Shell(黒い部分)に、gcloud beta ml init-project と入力して、「return」キーを入力します。

    Do you want to continue (Y/n)? とメッセージが表示されたら、Y と入力して、「return」キーを入力します。

  5. Google Cloud Shell の右上端の「すべてのタブを閉じる」(×)ボタンをクリックして、Google Cloud Shell を閉じます。

  6. Google Cloud Consle 画面を閉じて、BLOCKS の画面に戻ります。

トレーニングデータ設定画面のヘルプ

この画面では、トレーニングに使用するデータの情報を設定します。

トレーニングに使用するデータは、カンマ区切りの CSV ファイルとして準備してください。

  • データは、学習のために必要となる1つ以上の「因子データ」と、その「結果となる値」をセットにします。 「結果となる値」とは、数値分類の場合は「回答値」、数値回帰の場合は「実績値」です。
  • 1 行ごとに「因子データ」と、「結果となる値」をセットにして並べます。
  • 1 行のデータの並び順は、「因子データ」、「結果となる値」の順です。
  • 「結果となる値」の型は、数値のみです。
  • 訓練データと検証データは同一形式にします。

因子データの設定

この画面では、「因子データ」についてのみ設定します。因子データの各データは、左から順に、項目 1、項目 2、・・・と呼びます。

   「結果となる値」については設定しないでください。

「因子データ」の設定は、「項目を追加する」ボタンをクリックして、項目数分の項目名と型に関する情報を設定していきます。

設定項目 説明
項目名 項目を内容を示す名称を入力します。英数字と _ が使用できます。
項目のデータの種類を指定します。数値 / 月 / 曜日 / 文字列列挙の 4 種類の型をサポートしています。型について詳しくは、下の表を参照してください。

型の種類:

説明
数値 整数や小数です。型が数値の場合は、さらに次元数が指定できます。1 つの項目に、複数の数値が列挙される場合は、列挙される数値の数を指定します。例えば、 98,1.3,0,"A" というデータのうち、98,1.3を 1 つの項目として扱いたい場合は、2 と指定します。
月を表す数値です。数値の範囲は、0 から 11 もしくは、1 から 12 です。
曜日 曜日を表す数値です。数値の範囲は、0 から 6 です。
文字列列挙

文字列です。文字列では、さらに「キーワードリスト」か「おおよその件数を指定」かを選択します。

文字列列挙のオプション 説明
キーワードリスト 項目に出現する文字列のパターンが明確な場合に選択します。また、そのパターンをカンマ区切りで列挙します。
おおよその件数を指定 項目に出現する文字列のパターンが不明瞭な場合に選択します。また、項目に出現するであろうおおよそのパターン数を指定します。項目に出現するパターンが明確な場合でもこちらを選択して、明確なパターン数を指定しても構いません。

分類する数の設定

数値分類タイプの場合は、「分類する数」に結果となる値(回答値)のパターン数を設定します。

トレーニング画面のヘルプ

この画面では、以下のことができます。

  • トレーニングを開始する
  • トレーニングを一覧する
  • トレーニングの詳細を確認する
  • ML ボードの情報を確認する
  • ボードを削除する

トレーニングを開始する

[トレーニング開始] ボタンをクリックすると「トレーニング開始」画面が表示されます。

トレーニング開始画面で、トレーニングに必要な情報を項目を設定して、トレーニングを開始します。

トレーニングを一覧する

トレーニングが 1 つ以上あるとトレーニングが一覧表示されます。トレーニングの一覧では、トレーニングごとに以下の情報が確認できます。

情報 説明
トレーニング名 トレーニング開始」で設定したトレーニング名です。
トレーニング開始日時 トレーニングを開始した日時です。
トレーニング終了日時 トレーニングが終了した日時です。
ステータス トレーニングの状況です。トレーニングの状況に応じて、準備中 / トレーニング中 / 成功 / 失敗 のいずれかが表示されます。
正確率 / 誤差 トレーニングの評価結果です。数値分類の場合は正確率、数値回帰の場合は誤差で表します。
詳細 トレーニングの詳細な情報が確認できます。
採用 トレーニング結果が予測で使えるかどうかの確認と、どのトレーニング結果を予測で使えるようにするかの指示ができます。

なお、トレーニング中のステータスは自動更新されません。画面右上のアイコン()をクリックするか、画面をリロードしてください。

トレーニングの詳細を確認する

トレーニングの [詳細] リンクをクリックすると、そのトレーニングの詳細な情報が確認できます。

項目 説明
トレーニング名 トレーニング開始」で設定したトレーニング名です。
トレーニング開始日時 トレーニングを開始した日時です。
トレーニング終了日時 トレーニングが終了した日時です。
ステータス トレーニングの状況です。トレーニングの状況に応じて、準備中 / トレーニング中 / 成功 / 失敗 のいずれかが表示されます。
正確率 / 誤差 トレーニングの評価結果です。数値分類の場合は正確率、数値回帰の場合は誤差で表します。
トレーニングの説明 トレーニング開始」で設定したトレーニングの説明です。説明が未入力の場合は、- と表示されます。
設定内容 トレーニングデータ設定」で設定した内容です。

ML ボードの情報を確認する

[設定情報] ボタンをクリックすると ML ボードの情報が確認できます。

項目 説明
ボード名 ML ボード作成」で設定した ML ボードのボード名です。
タイプ ML ボード作成」で設定した ML ボードのタイプです。
GCP サービスアカウント ML ボードが使用する GCP プロジェクト ID です。
Google Cloud Machine Learning トレーニングのモデル名(トレーニング結果)です。予測ステップで使用します。
トレーニングデータ設定 トレーニングデータ設定」で設定した内容です。

ボードを削除する

[ボードを削除する] をクリックすると ML ボードが削除できます。

トレーニング開始画面のヘルプ

この画面では、トレーニングに必要な項目を設定して、トレーニングを開始します。

設定項目 説明
トレーニング名 トレーニングに名前をつけます。
訓練データ URL 訓練データファイルのパス(gs://バケット名/オブジェクト名.csv のような URL)を指定します。訓練データファイルは、Google Cloud Storage (GCS) に格納してください。
検証データ URL 検証データファイルのパス(gs://バケット名/オブジェクト名.csv のような URL)を指定します。検証データファイルも GCS に格納してください。
トレーニングの経過制限時間 ML ボードのトレーニングでは、最良のトレーニング結果を導き出すために、試行錯誤を重ねます。トレーニングの経過制限時間は、1 回の試行にかけられる最大の時間を設定します。時間制限をかけない場合は、0 を設定します。
トレーニングの最大試行回数 トレーニングの最大試行回数を 1 以上の値で設定します。
トレーニングの説明 トレーニングの説明を記入します。

GCP サービスの利用料金

ML ボードは、お客さまの GCP プロジェクトに各種 GCP サービスを利用した環境を構築します。

このため、MAGELLAN BLOCKS の料金とは別に GCP の料金が発生します。適用される料金は、サービスごとに異なります。詳しくは、ML ボードで使用する各サービスごとの料金ページを参照してください。