基本操作ガイド

Basic Guide

Data Editor (beta)

Data Editor (beta)

はじめに

Data Editor は、機械学習で使用するトレーニングデータや予測データを視覚的に加工できるツールです。

データ編集画面

加工データは、CSV ファイル・BigQuery のテーブル・Google スプレッドシートから選択できます。

加工データは、BigQuery に保存されます。データを加工する上で、BigQuery に関する専門知識は不要です。

機能紹介

ここでは、以下の主要機能について簡単に解説します。

インポート

データを加工するためには、データを Data Editor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

ホーム画面

データの取り込みは、ホーム画面の[インポート]ボタンをクリックします。

インポート画面の例

上図は、インポート画面の例です。インポート元で取り込むデータの種類を選択します。取り込めるデータは、以下のとおりです。

  • Google Cloud Storage(GCS)上の CSV ファイル
  • BigQuery のテーブル
  • Google ドライブのスプレッドシートもしくは CSV ファイル
  • PC 上の CSV ファイル
データ編集

ホーム画面で、名前をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

グラフ表示
データ編集画面のグラフ表示の例

各列の[グラフを表示]をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握できます。

欠損値は、赤で表示されます。

データ表示
データ編集画面のデータ表示前

データを表示]をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例
列の編集
データ編集画面の列の編集メニュー

列の編集は、各列の[列の編集]をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、別名で保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前変更画面

    変更後の名前を入力し、[OK]ボタンをクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型変更画面

    変更後の型を選択し、[OK]ボタンをクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製画面

    複製後の列名の入力と列の挿入位置(番号)を指定し、[OK]ボタンをクリックします。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列の分割画面

    文字列を分割する区切り文字を選択し、分割する列数、分割後の各列名を入力し、[OK]ボタンをクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除]のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    すべての列の欠損値を表示メニュー

    欠損値の編集を行うには、まず[すべての列の欠損値を表示]を選択します。その後、[欠損値の行削除]もしくは[欠損値の補完]を選択します。

    欠損値の補完画面

    欠損値を補完する場合は、補完する値を入力し、[OK]ボタンをクリックします。

  • 値の変更
    値の変更画面

    条件指定による値の変更ができます。

  • 曜日の値(0-6)に変更

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変更できます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    行のフィルタ画面

    各行値の条件による行の絞り込み表示ができます。

列の追加
列の追加画面

以下 2 種類の列の追加ができます。

  • ランダム値(FLOAT 型)
  • シーケンシャル値(INTEGER 型)
時系列データの列追加
時系列データの列追加画面

時系列データの列が追加できます。

列の結合
列の結合画面

複数の列を 1 つの列に結合できます。

モデルジェネレーターでモデル作成

Data Editor とモデルジェネレーターを連携させて、Data Editor のデータ情報を元に、簡単にモデルジェネレーターによるモデルの作成ができる機能です。

Data Editor データ詳細画面のテーブル編集メニューを表示している様子の画面

テーブルの操作]をクリックし、表示されるメニューから[モデルジェネレーターでモデル作成]をクリックします。

  • トレーニングデータ設定なし:
    トレーニングデータ設定なしの Data Editor のモデル作成画面
  • トレーニングデータ設定あり:
    トレーニングデータ設定ありの Data Editor のモデル作成画面

モデル作成画面で、以下の項目を選択・入力し、[トレーニング設定画面へ進む]をクリックします。

選択・入力項目 内容説明
モデルタイプ

数値分類タイプ]か[数値回帰タイプ]を選択します。

名前

作成するモデルジェネレーターにつける名前を入力します。

ストレージ設定

モデルジェネレーターが使用する Google Cloud Storage(GCS)上のバケットとディレクトリーを指定します。

フルサービスプランの場合は、指定する必要はありません。自動設定されます。

セルフサービスプランの場合は、一度モデルジェネレーターでモデルを作成したことがあれば、指定する必要はありません。フルサービスプラン同様に自動で設定されます。一度もモデルジェネレーターでモデルを作成したことがない場合は、ここでバケットやディレクトリなどを作成および設定する必要があります。

どちらのプランでも、GCS 上にバケットやディレクトリがない場合は、ここでそれらを作成および設定する必要があります。

トレーニングデータ設定

キーワードリストの列を選択します。ここで選択した列は、モデルジェネレーターで文字列列挙型として扱われます。

INTEGER 型もしくは STRING 型の列がなければこの項目は表示されません。

しばらくすると、モデルジェネレーターのトレーニングデータ設定画面が表示されます。

モデルジェネレーターのトレーニングデータ設定画面

データ項目は、Data Editor のデータ情報を元に項目が設定された状態になっています。[次へ]ボタンをクリックし、内容に間違いがないか確認するだけで、モデルの作成が可能です。

モデルタイプが数値分類タイプで、データの最後の列が STRING 型の場合は、「結果となる値」の「分類するラベル」にラベルが自動設定されます。

モデルジェネレータのライセンスは事前に購入しておいてください。ライセンス不足の場合は、モデルジェネレーターとの連携はできません。

モデルジェネレーターで必要となる Google API が有効になっていないとエラーになります。その場合は、表示されるエラーメッセージに従い、API を有効化してください。

サービス作成数が上限に達している・本契約の手続き中など、モデルジェネレーターサービスとの連携ができない場合は、その旨のメッセージが表示されモデルジェネレーターとの連携はできません。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作の記録は、[変更手順を記録]ボタンをクリックするか、データ編集を[別名で保存]ボタンをクリックすると自動で記録されます。

記録済み手順一覧画面

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタンをクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録]で記録する必要があります。

データ分析

データ分析では、さまざまな角度でデータを集計し、データの視覚化ができます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。また、集計したデータをトレーニングデータに取り込んだりもできます。

データ分析サンプル画面

データ分析の利用のおおまかな流れは以下のとおりです。

データ分析の流れ解説図(ステップ 1)

画面左上の[データ分析]をクリックします。

データ分析の流れ解説図(ステップ 2)

データ分析する列と行を選択します(列と行の入力フィールドをクリックすると選択肢が表示される)。

列をの入力フィールドをクリックすると、選択肢をディメンションとメジャーにグループ分けして表示します。ディメンションには、項目の型が文字列や日付などの定性的数値が含まれます(データの分類や区分に利用可能)。メジャーには、項目の型が数値などの定量的な値が含まれます(集計可能)。

データ分析の流れ解説図(ステップ 3)

画面の中央付近のボタンをクリックします。しばらくすると集計結果が表示されます。

データ分析の流れ解説図(ステップ 4)

集計結果左上上部の[テーブル]をクリックすると、集計結果の視覚化形式が選択できます。形式は、テーブル・棒グラフ・線グラフ・複合グラフ・エリア・円グラフ・散布図・混同行列の 8 種類から選択できます。下図は、[棒グラフ]を選択した例です。

データ分析の流れ解説図(ステップ 5)

保存]ボタンをクリックすると、集計結果を BigQuery のテーブルに保存できます。

相関関係

相関関係では、データ中の選択した列同士の相関係数を求めます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。

相関係数の算出対象となる列の型は、INTEGER・FLOAT・STRING・BOOL のみです。STRING 型は、文字列列挙型として扱います(数量を表すデータの場合は、あらかじめ数値型に変換してください)。BOOL 型は数値に変換して変換係数を求めます。

STRING 型の列名は、相関係数の結果内では、[STRING 型の列名]_[各文字列列挙値] という形式で表示されます(列名が a で、値が "foo""bar""baz" の場合は、a_fooa_bara_baz)。また、文字列列挙の値が英数字以外の文字を含む場合、[各文字列列挙値] の部分は英数字のみ抽出して組み立てます。使える文字が 1 文字もない場合や重複する場合には、通し番号を付与します。

相関関係の使い方は以下のとおりです。

相関係数手順解説図(ステップ 1)

画面左上の[相関関係]をクリックします。

相関係数手順解説図(ステップ 2)
  1. 選択]ボタンをクリック(❶)
  2. 相関係数を求める列を複数選択(❷)
  3. OK]ボタンをクリック(❸)
  4. 実行]ボタンをクリック(❹)
相関係数手順解説図(ステップ 3)

相関関係が係数の値に応じて、色つきで視覚的に表示されます。

実行]ボタン横の[ダウンロード]ボタンをクリックすると、上記の表を CSV 形式のデータでダウンロードできます。

  • 表中の -1 に置換して出力
  • 各係数は生のデータを出力(画面上の数値は小数点以下 6 桁までに補正されている)
結合
結合画面

2 つのデータの結合ができます。

分割
分割画面

データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

エクスポート
エクスポート画面

データの内容を GCS 上に CSV 形式もしくは JSON 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

エクスポート完了画面

エクスポート先が GCS の場合は、エクスポートの完了画面に、ファイルのダウンロードリンクが表示されます。このリンクをマウスの右ボタンでクリックし、表示されるメニューから[名前を付けてリンク先を保存]をクリックすると、PC にファイルがダウンロードできます。

スキーマ情報のコピー

BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、フローデザイナーの BigQuery カテゴリーブロックの[スキーマ設定]プロパティで利用できます。

削除

データの削除ができます。