基本操作ガイド

Basic Guide

Data Editor (beta)

Data Editor (beta)

はじめに

Data Editor は、機械学習で使用するトレーニングデータや予測データを視覚的に加工できるツールです。

データ編集画面

加工データは、CSV ファイル・BigQuery のテーブル・Google スプレッドシートから選択できます。

加工データは、BigQuery に保存されます。データを加工する上で、BigQuery に関する専門知識は不要です。

機能紹介

ここでは、以下の主要機能について簡単に解説します。

インポート

データを加工するためには、データを Data Editor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

ホーム画面

データの取り込みは、ホーム画面の[インポート]ボタンをクリックします。

インポート画面の例

上図は、インポート画面の例です。インポート元で取り込むデータの種類を選択します。取り込めるデータは、以下のとおりです。

  • Google Cloud Storage(GCS)上の CSV ファイル
  • BigQuery のテーブル
  • Google ドライブのスプレッドシートもしくは CSV ファイル
  • PC 上の CSV ファイル
データ編集

ホーム画面で、名前をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

グラフ表示
データ編集画面のグラフ表示の例

各列の[グラフを表示]をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握することができます。

欠損値は、赤で表示されます。

データ表示
データ編集画面のデータ表示前

データを表示]をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例
列の編集
データ編集画面の列の編集メニュー

列の編集は、各列の[列の編集]をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前変更画面

    変更後の名前を入力し、[OK]ボタンをクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型変更画面

    変更後の型を選択し、[OK]ボタンをクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製画面

    複製後の列名の入力と列の挿入位置(番号)を指定し、[OK]ボタンをクリックします。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列の分割画面

    文字列を分割する区切り文字を選択し、分割する列数、分割後の各列名を入力し、[OK]ボタンをクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除]のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    すべての列の欠損値を表示メニュー

    欠損値の編集を行うには、まず[すべての列の欠損値を表示]を選択します。その後、[欠損値の行削除]もしくは[欠損値の補完]を選択します。

    欠損値の補完画面

    欠損値を補完する場合は、補完する値を入力し、[OK]ボタンをクリックします。

  • 値の変更
    値の変更画面

    条件指定による値の変更ができます。

  • 曜日の値(0-6)に変更

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変更できます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    行のフィルタ画面

    各行値の条件による行の絞り込み表示ができます。

列の追加
列の追加画面

以下 2 種類の列の追加ができます。

  • ランダム値(FLOAT 型)
  • シーケンシャル値(INTEGER 型)
時系列データの列追加
時系列データの列追加画面

時系列データの列が追加できます。

列の結合
列の結合画面

複数の列を 1 つの列に結合できます。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作の記録は、[変更手順を記録]ボタンをクリックするか、データ編集を[保存]ボタンをクリックすると自動で記録されます。

記録済み手順一覧画面

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタンをクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録]で記録する必要があります。

データ分析

データ分析では、さまざまな角度でデータを集計することができ、データの視覚化ができます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。また、集計したデータをトレーニングデータに取り込んだりもできます。

データ分析サンプル画面

データ分析の利用のおおまかな流れは以下のとおりです。

データ分析の流れ解説図(ステップ 1)

画面左上の をクリックします。

データ分析の流れ解説図(ステップ 2)

データ分析する列と行を選択します(列と行の入力フィールドをクリックすると選択肢が表示される)。

列をの入力フィールドをクリックすると、選択肢をディメンションとメジャーにグループ分けして表示します。ディメンションには、項目の型が文字列や日付などの定性的数値が含まれます(データの分類や区分に利用可能)。メジャーには、項目の型が数値などの定量的な値が含まれます(集計可能)。

データ分析の流れ解説図(ステップ 3)

画面中央付近のボタンをクリックします。しばらくすると集計結果が表示されます。

データ分析の流れ解説図(ステップ 4)

集計結果左上上部の[テーブル]をクリックすると、集計結果の視覚化形式が選択できます。形式は、テーブル・棒グラフ・線グラフ・複合グラフ・エリア・円グラフ・散布図・混同行列の 8 種類から選択できます。下図は、[棒グラフ]を選択した例です。

データ分析の流れ解説図(ステップ 5)

保存]ボタンをクリックすると、集計結果を BigQuery のテーブルに保存できます。

相関係数

相関係数では、データ中の選択した列とその他の列との相関係数を求めます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。

相関係数算出対象となる列の型は、INTEGER・FLOAT・STRING・BOOL のみです。STRING 型と BOOL 型は数値に変換して変換係数を求めます。ただし、STRING 型については、結果が NULL となることがあります(相関係数算出不可)。

相関係数の求め方は以下のとおりです。

相関係数手順解説図(ステップ 1)

画面左上の をクリックします。

相関係数手順解説図(ステップ 2)

予測対象の列を選択し、[実行]ボタンをクリックします。

相関係数手順解説図(ステップ 3)

上図は、相関係数欄見出しの をクリックして、相関係数を昇順に並び替えて表示した例です( は降順)。

結合
結合画面

2 つのデータの結合ができます。

分割
分割画面

データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

エクスポート
エクスポート画面

データの内容を GCS 上に CSV 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

スキーマ情報のコピー

BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、フローデザイナーの BigQuery カテゴリーブロックの[スキーマ設定]プロパティで利用できます。

モデルジェネレーター用のスキーマ情報のコピー

モデルジェネレーター用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、モデルジェネレーター作成時のトレーニングデータ設定で利用できます。

削除

データの削除ができます。