基本操作ガイド

Basic Guide

Data Editor (beta)

Data Editor (beta)

はじめに

Data Editor は、機械学習で使用するトレーニングデータや予測データを視覚的に加工できるツールです。

データ編集画面

加工データは、CSV ファイル・BigQuery のテーブル・Google スプレッドシートから選択できます。

加工データは、BigQuery に保存されます。データを加工する上で、BigQuery に関する専門知識は不要です。

機能紹介

インポート

データを加工するためには、データを Data Editor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

ホーム画面

データの取り込みは、ホーム画面の[インポート]ボタンをクリックします。

インポート画面の例

上図は、インポート画面の例です。インポート元で取り込むデータの種類を選択します。取り込めるデータは、以下のとおりです。

  • Google Cloud Storage(GCS)上の CSV ファイル
  • BigQuery のテーブル
  • Google ドライブのスプレッドシートもしくは CSV ファイル
  • PC 上の CSV ファイル
データ編集

ホーム画面で、名前をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

  • グラフ表示
  • データ表示
  • 列の編集
  • 列の追加
  • 時系列データの列追加
  • 列の結合
  • 変更手順
グラフ表示
データ編集画面のグラフ表示の例

各列の[グラフを表示]をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握することができます。

欠損値は、赤で表示されます。

データ表示
データ編集画面のデータ表示前

データを表示]をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例
列の編集
データ編集画面の列の編集メニュー

列の編集は、各列の[列の編集]をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前変更画面

    変更後の名前を入力し、[OK]ボタンをクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型変更画面

    変更後の型を選択し、[OK]ボタンをクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製画面

    複製後の列名の入力と列の挿入位置(番号)を指定し、[OK]ボタンをクリックします。複製元の列はメニュー操作時の列名が表示されていますが、他の列に変えられます。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列の分割画面

    文字列を分割する区切り文字を選択し、分割する列数、分割後の各列名を入力し、[OK]ボタンをクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除]のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    すべての列の欠損値を表示メニュー

    欠損値の編集を行うには、まず[すべての列の欠損値を表示]を選択します。その後、[欠損値の行削除]もしくは[欠損値の補完]を選択します。

    欠損値の補完画面

    欠損値を補完する場合は、補完する値を入力し、[OK]ボタンをクリックします。

  • 値の変更
    値の変更画面

    条件指定による値の変更ができます。

  • 曜日の値(0-6)に変更

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変更できます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    行のフィルタ画面

    各行値の条件による行の削除ができます。

列の追加
列の追加画面

列の追加ができます。現時点では、FLOAT 型のランダム値列の追加のみができます。

時系列データの列追加
時系列データの列追加画面

時系列データの列が追加できます。

列の結合
列の結合画面

複数の列を 1 つの列に結合できます。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作の記録は、[変更手順を記録]ボタンをクリックするか、データ編集を[保存]ボタンをクリックすると自動で記録されます。

記録済み手順一覧画面

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタンをクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録]で記録する必要があります。

結合
結合画面

2 つのデータの結合ができます。

分割
分割画面

データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

エクスポート
エクスポート画面

データの内容を GCS 上に CSV 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

スキーマ情報のコピー

BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、フローデザイナーの BigQuery カテゴリーブロックの[スキーマ設定]プロパティで利用できます。

モデルジェネレーター用のスキーマ情報のコピー

モデルジェネレーター用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、モデルジェネレーター作成時のトレーニングデータ設定で利用できます。

削除

データの削除ができます。