基本操作ガイド

Basic Guide

ML Data Editor (beta)

ML Data Editor (beta)

はじめに

ML Data Editor は、機械学習で使用するトレーニングデータや予測データを視覚的に加工できるツールです。

データ編集画面

加工データは、CSV ファイル・BigQuery のテーブル・Google スプレッドシートから選択できます。

加工データは、BigQuery に保存されます。データを加工する上で、BigQuery に関する専門知識は不要です。

機能紹介

インポート

データを加工するためには、データを ML Data Editor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

ホーム画面

データの取り込みは、ホーム画面の[インポート]ボタンをクリックします。

インポート画面の例

上図は、インポート画面の例です。インポート元で取り込むデータの種類を選択します。取り込めるデータは、以下のとおりです。

  • Google Cloud Storage(GCS)上の CSV ファイル
  • BigQuery のテーブル
  • Google ドライブのスプレッドシートもしくは CSV ファイル
  • PC 上の CSV ファイル
データ編集

ホーム画面で、名前をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

  • グラフ表示
  • データ表示
  • 列の編集
  • 列の追加
  • 時系列データの列追加
  • 列の結合
  • 変更手順
グラフ表示
データ編集画面のグラフ表示の例

各列の[グラフを表示]をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握することができます。

欠損値は、赤で表示されます。

データ表示
データ編集画面のデータ表示前

データを表示]をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例
列の編集
データ編集画面の列の編集メニュー

列の編集は、各列の[列の編集]をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前変更画面

    変更後の名前を入力し、[OK]ボタンをクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型変更画面

    変更後の型を選択し、[OK]ボタンをクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製画面

    複製後の列名の入力と列の挿入位置(番号)を指定し、[OK]ボタンをクリックします。複製元の列はメニュー操作時の列名が表示されていますが、他の列に変えられます。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列の分割画面

    文字列を分割する区切り文字を選択し、分割する列数、分割後の各列名を入力し、[OK]ボタンをクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除]のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    すべての列の欠損値を表示メニュー

    欠損値の編集を行うには、まず[すべての列の欠損値を表示]を選択します。その後、[欠損値の行削除]もしくは[欠損値の補完]を選択します。

    欠損値の補完画面

    欠損値を補完する場合は、補完する値を入力し、[OK]ボタンをクリックします。

  • 値の変更
    値の変更画面

    条件指定による値の変更ができます。

  • 曜日の値(0-6)に変更

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変更できます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    行のフィルタ画面

    各行値の条件による行の削除ができます。

列の追加
列の追加画面

列の追加ができます。現時点では、FLOAT 型のランダム値列の追加のみができます。

時系列データの列追加
時系列データの列追加画面

時系列データの列が追加できます。

列の結合
列の結合画面

複数の列を 1 つの列に結合できます。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作の記録は、[変更手順を記録]ボタンをクリックするか、データ編集を[保存]ボタンをクリックすると自動で記録されます。

記録済み手順一覧画面

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタンをクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録]で記録する必要があります。

結合
結合画面

2 つのデータの結合ができます。

分割
分割画面

データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

エクスポート
エクスポート画面

データの内容を GCS 上に CSV 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

スキーマ情報のコピー

BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、BigData ボードの BigQuery カテゴリーブロックの[**スキーマ設定**]プロパティで利用できます。

ML ボード用のスキーマ情報のコピー

ML ボード用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、ML ボード作成時のトレーニングデータ設定で利用できます。

削除

データの削除ができます。