DataEditor 機能概要

DataEditor Overview

はじめに

DataEditor は、機械学習で使用するデータを視覚的に加工し、そのデータを使った機械学習モデルの作成と予測までできるサービスです。

DataEditor サマリー画面

データは、CSV ファイル・BigQuery のテーブル・Google スプレッドシートから取り込んで加工できます。

加工データは、BigQuery に保存し管理します。データを加工する上で、BigQuery に関する専門的な知識は不要です。

BigQuery に関する知識は必要ありませんが、BigQuery 上の重要な要素であるデータセットとテーブルは指定する必要があります。Microsoft Excel に例えると、データセットはブックで、テーブルはシートに対応する概念です。

はじめ方

DataEditor は、BLOCKS にログイン後、以下の操作で使い始めます。

グローバルナビゲーションメニューから DataEditor を選択する様子
  1. グローバルナビゲーション左端のメニューアイコン()をクリック
  2. DataEditor]をクリック

機能紹介

ここでは、以下の主要機能について簡単に解説します。

データ型

DataEditor では、数値や文字列などさまざまな種類のデータが扱えます。種類毎に型として定義し、使い分けます。

説明
INTEGER

小数部分を持たない数値(整数)です。

FLOAT

小数部分を持つ数値(浮動小数点数)です。

NUMERIC

10 進数で 38 桁(内小数部 9 桁)の数値です。

(範囲:-99999999999999999999999999999.999999999 から 99999999999999999999999999999.999999999)

BOOLEAN

キーワード TRUEFALSE (大文字・小文字の区別なし)で表す 2 値を表現する値です。

CSV ファイルで以下のように定義されたデータ(すべて大文字・小文字の区別なし)は、この型に変換されます。

  • 1 または 0
  • true または false
  • t または f
  • yes または no
  • y または n
STRING

文字列(UTF-8)です。

値が、画像ファイルへの GCS URL(gs://foo/bar.jpg のような形式)の場合、データ表示で画像のプレビューが可能です。画像のプレビューができるのは、以下のいずれかです。

  • ファイルの拡張子が JPG・JPEG・PNG・BMP・GIF・SVG(大文字・小文字の区別なし)
  • ファイルのタイプ(MIME タイプ)が image/*(例:image/jpeg・image/png など)
BYTES

可変長のバイナリーデータです。

DATE

特定の日です(範囲:0001-01-01 から 9999-12-31)。

DATETIME

特定の日時です(範囲:0001-01-01 00:00:00 から 9999-12-31 23:59:59.999999)。

TIME

特定の日付に関係ない時刻です(範囲:00:00:00 から 23:59:59.999999)。

TIMESTAMP

タイムゾーンや夏時間などの習慣に関係ない、絶対的な時刻です(範囲:0001-01-01 00:00:00 から 9999-12-31 23:59:59.999999 UTC)。単位はマイクロ秒です。

型は、Google BigQuery のデータ型に準拠しています。詳しくは、BigQuery ドキュメント「標準 SQL データ型 」を参照願います。

インポート

データを加工するためには、データを DataEditor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

DataEditor ホーム画面からインポートする様子

データの取り込みは、ホーム画面の[インポート]ボタン(❶)をクリックします。

インポート画面

上図は、インポート画面の例です。インポート元で取り込むデータの種類を選択します。取り込めるデータは、以下のとおりです。

  • Google Cloud Storage:Google Cloud Storage(GCS)上の CSV ファイル
  • Google BigQuery:BigQuery のテーブル
  • Google Drive:Google ドライブのスプレッドシートもしくは CSV ファイル
  • Upload:PC 上の CSV ファイル

データ編集

ホーム画面のデータタブ(❶)で、名前(❷)をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

サマリー

サマリー機能では、データ集計結果の要約が確認できます。

確認できる集計結果は、最頻値上位 10 個(括弧内はその数値の個数)・欠損値・最小値・最大値・中央値・平均・一意な値の個数です。表示される集計の種類は、型によって異なります。

サマリーは、[サマリ]タブ(❶)で確認できます。

データ編集画面でサマリーを確認する様子

データが集計されていないときは、[すべての列の集計]ボタン(❷)をクリックすると、データの集計が行えます。また、集計後にデータを更新した場合もこのボタンで再集計が可能です。インポート機能で、データを取り込んだ場合は、自動集計されます。

グラフ表示

グラフ表示は、テーブルタブ(❶)でできます。

データ編集画面でグラフを表示する様子

各列の[グラフを表示](❷)をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握できます。

欠損値は、赤で表示されます。

データ表示

データ表示は、テーブルタブ(❶)でできます。

データ編集画面でデータを表示する様子

データを表示](❷)をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例

STRING 型で値が画像ファイルへの GCS URL(gs://foo/bar.jpg のような形式)の場合、画像のプレビュー表示ができます。画像のプレビューができるのは、以下のいずれかです。

  • ファイルの拡張子が JPG・JPEG・PNG・BMP・GIF・SVG(大文字・小文字の区別なし)
  • ファイルのタイプ(MIME タイプ)が image/*(例:image/jpeg・image/png など)
GCS URL を値として持つデータの例

GCS URL のセル(❶)をクリックすると、セル内に画像がプレビュー表示されます。

データ編集画面がでプレビュー画像が表示されている例

プレビューが表示されたセルをクリックすると、画像が拡大表示されます。

画像が拡大表示された様子

❶部分のアイコンをクリックすると、画像ファイルを別タブに表示するか、ダウンロードができます。画像を別タブに表示するのか、ダウンロードするのかは、ファイルのタイプ(MIME タイプ)によります。

  • タイプが image/*:別タブに表示
  • タイプが image/* 以外:ダウンロード
列の編集

列の編集は、テーブルタブ(❶)でできます。

データ編集画面の列の編集メニューを表示する様子

列の編集は、各列の[列の編集](❷)をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、別名で保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前を変更する様子

    変更後の名前(❶)を入力し、[OK]ボタン(❷)をクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型を変更する様子

    変更後の型(❶)を選択し、[OK]ボタン(❷)をクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製をする様子

    複製後の列名(❶)の入力と列の挿入位置(❷)を指定し、[OK]ボタン(❸)をクリックします。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列を分割する様子

    文字列を分割する区切り文字(❶)を選択し、分割する列数(❷)、分割後の各列名(❸・❹)を入力し、[OK]ボタン(❻)をクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除](❺)のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    メニューからすべての列の欠損値を表示を選択する様子

    欠損値の編集を行うには、まず[すべての列の欠損値を表示](❶・❷)を選択します。

    列の編集メニューから欠損値の行削除や補完を選択する様子

    その後、列の編集(❶)メニューの[欠損値](❷)から[行の削除]・[任意の値で補完]・[他の列の値で補完]を選択します。

  • 値の変更
    値を変更する様子

    条件指定による値の変更ができます。

  • 曜日の値(0-6)に変更

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変更できます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    フィルタリングする様子

    各行値の条件による行の絞り込み表示ができます。

列の追加

列の追加は、テーブルタブ(❶)でできます。

テーブルの操作メニューから列の追加を選択する様子

テーブルの操作](❷)から[列の追加](❸)をクリックします。

列の追加画面

列の追加では、以下 2 種類の列の追加ができます。

  • ランダム値(FLOAT 型)
  • シーケンシャル値(INTEGER 型)
時系列データの列追加

時系列データの列追加は、テーブルタブ(❶)でできます。

テーブルの操作メニューから時系列データ用の列追加を選択する様子

テーブルの操作](❷)から[時系列データ用の列追加](❸)をクリックします。

時系列データ用の列追加画面

時系列データの列が追加できます。

列の結合

列の結合は、テーブルタブ(❶)でできます。

テーブルの操作メニューから列の結合を選択する様子

テーブルの操作](❷)から[列の結合](❸)をクリックします。

列の結合画面

複数の列を 1 つの列に結合できます。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作を記録する様子

一連の操作の記録は、[変更手順を記録]ボタン(A)をクリックするか、データ編集を[別名で保存]ボタン(B)をクリックすると自動で記録されます。

変更手順を記録する様子

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタン(❶)をクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録](❸)で記録する必要があります。

データ分析

データ分析では、さまざまな角度でデータを分析し、データの視覚化ができます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。また、分析したデータをトレーニングデータに取り込んだりもできます。

データ分析は、データ分析タブ(❶)でできます。

データ分析サンプル画面

データ分析の利用のおおまかな流れは以下のとおりです。

データ分析タブを選択する様子
  1. 画面左上の[データ分析]をクリック
列と行を選択する様子
  1. 列を選択(列のフィールドをクリックすると選択肢が表示される)
  2. 行を選択(行のフィールドをクリックすると選択肢が表示される)
  3. 実行]ボタンをクリック

列の入力フィールドをクリックすると、選択肢をディメンションとメジャーにグループ分けして表示します。ディメンションには、項目の型が文字列や日付などの定性的数値が含まれます(データの分類や区分に利用可能)。メジャーには、項目の型が数値などの定量的な値が含まれます(集計可能)。

しばらくすると棒グラフが表示されます。

棒グラフの表示例

グラフ左上のアイコン(❶)をクリックすると、グラフの形式を変更できます。グラフの形式は、テーブル・棒グラフ・線グラフ・複合グラフ・エリア・円グラフ・散布図・混同行列が選べます。

保存]ボタン(❷)をクリックすると、分析結果を BigQuery のテーブルに保存できます。

相関関係

相関関係では、データ中の選択した列同士の相関係数を求めます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。

相関係数の算出対象となる列の型は、INTEGER・FLOAT・NUMERIC・STRING・BOOLEAN のみです。STRING 型は、文字列列挙型として扱います(数量を表すデータの場合は、あらかじめ数値型に変換してください)。BOOLEAN 型は数値に変換して変換係数を求めます。

相関係数の結果内の STRING 型の列名は、[STRING 型の列名]_[各文字列列挙値]という形式で表示されます(列名が a で、値が "foo""bar""baz" の場合は a_fooa_bara_baz)。また、文字列列挙の値が英数字以外の文字を含む場合、[各文字列列挙値]の部分は英数字のみ抽出して組み立てます。使える文字が 1 文字もない場合や重複する場合には、通し番号を付与します。

相関関係は、相関関係タブでできます。

相関関係の使い方は以下のとおりです。

相関関係タブをクリックする様子

画面左上の[相関関係](❶)をクリックします。

相関関係を算出する様子
  1. 選択]ボタンをクリック(❶)
  2. 相関係数を求める列を複数選択(❷)
  3. OK]ボタンをクリック(❸)
  4. 実行]ボタンをクリック(❹)
相関関係の結果を確認する様子

相関関係が係数の値に応じて、色つきで視覚的に表示されます。

実行]ボタン横の[ダウンロード]ボタン(❶)をクリックすると、上記の表を CSV 形式のデータでダウンロードできます。

  • 表中の -1 に置換して出力
  • 各係数は生のデータを出力(画面上の数値は小数点以下 6 桁までに補正されている)
モデル作成

モデル作成で、対応するモデルの種類は、以下のとおりです。

  • 数値回帰
  • 数値分類
  • クラスタリング

なお、以下のモデルについては、モデルジェネレーターを使用したモデルとモデルジェネレーターを使用しないモデルの 2 種類があります。

  • 数値回帰
  • 数値分類

モデル作成は、[モデル作成]タブから行えます。

モデル作成画面

モデルの作成について詳しくは、「DataEditor によるモデルの作成と予測」を参照願います。

時系列型の使い方

モデルジェネレーターを使用するモデル作成において、トレーニングデータ設定で時系列型を使用する場合の型別設定について解説します。

時系列型については、モデルジェネレーターヘルプ > トレーニングデータ設定の型の説明を参照願います。

トレーニングデータ設定で時系列型を設定する様子

ここでは、以下のデータを例にとります。

解説で使用するサンプルデータ図
  • 時系列型:C 列・D 列・E 列
  • 時系列の数:3
  • ソートする列:A 列
  • オフセット値:1

オフセット値は、ソートする列を基準に昇順で並び替えたデータに対して、意味を持ちます。

データを並び替える様子

最初の時系列データ(下図の赤枠部分)の最終行(赤背景の部分)が、オフセット値 0 となります。この行を基準としてオフセット値は、下に向かって 1・2…となり、上に向かって -1・-2…となります。

オフセット値の説明図

トレーニングデータは、指定されたオフセット値の行を基準に、組み立てていきます。

まず 1 行目のトレーニングデータは、オフセット値 1 が示す 4 行目のデータを基準として時系列データを組み合わせて、データを作成します。時系列データは、オフセット値に関係なく先頭行のデータから「時系列の数」分の行数が採択されます。

1 行目のトレーニングデータが作成される様子

続いて 2 行目のトレーニングデータは、オフセット値 1 が示す次の行(5 行目)のデータを基準として時系列データを組み合わせて、データを作成します。このときの時系列データは、基準行と同様に 1 行分下にずれます。

2 行目のトレーニングデータが作成される様子

3 行目も同様に、データを作成する基準行および時系列のデータを 1 行分下にずらします。

3 行目のトレーニングデータが作成される様子

この例では、これ以上データがないため、これでトレーニングデータの作成は終了です。最終的なトレーニングデータは、以下のとおりです。

作成されたトレーニングデータの全体図

このように時系列型を含むトレーニングデータは、オフセット値が示す行を基準にして、下方向に向かってデータを組み立てていきます。

最後に、オフセット値が -2 のケースも紹介しておきます。理解を深めるための参考にしてください。

1 行目のトレーニングデータは、オフセット値 -2 が示す 1 行目を基準にして、時系列データと組み合わせて作ります。

オフセット値 -2 で 1 行目のトレーニングデータが作成される様子

2 行目のデータは、先ほどの下の行を基準に、時系列データと組み合わせて作ります。時系列データも同様に下に 1 行分ずらします。

オフセット値 -2 で 2 行目のトレーニングデータが作成される様子

以降、同様に繰り返して処理することで、最終的に以下のトレーニングデータが作成されます。

オフセット値 -2 で作成されたトレーニングデータの全体図

5 行目以降は、時系列データが不足するため作成されません。

予測

予測では、DataEditor で作成したモデルやモデルジェネレーターで作成したモデル(数値分類タイプ・数値回帰タイプ)を使った予測ができます。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測を行います。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

予測は、予測用データの編集画面から以下の手順でできます。

モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルを選択
  3. 予測]ボタンをクリック
予測結果を確認する様子

しばらくすると、結果が表示されます。予測結果は、モデルの種類ごとに異なります。詳しくは、「DataEditorによるモデルの作成と予測」を参照願います。

テーブル結合

テーブル結合では、DataEditor 内の他のデータもしくは気象データとの結合ができます。

テーブル結合は、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブル結合を実行する方法

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブル結合](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブル結合を実行する方法

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブル結合](❷)をクリックすることでも実行できます。

テーブル結合画面
DataEditor のデータと結合

DataEditor 内の他のデータと結合する場合は、以下の手順を踏みます。

ata Editor 内の他のデータと結合する様子

結合するテーブルを選択]ボタン(❶)をクリックします。

結合するデータを選択する様子

結合するデータ(❶)をクリックします。

結合する列を選択する様子
  1. 結合方法を選択(この例では[内部結合]を選択)
  2. 結合元データから結合する列をチェック
  3. もう一方のデータから結合する列をチェック
  4. 追加]ボタンをクリック
  5. 共通行の列をクリック
  6. 共通行の列をクリック
  7. 結合]ボタンをクリック
保存先を指定する様子
  1. 名前を入力
  2. データセット ID をクリック
  3. テーブル ID を入力
  4. OK]ボタンをクリック
結合完了画面で OK ボタンをクリックする様子

OK]ボタン(❶)をクリックします。しばらくすると、結合されたデータがテーブル一覧に表示されます。

気象データと結合

気象データの結合では、1 つの気象観測所の日ごとか時間ごとのデータが扱えます。気象データと結合する場合は、結合元データに日付(DATE 型・DATETIME 型・TIMESTAMP 型)の列が必要です。日付が DATE 型の場合は、日ごとの気象データのみと結合できます。

気象データは有料です。DataEditor のライセンスとは別ライセンスです。利用にあたっては、別途ライセンスが必要です。

気象データを結合する場合は、以下の手順を踏みます。

気象データ結合機能を実行する様子

結合する気象データを選択]ボタン(❶)をクリックします。

結合する気象データを指定する様子
  1. 気象観測所を 1 つ選択
  2. 結合元の照合させる日時の列をクリック
  3. OK]ボタンをクリック
結合する列を選択する様子
  1. 結合元データから結合する列をチェック
  2. 気象データから結合する列をチェック
  3. 結合]ボタンをクリック
保存先を指定する様子
  1. 名前を入力
  2. データセット ID をクリック
  3. テーブル ID を入力
  4. OK]ボタンをクリック
結合完了画面で OK ボタンをクリックする様子

OK]ボタン(❶)をクリックします。しばらくすると、結合されたデータがテーブル一覧に表示されます。

テーブル分割

テーブル分割では、データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

テーブル分割画面例

テーブル分割は、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブル分割を実行する様子

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブル分割](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブル分割を実行する様子

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブル分割](❷)をクリックすることでも実行できます。

テーブルエクスポート

テーブルエクスポートでは、データの内容を GCS 上に CSV 形式もしくは JSON 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

エクスポート画面例

エクスポート先が GCS の場合は、エクスポートの完了画面に、ファイルのダウンロードリンクが表示されます。

エクスポート完了画面例

このリンク(❶)をマウスの右ボタンでクリックし、表示されるメニューから[名前を付けてリンク先を保存]をクリックすると、PC にファイルがダウンロードできます。

テーブルエクスポートは、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブルエクスポートを実行する様子

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブルエクスポート](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブルエクスポートを実行する様子

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブルエクスポート](❷)をクリックすることでも実行できます。

スキーマ情報のコピー

BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、フローデザイナーの BigQuery カテゴリーブロックの[スキーマ設定]プロパティで利用できます。

削除

データの削除ができます。

設定

DataEditor ホーム画面の[設定]タブから、DataEditor のライセンス内容が確認できます。また、DataEditor の追加ライセンスや、オプションライセンスの見積もり依頼ができます。

設定画面でライセンスを確認する様子