DataEditor 機能概要

DataEditor Overview

はじめに

DataEditor は、機械学習で使用するデータを視覚的に加工し、そのデータを使った機械学習モデルの作成と予測までできるサービスです。

DataEditor サマリー画面

データは、CSV 形式・BigQuery のテーブル・Google スプレッドシートから取り込んで加工できます。

加工データは、BigQuery に保存し管理します。データを加工する上で、BigQuery に関する専門的な知識は不要です。

BigQuery に関する知識は必要ありませんが、BigQuery 上の重要な要素であるデータセットとテーブルは指定する必要があります。Microsoft Excel に例えると、データセットはブックで、テーブルはシートに対応する概念です。

はじめ方

DataEditor は、BLOCKS にログイン後、以下の操作で使い始めます。

グローバルナビゲーションメニューから DataEditor を選択する様子
  1. グローバルナビゲーション左端のメニューアイコン()をクリック
  2. DataEditor]をクリック

機能紹介

ここでは、以下の主要機能について簡単に解説します。

データ型

DataEditor では、数値や文字列などさまざまな種類のデータが扱えます。種類毎に型として定義し、使い分けます。

説明
INTEGER

小数部分を持たない数値(整数)です。

FLOAT

小数部分を持つ数値(浮動小数点数)です。

NUMERIC

10 進数で 38 桁(内小数部 9 桁)の数値です。

(範囲:-99999999999999999999999999999.999999999 から 99999999999999999999999999999.999999999)

BOOLEAN

キーワード TRUEFALSE (大文字・小文字の区別なし)で表す 2 値を表現する値です。

CSV 形式ファイルで以下のように定義されたデータ(すべて大文字・小文字の区別なし)は、この型に変換されます。

  • 1 または 0
  • true または false
  • t または f
  • yes または no
  • y または n
STRING

文字列(UTF-8)です。

値が、画像ファイルへの GCS URL(gs://foo/bar.jpg のような形式)の場合、データ表示で画像のプレビューが可能です。画像のプレビューができるのは、以下のいずれかです。

  • ファイルの拡張子が JPG・JPEG・PNG・BMP・GIF・SVG(大文字・小文字の区別なし)
  • ファイルのタイプ(MIME タイプ)が image/*(例:image/jpeg・image/png など)
BYTES

可変長のバイナリーデータです。

DATE

特定の日です(範囲:0001-01-01 から 9999-12-31)。

DATETIME

特定の日時です(範囲:0001-01-01 00:00:00 から 9999-12-31 23:59:59.999999)。

TIME

特定の日付に関係ない時刻です(範囲:00:00:00 から 23:59:59.999999)。

TIMESTAMP

タイムゾーンや夏時間などの習慣に関係ない、絶対的な時刻です(範囲:0001-01-01 00:00:00 から 9999-12-31 23:59:59.999999 UTC)。単位はマイクロ秒です。

型は、Google BigQuery のデータ型に準拠しています。詳しくは、BigQuery ドキュメント「標準 SQL データ型 」を参照願います。

インポート

データを加工するためには、データを DataEditor に取り込む必要があります。このデータの取り込みには、インポート機能を使います。

DataEditor ホーム画面からインポートする様子

データの取り込みは、ホーム画面の[インポート]ボタン(❶)をクリックします。

インポートのおおまかな手順は、以下のとおりです。

インポート画面
  1. インポート元を選択

    インポート可能なデータは、以下のとおりです。

    • Google Cloud Storage:Google Cloud Storage(GCS)上の CSV 形式ファイル
    • Google BigQuery:Google BigQuery のテーブル
    • Google Drive:Google Drive 上のスプレッドシート(先頭のシートのみ)もしくは CSV 形式ファイル
    • Upload:PC 上の CSV 形式ファイル
  2. パラメーターを設定

    パラメーターの設定は、インポート元ごとに異なります(後述)。

  3. インポート先を設定

    DataEditor は、データを BigQuery 上に格納して管理するため、その格納先(以下参照)を指定します。

    • データセット ID:格納先となる BigQuery のデータセット ID
    • テーブル ID:格納先となる BigQuery のテーブル ID
    • 名前:DataEditor で管理する名前

    インポート元が Google BigQuery の場合は、名前のみ指定します。

  4. インポート]ボタンをクリック

インポート元ごとのパラメーターについては、以下の解説を参照願います。

Google Cloud Storage のパラメーター設定

Google Cloud Storage(GCS)では、GCS 上の CSV 形式ファイルがインポートできます。パラメーターは、以下のとおりです。

パラメーター名 説明
GCP サービスアカウント インポート対象の GCS にアクセス可能な GCP サービスアカウントを指定します。
GCS URL インポートする CSV 形式ファイルを指定します。
スキーマ

データを BigQuery テーブルに格納する際のスキーマ(列名やデータ型など)を指定します。

  • スキーマを自動検出

    CSV 形式ファイルの内容からスキーマを自動生成します。

  • フィールドで編集

    列ごとに列名・データ型・モードを指定します。

  • JSON 形式で編集

    JSON 形式の文字列でスキーマを指定します。

CSV 区切り文字

CSV 区切り文字を指定します。

  • カンマ
  • タブ
  • パイプ
  • カスタム

    任意の文字を 1 文字で指定します。

読み飛ばし行数 先頭から何行読み飛ばすかを指定します。
オプション
項目 説明
クオート記号 クオート記号を指定します。
改行有無

クオートされた文字列に改行が含まれているかいないかを指定します。

クオートされた文字列に改行が含まれている場合は、チェックボックスにチェックを付けます。

不正な行の許容数 不正な行の許容数を指定します。この行数を超える不正な行があるとインポートに失敗します。
不足フィールド

フィールド数が足らない行を許容するかしないかを指定します。

フィールド数が足らない行を許容する場合は、チェックボックスにチェックを付けます。

余分フィールド

余分なフィールドを無視するかしないかを指定します。

余分なフィールドを無視する場合は、チェックボックスにチェックを付けます。

Google BigQuery のパラメーター設定

Google BigQuery では、指定された BigQuery テーブルをそのまま DataEditor で利用できるようにします。パラメーターについては、以下のとおりです。

パラメーター名 説明
GCP サービスアカウント インポート対象の BigQuery テーブルにアクセス可能な GCP サービスアカウントを指定します。
データセット ID インポート対象の BigQuery テーブルのデータセット ID を選択します。
テーブル ID インポート対象の BigQuery テーブル ID を選択します。
Google Drive のパラメーター設定

Google Drive では、Google Drive 上の Google スプレッドシート(先頭のシートのみ)もしくは CSV 形式ファイル(カンマ区切りのみ)がインポートできます。パラメーターは、以下のとおりです。

パラメーター名 説明
GCP サービスアカウント インポート対象にアクセス可能な GCP サービスアカウントを指定します。
ファイル URI

https://drive.google.com/open?id=***** のような形式で Google スプレッドシートもしくは CSV 形式ファイルの URI を指定します(***** の部分はスプレッドシートや CSV 形式ファイルごとに変わる)。

上記形式の URI を取得するには、Google ドライブ上の当該ファイルを右クリックし、[共有可能なリンクを取得]を選択します。

ファイルフォーマット

上記[ファイル URI]で指定したファイルのフォーマットを指定します。指定できるフォーマットは以下のとおりです。

  • Google スプレッドシート:先頭のシートのみが対象
  • CSV ファイル:カンマ区切りのみが対象

ファイルフォーマットごとに、指定するパラメーターは異なります。

  • Google スプレッドシート
    パラメーター名 説明
    スキーマ

    データを BigQuery テーブルに格納する際のスキーマ(列名やデータ型など)を指定します。

    • スキーマを自動検出

      CSV 形式ファイルの内容からスキーマを自動生成します。

    • フィールドで編集

      列ごとに列名・データ型・モードを指定します。

    • JSON 形式で編集

      JSON 形式の文字列でスキーマを指定します。

    読み飛ばし行数 先頭から何行読み飛ばすかを指定します。
  • CSV ファイル
    パラメーター名 説明
    スキーマ

    データを BigQuery テーブルに格納する際のスキーマ(列名やデータ型など)を指定します。

    • スキーマを自動検出

      CSV 形式ファイルの内容からスキーマを自動生成します。

    • フィールドで編集

      列ごとに列名・データ型・モードを指定します。

    • JSON 形式で編集

      JSON 形式の文字列でスキーマを指定します。

    読み飛ばし行数 先頭から何行読み飛ばすかを指定します。
    オプション
    項目 説明
    クオート記号 クオート記号を指定します。
    改行有無

    クオートされた文字列に改行が含まれているかいないかを指定します。

    クオートされた文字列に改行が含まれている場合は、チェックボックスにチェックを付けます。

    不正な行の許容数 不正な行の許容数を指定します。この行数を超える不正な行があるとインポートに失敗します。
    不足フィールド

    フィールド数が足らない行を許容するかしないかを指定します。

    フィールド数が足らない行を許容する場合は、チェックボックスにチェックを付けます。

    余分フィールド

    余分なフィールドを無視するかしないかを指定します。

    余分なフィールドを無視する場合は、チェックボックスにチェックを付けます。

Upload のパラメーター設定

Upload では、PC 上の CSV 形式ファイルがインポートできます。パラメーターは、以下のとおりです。

パラメーター名 説明
ファイル

Upload では、PC 上の CSV 形式ファイルを GCS 経由でインポートします。このため、経由先となるGCS 上の URL を gs:// 横の入力フィールドに指定します。その後、PC 上の CSV 形式ファイルを[ファイルをドラッグまたはファイルを選択]欄にドラッグするか、この欄をクリックしてファイルを選択します。

スキーマ

データを BigQuery テーブルに格納する際のスキーマ(列名やデータ型など)を指定します。

  • スキーマを自動検出

    CSV 形式ファイルの内容からスキーマを自動生成します。

  • フィールドで編集

    列ごとに列名・データ型・モードを指定します。

  • JSON 形式で編集

    JSON 形式の文字列でスキーマを指定します。

CSV 区切り文字

CSV 区切り文字を指定します。

  • カンマ
  • タブ
  • パイプ
  • カスタム

    任意の文字を 1 文字で指定します。

読み飛ばし行数 先頭から何行読み飛ばすかを指定します。
オプション
項目 説明
クオート記号 クオート記号を指定します。
改行有無

クオートされた文字列に改行が含まれているかいないかを指定します。

クオートされた文字列に改行が含まれている場合は、チェックボックスにチェックを付けます。

不正な行の許容数 不正な行の許容数を指定します。この行数を超える不正な行があるとインポートに失敗します。
不足フィールド

フィールド数が足らない行を許容するかしないかを指定します。

フィールド数が足らない行を許容する場合は、チェックボックスにチェックを付けます。

余分フィールド

余分なフィールドを無視するかしないかを指定します。

余分なフィールドを無視する場合は、チェックボックスにチェックを付けます。

データ編集

ホーム画面のデータタブ(❶)で、名前(❷)をクリックすると、取り込んだデータの編集ができます。

ホーム画面

データの編集では、以下のことができます。

サマリー

サマリー機能では、データ集計結果の要約が確認できます。

確認できる集計結果は、最頻値上位 12 個(括弧内はその数値の個数)・欠損値・最小値・最大値・中央値・平均・一意な値の個数です。表示される集計の種類は、型によって異なります。

サマリーは、[サマリ]タブ(❶)で確認できます。

データ編集画面でサマリーを確認する様子

データが集計されていないときは、[すべての列を集計]もしくは[更新]ボタン(❷)をクリックすると、データの集計が行えます。また、集計後にデータを更新した場合もこのボタンで再集計が可能です。カラムごとにある❸のボタンをクリックすることで、カラムごとの再集計も可能です。

インポート機能で、データを取り込んだ場合は、自動集計されます。

下図は、サマリーのグラフ例です。

サマリーのグラフ例

本サマリーは、正確な集計結果ではなく近似的な集計結果となっています(近似集計を採用)。これにより、大規模なデータであっても使用メモリ量を抑え、高速な集計を実現しています。

グラフ表示

グラフ表示は、テーブルタブ(❶)でできます。

データ編集画面でグラフを表示する様子

各列の[グラフを表示](❷)をクリックすると、列ごとのグラフが表示できます。これにより、列ごとのデータの分布を視覚的に把握できます。

欠損値は、赤で表示されます。

データ表示

データ表示は、テーブルタブ(❶)でできます。

データ編集画面でデータを表示する様子

データを表示](❷)をクリックすると、データを表形式で確認できます。

データ編集画面のデータ表示例

STRING 型で値が画像ファイルへの GCS URL(gs://foo/bar.jpg のような形式)の場合、画像のプレビュー表示ができます。画像のプレビューができるのは、以下のいずれかです。

  • ファイルの拡張子が JPG・JPEG・PNG・BMP・GIF・SVG(大文字・小文字の区別なし)
  • ファイルのタイプ(MIME タイプ)が image/*(例:image/jpeg・image/png など)
GCS URL を値として持つデータの例

すべて表示](❶)もしくは GCS URL のセル(❶)をクリックすると、セル内に画像がプレビュー表示されます。[すべて表示]をクリックした場合は、ページ内同列のすべてのセル内に画像がプレビュー表示されます(次ページ以降分は表示されない)。

データ編集画面がでプレビュー画像が表示されている例

プレビューが表示されたセルをクリックすると、画像が拡大表示されます。

画像が拡大表示された様子

❶部分のアイコンをクリックすると、画像ファイルを別タブに表示するか、ダウンロードができます。画像を別タブに表示するのか、ダウンロードするのかは、ファイルのタイプ(MIME タイプ)によります。

  • タイプが image/*:別タブに表示
  • タイプが image/* 以外:ダウンロード
列の編集

列の編集は、テーブルタブ(❶)でできます。

データ編集画面の列の編集メニューを表示する様子

列の編集は、各列の[列の編集](❷)をクリックし、表示されるメニューから項目を選択します。ここで行った列の編集操作は、別名で保存もしくは上書き保存するまでは、反映されません。保存するまでは、いつでも編集操作をやり直し可能です。

  • 列の名前変更

    列の名前が変更できます。

    列の名前を変更する様子

    変更後の名前(❶)を入力し、[OK]ボタン(❷)をクリックします。

  • 列の型変更

    列の型が変更できます。

    列の型を変更する様子

    変更後の型(❶)を選択し、[OK]ボタン(❷)をクリックします。

  • 列の削除

    列の削除ができます。

  • 列の複製

    列の複製ができます。

    列の複製をする様子

    複製後の列名(❶)の入力と列の挿入位置(❷)を指定し、[OK]ボタン(❸)をクリックします。

  • 列の分割

    型が STRING(文字列)の場合は、列を複数の列に分割できます。

    列を分割する様子

    文字列を分割する区切り文字(❶)を選択し、分割する列数(❷)、分割後の各列名(❸・❹)を入力し、[OK]ボタン(❻)をクリックします。デフォルトでは、分割元の列を削除しますが、残したい場合は、[元の列を削除](❺)のチェックを外します。

  • 欠損値の行削除もしくは欠損値の補完
    メニューからすべての列の欠損値を表示を選択する様子

    欠損値の編集を行うには、まず[すべての列の欠損値を表示](❶・❷)を選択します。

    列の編集メニューから欠損値の行削除や補完を選択する様子

    その後、列の編集(❶)メニューの[欠損値](❷)から[行の削除]・[任意の値で補完]・[他の列の値で補完]を選択します。

  • 値の変更
    値を変更する様子

    条件指定による値の変更ができます。

  • 月の値(1-12)に変換

    DATE 型・DATETIME 型・TIMESTAMP 型の日付データを 1 から 12 の月の値に変換ができます。変換後の型は、INTEGER 型です。

    TIMESTAMP 型の場合は、指定のタイムゾーンもしくは協定世界時(UTC)から選択して変換ができます。

  • 曜日の値(0-6)に変換

    STRING 型・DATE 型・DATETIME 型・ TIMESTAMP 型の日付データを曜日の値に変換ができます。変換後の型は、INTEGER 型です。

    TIMESTAMP 型の場合は、指定のタイムゾーンもしくは協定世界時(UTC)から選択して変換ができます。

    曜日の値 曜日
    0 日曜日
    1 月曜日
    2 火曜日
    3 水曜日
    4 木曜日
    5 金曜日
    6 土曜日

    STRING 型の場合は、年-月-日 時:分:秒 の書式が変換対象となります。

  • 行のフィルタ
    フィルタリングする様子

    各行値の条件による行の絞り込み表示ができます。

列の追加

列の追加は、テーブルタブ(❶)でできます。

テーブルの操作メニューから列の追加を選択する様子

テーブルの操作](❷)から[列の追加](❸)をクリックします。

列の追加画面

列の追加では、以下 2 種類の列の追加ができます。

  • ランダム値(FLOAT 型)
  • シーケンシャル値(INTEGER 型)
時系列データの列追加

時系列データの列追加は、テーブルタブ(❶)でできます。

テーブルの操作メニューから時系列データ用の列追加を選択する様子

テーブルの操作](❷)から[時系列データ用の列追加](❸)をクリックします。

時系列データ用の列追加画面

時系列データの列が追加できます。

列の結合

列の結合は、テーブルタブ(❶)でできます。

テーブルの操作メニューから列の結合を選択する様子

テーブルの操作](❷)から[列の結合](❸)をクリックします。

列の結合画面

複数の列を 1 つの列に結合できます。

変更手順

変更手順は、一連の編集操作を記録し、その記録を再生できる機能です。

複数のデータ間で、繰り返し行う一連の操作を記録しておけば、1 回の指示でその一連の操作を他のデータに対して適用できます。

変更手順に記録できる一連の操作は、プロジェクトごとに 20 件までです。

一連の操作を記録する様子

一連の操作の記録は、[変更手順を記録]ボタン(A)をクリックするか、データ編集を[別名で保存]ボタン(B)をクリックすると自動で記録されます。

変更手順を記録する様子

繰り返し使用する記録の場合は、[記録済み手順一覧]ボタン(❶)をクリックして表示される記録済み手順一覧から、当該記録を[名前をつけて変更手順を記録](❸)で記録する必要があります。

データ可視化

データ可視化では、さまざまな角度でデータを分析し、データの視覚化ができます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。また、可視化したデータをトレーニングデータに取り込んだりもできます。

データ可視化は、データ可視化タブ(❶)でできます。

データ可視化サンプル画面

データ可視化のおおまかな流れは以下のとおりです。

データ可視化タブを選択する様子
  1. 画面左上の[データ可視化]をクリック
グラフの種類・列・行を選択する様子
  1. グラフの種類を以下から選択
    • テーブル
    • 棒グラフ
    • 線グラフ
    • 複合グラフ
    • エリア
    • 円グラフ
    • 散布図
    • 混同行列
    • ベクトル
  2. 列を選択(列のフィールドをクリックすると選択肢が表示される)
  3. 行を選択(行のフィールドをクリックすると選択肢が表示される)
  4. 実行]ボタンをクリック

列の入力フィールドをクリックすると、選択肢をディメンションとメジャーにグループ分けして表示します。ディメンションには、項目の型が文字列や日付などの定性的数値が含まれます(データの分類や区分に利用可能)。メジャーには、項目の型が数値などの定量的な値が含まれます(集計可能)。

しばらくすると棒グラフが表示されます。

棒グラフの表示例

保存]ボタン(❶)をクリックすると、可視化結果を BigQuery のテーブルに保存できます。

相関関係

相関関係では、データ中の選択した列同士の相関係数を求めます。これにより、データの相関関係が視覚的に確認でき、トレーニングデータ各因子の要不要の判断ができます。

相関係数の算出対象となる列の型は、INTEGER・FLOAT・NUMERIC・STRING・BOOLEAN のみです。STRING 型は、文字列列挙型として扱います(数量を表すデータの場合は、あらかじめ数値型に変換してください)。BOOLEAN 型は数値に変換して変換係数を求めます。

相関係数の結果内の STRING 型の列名は、[STRING 型の列名]_[各文字列列挙値]という形式で表示されます(列名が a で、値が "foo""bar""baz" の場合は a_fooa_bara_baz)。また、文字列列挙の値が英数字以外の文字を含む場合、[各文字列列挙値]の部分は英数字のみ抽出して組み立てます。使える文字が 1 文字もない場合や重複する場合には、通し番号を付与します。

相関関係は、相関関係タブでできます。

相関関係の使い方は以下のとおりです。

相関関係タブをクリックする様子

画面左上の[相関関係](❶)をクリックします。

相関関係を算出する様子
  1. 選択]ボタンをクリック(❶)
  2. 相関係数を求める列を複数選択(❷)
  3. OK]ボタンをクリック(❸)
  4. 実行]ボタンをクリック(❹)
相関関係の結果を確認する様子

相関関係が係数の値に応じて、色つきで視覚的に表示されます。

実行]ボタン横の[ダウンロード]ボタン(❶)をクリックすると、上記の表を CSV 形式のデータでダウンロードできます。

  • 表中の -1 に置換して出力
  • 各係数は生のデータを出力(画面上の数値は小数点以下 6 桁までに補正されている)
モデル作成

モデル作成で、対応するモデルの種類は、以下のとおりです。

  • 数値回帰
  • 数値分類
  • クラスタリング

なお、以下のモデルについては、モデルジェネレーターを使用したモデルとモデルジェネレーターを使用しないモデルの 2 種類があります。

  • 数値回帰
  • 数値分類

モデル作成は、[モデル作成]タブから行えます。

モデル作成画面

マルチモーダル用のデータでモデル作成する場合は、[手動設定]のトレーニングデータ設定から画像データ列の型を[画像 URL]に設定してください。対応するモデルタイプは、数値回帰と数値分類のモデルジェネレータ版のみです。

モデルの作成について詳しくは、「DataEditor によるモデルの作成と予測」を参照願います。

時系列型の使い方

モデルジェネレーターを使用するモデル作成において、トレーニングデータ設定で時系列型を使用する場合の型別設定について解説します。

時系列型については、モデルジェネレーターヘルプ > トレーニングデータ設定の型の説明を参照願います。

トレーニングデータ設定で時系列型を設定する様子

ここでは、以下のデータを例にとります。

解説で使用するサンプルデータ図
  • 時系列型:C 列・D 列・E 列
  • 時系列の数:3
  • ソートする列:A 列
  • オフセット値:1

オフセット値は、ソートする列を基準に昇順で並び替えたデータに対して、意味を持ちます。

データを並び替える様子

最初の時系列データ(下図の赤枠部分)の最終行(赤背景の部分)が、オフセット値 0 となります。この行を基準としてオフセット値は、下に向かって 1・2…となり、上に向かって -1・-2…となります。

オフセット値の説明図

トレーニングデータは、指定されたオフセット値の行を基準に、組み立てていきます。

まず 1 行目のトレーニングデータは、オフセット値 1 が示す 4 行目のデータを基準として時系列データを組み合わせて、データを作成します。時系列データは、オフセット値に関係なく先頭行のデータから「時系列の数」分の行数が採択されます。

1 行目のトレーニングデータが作成される様子

続いて 2 行目のトレーニングデータは、オフセット値 1 が示す次の行(5 行目)のデータを基準として時系列データを組み合わせて、データを作成します。このときの時系列データは、基準行と同様に 1 行分下にずれます。

2 行目のトレーニングデータが作成される様子

3 行目も同様に、データを作成する基準行および時系列のデータを 1 行分下にずらします。

3 行目のトレーニングデータが作成される様子

この例では、これ以上データがないため、これでトレーニングデータの作成は終了です。最終的なトレーニングデータは、以下のとおりです。

作成されたトレーニングデータの全体図

このように時系列型を含むトレーニングデータは、オフセット値が示す行を基準にして、下方向に向かってデータを組み立てていきます。

最後に、オフセット値が -2 のケースも紹介しておきます。理解を深めるための参考にしてください。

1 行目のトレーニングデータは、オフセット値 -2 が示す 1 行目を基準にして、時系列データと組み合わせて作ります。

オフセット値 -2 で 1 行目のトレーニングデータが作成される様子

2 行目のデータは、先ほどの下の行を基準に、時系列データと組み合わせて作ります。時系列データも同様に下に 1 行分ずらします。

オフセット値 -2 で 2 行目のトレーニングデータが作成される様子

以降、同様に繰り返して処理することで、最終的に以下のトレーニングデータが作成されます。

オフセット値 -2 で作成されたトレーニングデータの全体図

5 行目以降は、時系列データが不足するため作成されません。

予測

予測では、DataEditor で作成したモデルやモデルジェネレーターで作成したモデル(数値分類タイプ・数値回帰タイプ)を使った予測ができます。

予測を定期的に実行したりバッチ実行したい場合は、フローデザイナーを使って予測を行います。フローデザイナーを使った予測については、「フローテンプレート作成」機能や数値分類、数値回帰のチュートリアル(数値分類の予測数値回帰の予測)を参照してください。

予測は、予測用データの編集画面から以下の手順でできます。

モデルを選択して予測する様子
  1. 予測]タブをクリック
  2. 予測に使用するモデルを選択
  3. 予測]ボタンをクリック
予測結果を確認する様子

しばらくすると、結果が表示されます。予測結果は、モデルの種類ごとに異なります。詳しくは、「DataEditorによるモデルの作成と予測」を参照願います。

テーブル結合

テーブル結合では、以下のデータとの結合ができます。

  • DataEditor 内の他のデータ
  • 気象データ
  • カレンダーデータ

テーブル結合は、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブル結合を実行する方法

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブル結合](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブル結合を実行する方法

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブル結合](❷)をクリックすることでも実行できます。

テーブル結合画面
DataEditor のデータと結合

DataEditor 内の他のデータと結合する場合は、以下の手順を踏みます。

ata Editor 内の他のデータと結合する様子

DataEditor テーブル]ボタン(❶)をクリックします。

結合するデータを選択する様子

結合するデータ(❶)をクリックします。

結合する列を選択する様子
  1. 結合方法を以下から選択
    • 内部結合(INNER JOIN)
    • 左外部結合(LEFT OUTER JOIN)
    • 右外部結合(RIGHT OUTER JOIN)
    • 和結合(UNION ALL)
  2. 結合元データから結合する列をチェック
  3. もう一方のデータから結合する列をチェック
  4. 追加]ボタンをクリック
  5. 共通行の列をクリック
  6. 共通行の列をクリック
  7. 確認]ボタンをクリック
保存先を指定する様子
  1. 名前を入力
  2. データセット ID をクリック
  3. テーブル ID を入力
  4. 結合]ボタンをクリック

結合実行中に[キャンセル]ボタンをクリックすると、結合をキャンセルできます。

結合完了画面で戻るボタンをクリックする様子

戻る]ボタン(❶)をクリックします。しばらくすると、結合されたデータがテーブル一覧に表示されます。

気象データと結合

気象データとの結合では、全国 154 か所の観測所が持つ日ごともしくは時間ごとの気象データと結合できます。

  • 結合元のデータに緯度経度の情報がある場合は、複数の観測所の気象データと結合が可能
    どの観測所と結合するかは、結合元データの緯度経度に近い観測所が選択される
  • 結合元のデータに緯度経度の情報がない場合は、1 つの観測所の気象データと結合が可能
    どの観測所と結合するかは、観測所の一覧から利用者が選択する

気象データと結合するためは、結合元データに日時(DATE 型・DATETIME 型・TIMESTAMP 型)の列が必要です。気象データは、この日時の列をキーにして結合します。

未来の日時を指定すると、予報データと結合できます。結合可能な予報データは、現在から 7 日先までです。

日時が DATE 型の場合は、日ごとの気象データとのみ結合が可能です。

気象データは有料です。DataEditor のライセンスとは別ライセンスです。利用にあたっては、DataEditor とは別に気象データのライセンスが必要です。気象データの利用にあたっては、設定画面からライセンスの見積もり依頼をしてください。

気象データを結合する手順は、以下のとおりです。

気象データ結合機能を実行する様子
  1. 気象データ]ボタンをクリック

結合元データの緯度経度の情報を元に近い観測所の気象データと結合する場合は、以下のように操作します。

結合する気象データを指定する様子(緯度経度による観測所指定)
  1. 自動検出]をクリック
    すでに選択済みの場合はそのまま
  2. 統合元データの緯度の列をクリック
  3. 統合元データの経度の列をクリック
  4. 結合元の照合させる日時の列をクリック
  5. OK]ボタンをクリック

指定した 1 つの観測所の気象データと結合する場合は、以下のように操作します。

結合する気象データを指定する様子(手動による観測所指定)
  1. 特定の観測所]をクリック
  2. 気象観測所を 1 つ選択
  3. 結合元の照合させる日時の列をクリック
  4. OK]ボタンをクリック

自動検出]の場合も[特定の観測所]の場合も以降の操作は同じです。以下の手順で操作を進めます。

結合する列を選択する様子
  1. 結合方法を以下から選択
    • 内部結合(INNER JOIN)
    • 左外部結合(LEFT OUTER JOIN)
    • 右外部結合(RIGHT OUTER JOIN)
    • 和結合(UNION ALL)
  2. 結合元データから結合する列をチェック
  3. 気象データから結合する列をチェック
  4. 確認]ボタンをクリック
保存先を指定する様子
  1. 名前を入力
  2. データセット ID をクリック
  3. テーブル ID を入力
  4. 結合]ボタンをクリック

結合実行中に[キャンセル]ボタンをクリックすると、結合をキャンセルできます。

結合完了画面で OK ボタンをクリックする様子
  1. 戻る]ボタンをクリック

しばらくすると、結合されたデータがテーブル一覧に表示されます。

カレンダーデータと結合

カレンダーデータとの結合では、DataEditor の既存テーブルと日付・曜日・国民の祝日・銀行の休日などのカレンダーデータと結合ができます。

カレンダーデータと結合するには、結合元データに DATE 型の日付の列が必要です。カレンダーデータは、この日付の列をキーにして結合します。

カレンダーデータを結合する手順は、以下のとおりです。

[カレンダーデータ]ボタンをクリックする様子
  1. カレンダーデータ]ボタンをクリック
カレンダーデータを結合する内容を設定する様子
  1. 結合方法を以下から選択
    • 内部結合(INNER JOIN)
    • 左外部結合(LEFT OUTER JOIN)
    • 右外部結合(RIGHT OUTER JOIN)
    • 和結合(UNION ALL)
  2. 結合元データからカレンダーデータと共通する列をチェック
  3. カレンダーデータから結合元データと共通する列をチェック
  4. 結合元データから共通行の列をクリック
  5. カレンダーデータから共通行の列をクリック
  6. 確認]ボタンをクリック
結合結果の保存先を設定する様子
  1. 結合結果に付ける名前を指定
  2. 結合結果の保存先となるデータセット ID を指定
  3. 結合結果の保存先となるテーブル ID を指定
  4. 結合]ボタンをクリック

結合実行中に[キャンセル]ボタンをクリックすると、結合をキャンセルできます。

結合結果の保存先を設定する様子

戻る]ボタンをクリックすると完了です。結合されたデータがテーブル一覧に表示されます。

テーブル分割

テーブル分割では、データを 2 つに分割できます。分割は、指定した比率で分割する方法(データの内容はランダムに振り分けられる)と、データ内各列の値の範囲条件で分割する方法があります。

テーブル分割画面例

テーブル分割は、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブル分割を実行する様子

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブル分割](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブル分割を実行する様子

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブル分割](❷)をクリックすることでも実行できます。

分割実行中に、画面中央に表示される[キャンセル]をクリックすると、分割をキャンセルできます。

テーブルエクスポート

テーブルエクスポートでは、データの内容を GCS 上に CSV 形式もしくは JSON 形式のテキストファイルとして書き出すか、BigQuery のテーブルとして書き出すことができます。

エクスポート画面例

エクスポート先が GCS の場合は、エクスポートの完了画面に、ファイルのダウンロードリンクが表示されます。

エクスポート完了画面例

このリンク(❶)をマウスの右ボタンでクリックし、表示されるメニューから[名前を付けてリンク先を保存]をクリックすると、PC にファイルがダウンロードできます。

テーブルエクスポートは、ホーム画面からとデータ編集画面のテーブルタブから実行できます。

ホーム画面からテーブルエクスポートを実行する様子

ひとつは、ホーム画面の (❶)をクリックして表示されるメニューから[テーブルエクスポート](❷)をクリックして実行します。

データ編集画面のテーブルタブからテーブルエクスポートを実行する様子

もうひとつは、データ編集画面のテーブルタブ内の[テーブルの操作](❶)をクリックして表示されるメニューから[テーブルエクスポート](❷)をクリックすることでも実行できます。

スキーマ情報のコピー

DataEditor ホーム画面の[データ]タブの画面から、データの BigQuery 用のスキーマ情報(JSON 形式)をクリップボードにコピーできます。このデータは、フローデザイナーの BigQuery カテゴリーブロックの[スキーマ設定]プロパティで利用できます。

スキーマ情報をコピーする様子

データ一覧の (❶)をクリックして表示されるメニューから、[スキーマ情報をコピー](❷)をクリックすると、当該データのスキーマ情報のコピーができます。

削除

DataEditor ホーム画面の[データ]タブの画面から、データの削除ができます。

データを削除する様子

データ一覧の (❶)をクリックして表示されるメニューから、[削除](❷)をクリックすると、当該データの削除ができます。

モデル一覧

DataEditor ホーム画面の[モデル]タブの画面では、DataEditor で作成したモデルの一覧が確認できます。この画面では、以下のことができます。

  • モデル内容の詳細確認
  • モデルの削除
  • モデル名の変更
モデル一覧を確認する様子

モデル名(❶)をクリックすると、当該モデルの詳細が確認できます。

モデル詳細の確認とモデルを削除する様子

削除]ボタン(❶)をクリックすると、当該モデルの削除ができます。

モデル名を変更する様子

モデル一覧の (❶)をクリックして表示されるメニューから、[名前を変更](❷)をクリックすると、当該モデルの名前の変更ができます。

設定

DataEditor ホーム画面の[設定]タブの画面から、DataEditor のライセンス内容が確認できます。また、DataEditor の追加ライセンスや、オプションライセンスの見積もり依頼ができます。

設定画面でライセンスを確認する様子