ブロックリファレンス

BLOCKS Reference

BigQuery

GCS 上の Excel からテーブルへロード【アルファ版】

概要

このブロックは、指定された Google Cloud Storage(GCS)上の Excel ファイルのワークシートを BigQuery のテーブルへロードします。

GCS 上の Excel からテーブルへロードブロックの概念図
(図をクリックすると拡大表示されます。)

このブロックの利用にあたっては、以下の留意事項があります。

  • 複数ファイルおよび複数ワークシートのロードには対応していません。
  • 対応する Excel ファイルは、拡張子が .xls もしくは .xlsx のみです。
  • スキーマ設定をデータから自動生成する場合は、数値列のデータ型はすべて FLOAT 型として扱われます。

セルフサービスプランの場合は、このブロックを使用する前に、Cloud Functions API を有効にしてください。また、利用する GCP サービスアカウントのロールに、「Cloud Functions 開発者」が付与されている必要があります。

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント

このブロックで扱う GCS と BigQuery にアクセス権がある GCP サービスアカウントを選択します。

この GCP サービスアカウントには、少なくとも GCS からの読み取りの権限と、BigQuery への書き込み権限が必要です。

投入する Excel ファイルの GCS URL

テーブルへロードする対象の Excel ファイルの GCS URL(gs://my-bucket/foo/bar.xlsx のような URL)を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
投入する対象のワークシート名

テーブルへロードする対象の Excel ファイル内のワークシートの名前を指定します。

投入先のデータセット

ロード先テーブルのデータセットを指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
投入先のテーブル

ロード先テーブルを指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
スキーマ設定をデータから自動生成する

スキーマを自動生成する場合は、チェックボックスにチェックを付けます。

自動生成を有効にした場合は、[読み飛ばし行数]プロパティに 1 が指定されたものとして扱います。ただし、[読み飛ばし行数]プロパティに値を直接指定した場合は、その値が使用されます。

ヘッダー行の列名がカラム名として不正な値だった場合は、「field_0」・「field_1」といった列名が割り当てられます。

スキーマの指定が複数ある場合は、以下の優先順位でスキーマが決定します。

  1. スキーマ設定をデータから自動生成するプロパティ
  2. スキーマ設定プロパティ
スキーマ設定

投入先テーブルのスキーマを指定します。

※[JSON で編集]リンクをクリックすると、JSON 形式の文字列を直接指定できます。

画面上には表示されませんが、description キーが自動で追加されます。JSON で編集の場合は、description キーは表示され編集も可能です。

スキーマの指定が複数ある場合は、以下の優先順位でスキーマが決定します。

  1. スキーマ設定をデータから自動生成するプロパティ
  2. スキーマ設定プロパティ

info_outline 使い方は、基本操作ガイドの「スキーマ設定プロパティの使い方」を参照願います。

空でないテーブルが存在したとき

投入先のテーブルが存在したときの動作を選択します。

  • 追加: データを追加で読み込みます。
  • 上書き: テーブルを空にしてから読み込みます。
  • エラー: テーブルが空でなければ失敗となります。
ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。
読み飛ばし行数

対象データの先頭何行を読み飛ばすかの行数を指定します。

スキーマ自動生成の場合は、読み飛ばした行の最後の行がカラム名になります。

以下の対象データに対して、スキーマ自動生成をオン・読み飛ばし行数を 2 とした場合は、2 行目の「product_cd」・「unit_price」・「unit_cost」がカラム名となります。

     
product_cd unit_price unit_cost
P040101001 198.0 149.0
P040101002 218.0 164.0
P040101003 230.0 173.0
P040101004 248.0 186.0
P040101005 268.0 201.0

上記サンプルは、「データサイエンティスト協会スキル定義委員」の「データサイエンス 100 本ノック(構造化データ加工編)」のデータを利用してます。

開始セル(A1 形式)

BigQuery のテーブルにロードするデータの位置を A1 表記法で指定します。空欄の場合は、A1 が指定されたものと見なされます。

以下のような範囲指定も可能です。この場合は、指定した範囲のデータをロードします。

  • A1:B2
  • A:A
  • 1:2
  • A5:A
メモリ上限

Excel ファイル内のワークシートを読み込んで、BigQuery テーブルへロードする際に使用するメモリーの上限を指定します。

メモリ上限の適切値は、Excel ファイルのワークシートのデータ容量によります。メモリー不足でロードに失敗する場合は、メモリー上限を少しずつ上げて試してください。

  • 256 MB
  • 512 MB
  • 1 GB
  • 2 GB
  • 4 GB
  • 8 GB

この情報は役に立ちましたか?