ブロックリファレンス

Block Reference

BigQuery

GCSから複数テーブルへロード

GCS 上のファイル群から、BigQuery の複数テーブルに並列にデータを投入します。

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
投入データのファイル群GCS URL

投入データの GCS 上のファイル URL("gs://バケット名/オブジェクト名-*.csv" のような URL)を指定します。URL 中の *(アスタリスク)の部分を長さ 0 文字以上の任意の文字列として、それに合致するファイル名のファイルをすべて読み込みます。

[% 形式の文字列書式指定可能] [変数展開指定可能]

投入先のデータセット

投入先テーブルのデータセット IDを指定します。

[% 形式の文字列書式指定可能] [変数展開指定可能]

投入先のテーブル

投入先テーブルのテーブル ID のプリフィックスを指定します。

テーブル ID は、「投入データのファイル群GCS URL」 プロパティで指定された URL に合致したファイル名(拡張子を除く)を元に作成します。このとき、ここで指定されたプリフィックスが先頭に追加されます。

[% 形式の文字列書式指定可能] [変数展開指定可能]

スキーマ設定

投入先テーブルのスキーマを指定します。

複数テーブルすべてが同一のスキーマとなります。この場合、投入データすべてのスキーマも同一でなければなりません。スキーマが異なる場合は、エラーとなります。

JSON 形式のファイルから読み込む場合は、省略可能です。

※[JSONで編集] リンクをクリックすると、JSON 形式の文字列を直接指定できます。

空でないテーブルが存在したとき

投入先となるBigQueryテーブルが存在したときの動作を選択します。

  • 追加: データを追加で読み込みます。
  • 上書き: テーブルを空にしてから読み込みます。
  • エラー: テーブルが空でなければ失敗となります。
ブロックメモ ブロックに対するコメントを指定します。
エラー時の繰り返し回数 BigQuery のエラーやタイムアウト時の繰り返し回数を指定します。
最小タイムアウト時間 BigQuery からの応答を待つ時間(タイムアウト)を秒単位で指定します。繰り返し回数ごとに 2 倍に増えます。繰り返し回数ごとに増える時間の最大値は、「最大タイムアウト時間」プロパティで指定します。
最大タイムアウト時間 「最小タイムアウト時間」から繰り返し回数ごとに増やすタイムアウトの最大時間を秒単位で指定します。
ファイル形式

GCS上のファイルの形式を選択します。選択できるフォーマットは次のいずれかです。

  • CSV
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
CSVの区切り文字

「ファイル形式」が CSV の場合の区切り文字を選択もしくは指定します。選択できる区切り文字は以下のいずれかです。

  • カンマ
  • タブ
  • パイプ
  • その他

「その他」を選択した場合は、「その他」の横にある入力フィールドに、区切り文字を指定してください。

読み飛ばし行数 「ファイル形式」が CSV の場合、先頭何行を読み飛ばすかの行数を指定します。
フィールド数が足りない行を許容する 「ファイル形式」が CSV の場合、フィールド数が足りない行を許容するかしないかを選択します。
クオート記号を指定 「ファイル形式」が CSV の場合のクオート記号を指定します。
クオートされた文字列に改行を含む 「ファイル形式」が CSV の場合、クオートされた文字列に改行が含まれることを許容するかしないかを指定します。
不正な行の許容数 不正なレコードの許容数を指定します。このレコード数を超える不正なレコードがあると読み込み失敗となります。
余分なフィールドを無視する 余分なフィールドを無視するかしないかを指定します。
ファイルの存在チェックURL

ファイルの読み込みを始める前に、ファイルの存在チェックをするURLを指定します。省略された場合は、ファイルの存在チェックは行いません。

[% 形式の文字列書式指定可能] [変数展開指定可能]

チェック回数 ファイル存在チェックの最大試行回数を指定します。
チェック間隔 ファイルの存在チェックで、ファイルが存在しないときに、再度ファイルの存在チェックを繰り返すまでの時間を秒単位で指定します。