ブロックリファレンス

BLOCKS Reference

文書(限定公開)

単語に分割

概要

このブロックは、BigQuery テーブルに格納された文書を解析し、指定された品詞の種類に応じて単語列に分割します。単語列は、「結果出力先 BigQuery テーブル」の words 列(STRING 型の REPEATED モード)に出力します。

対応する言語は、日本語と英語のみです。

単語に分割ブロックの概要図
  • 「結果出力先 BigQuery テーブル」は、keywordslanguage の 3 列で構成されます。

    • key 列:各文書を特定するユニークなキーです。
    • words 列:文書を解析し分割された単語が列挙されます(STRING 型の REPEATED モード)。
    • language 列:文書の言語種別を示す列です。「単語分割の対象 BigQuery テーブル」の language 列をそのまま使用します。「単語分割の対象 BigQuery テーブル」に language 列がなければ、この列は作られません。

      単語に分割ブロックの概要図(language 列なし版)
  • 「単語分割の対象 BigQuery テーブル」に language 列がない場合は、文書に日本語が含まれていれば日本語文書として解析します。文書に日本語がひとつも含まれていない場合は、英語文書として解析します。
  • 「結果出力先 BigQuery テーブル」は、存在しなくても良いです。この場合は、指定されたテーブル名でテーブルを自動作成します。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

文書カテゴリーのブロックはすべて限定公開です。文書カテゴリー各ブロックの利用を希望される場合は、「お問い合わせ」ページより問い合わせ願います。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
単語分割の対象 BigQuery データセット

単語分割の対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

単語分割の対象 BigQuery テーブル

単語分割したい文書が格納されている BigQuery テーブルの ID を指定します。

結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

結果出力先 BigQuery テーブル

単語を出力する BigQuery テーブルの ID を指定します。

単語は、この BigQuery テーブルの words 列に出力します。

一時フォルダー GCS URL

このブロックの処理で一時的に使用する GCS 上のフォルダーを GCS URL で指定します。

キーの列名

単語分割の対象 BigQuery テーブル]プロパティで指定した BigQuery テーブルにおいて、文書を特定するキー列の名前を指定します。

文書の列名

単語分割の対象 BigQuery テーブル]プロパティで指定した BigQuery テーブルにおいて、文書が格納されている列の名前を指定します。

品詞の種類

分割対象となる単語の品詞を指定します。

選択可能な品詞の種類は、以下のとおりです。

  • 名詞:名詞のみ
  • 名詞・動詞:名詞と動詞
  • 名詞・動詞・形容詞:名詞と動詞と形容詞
ブロックメモ ブロックに対するコメントを指定します。