ブロックリファレンス

BLOCKS Reference

文書(限定公開)

単語に分割

このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

概要

このブロックは、BigQuery テーブルに格納された文書を解析し、指定された品詞の種類に応じて単語列に分割します。単語列は、「結果出力先 BigQuery テーブル」の words 列(STRING 型の REPEATED モード)に出力します。

対応する言語は、日本語と英語のみです。

単語に分割ブロックの概要図
  • 「結果出力先 BigQuery テーブル」は、keywordslanguage の 3 列で構成されます。

    key 列 各文書を特定するユニークなキーです。
    words 列 文書を解析し分割された単語が列挙されます(STRING 型の REPEATED モード)。
    language 列

    文書の言語種別を示す列です。「単語分割の対象 BigQuery テーブル」の language 列をそのまま使用します。「単語分割の対象 BigQuery テーブル」に language 列がなければ、この列は作られません。

    単語に分割ブロックの概要図(language 列なし版)
  • 「単語分割の対象 BigQuery テーブル」に language 列がない場合は、文書に日本語が含まれていれば日本語文書として解析します。文書に日本語がひとつも含まれていない場合は、英語文書として解析します。
  • 「結果出力先 BigQuery テーブル」は、存在しなくても良いです。この場合は、指定されたテーブル名でテーブルを自動作成します。

本ブロックの結果出力は、以下各ブロックの入力として使えます。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
単語の分割対象 BigQuery データセット

単語の分割対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
単語の分割対象 BigQuery テーブル

単語分割したい文書が格納されている BigQuery テーブルの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery テーブル

単語を出力する BigQuery テーブルの ID を指定します。

単語は、この BigQuery テーブルの words 列に出力します。空でないテーブルが存在する場合は、空にして上書きします。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
一時フォルダー GCS URL

このブロックの内部処理で一時的に使用する GCS 上のフォルダーを指定します。

内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
キーの列名

単語分割の対象 BigQuery テーブル]プロパティで指定した BigQuery テーブルにおいて、文書を特定するキー列の名前を指定します。

文書の列名

単語分割の対象 BigQuery テーブル]プロパティで指定した BigQuery テーブルにおいて、文書が格納されている列の名前を指定します。

品詞の種類

分割対象となる単語の品詞を指定します。

選択可能な品詞の種類は、以下のとおりです。

  • 名詞:名詞のみ
  • 名詞・動詞:名詞と動詞
  • 名詞・動詞・形容詞:名詞と動詞と形容詞
ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。

この情報は役に立ちましたか?