ブロックリファレンス

BLOCKS Reference

文書(限定公開)

単語のベクトル化(word2vec)

概要

このブロックは、文書内の単語を word2vec 方式でベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します([単語に分割]ブロックで文書を単語列に変換可能)。

対応する言語は、日本語と英語のみです。

単語のブロック化(word2vec)ブロックの概要図
  • 「ベクトル化対象 BigQuery テーブル」には、文書を特定するキーを持つ key 列と文書の単語列を持つ words 列(STRING 型の REPEATED モード)が必要です。

    [単語に分割]ブロック[Janome で日本語を単語に分割(アルファ版)]ブロックの出力は指定可能です。

  • 「結果出力先 BigQuery テーブル」は、word 列と vector 列(FLOAT 型の REPEATED モード)で構成されます。

    • word 列:単語です。
    • vector 列:単語のベクトル値です。

出力結果のベクトル値は、ログに出力される URL をクリックすることで、下図のように視覚的な確認ができます(画面は別タブに表示されます)。

出力結果を視覚的に確認している様子

出力結果のベクトル値を視覚的に確認する機能は、単語数が 10,000 以下でないと利用できません。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

文書カテゴリーのブロックはすべて限定公開です。文書カテゴリー各ブロックの利用を希望される場合は、「お問い合わせ」ページより問い合わせ願います。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
ベクトル化対象 BigQuery データセット

ベクトル化対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

ベクトル化対象 BigQuery テーブル

ベクトル化したい文書(単語列)が格納されている BigQuery テーブルの ID を指定します。

結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

結果出力先 BigQuery テーブル

単語ごとのベクトル値を出力する BigQuery テーブルの ID を指定します。

空でないテーブルが存在する場合は、空にして上書きします。

一時フォルダー GCS URL

このブロックの内部処理で一時的に使用する GCS 上のフォルダーを指定します。

内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

ブロックメモ ブロックに対するコメントを指定します。