ブロックリファレンス

BLOCKS Reference

文書(限定公開)

単語のベクトル化(word2vec)

このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

概要

このブロックは、文書内の単語を word2vec 方式でベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します(「単語に分割」ブロックで文書を単語列に変換可能)。

対応する言語は、日本語と英語のみです。

単語のブロック化(word2vec)ブロックの概要図
  • 「ベクトル化対象 BigQuery テーブル」には、文書を特定するキーを持つ key 列と文書の単語列を持つ words 列(STRING 型の REPEATED モード)が必要です。

    単語に分割」ブロックと「Janome で日本語を単語に分割」ブロックの出力は指定可能です。

  • 「結果出力先 BigQuery テーブル」は、word 列と vector 列(FLOAT 型の REPEATED モード)で構成されます。

    • word 列:単語です。
    • vector 列:単語のベクトル値です。

出力結果のベクトル値は、ログに出力される URL をクリックすることで、下図のように視覚的な確認ができます(画面は別タブに表示されます)。

出力結果を視覚的に確認している様子

出力結果のベクトル値を視覚的に確認する機能は、単語数が 10,000 以下でないと利用できません。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
ベクトル化対象 BigQuery データセット

ベクトル化対象 BigQuery テーブル」プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
ベクトル化対象 BigQuery テーブル

ベクトル化したい文書(単語列)が格納されている BigQuery テーブルの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル」プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery テーブル

単語ごとのベクトル値を出力する BigQuery テーブルの ID を指定します。

空でないテーブルが存在する場合は、空にして上書きします。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
一時フォルダー GCS URL

このブロックの内部処理で一時的に使用する GCS 上のフォルダーへの GCS URL(gs://my-bucket/my-folder/ のような形式、ただし gs:// は入力不要)を指定します。

この GCS URL は、GCS Explorer のパスをコピー機能を使うと、簡単に取得できます。

内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。

「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。

この情報は役に立ちましたか?