文書(限定公開)
単語のベクトル化(word2vec)
notifications このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。
概要
このブロックは、文書内の単語を word2vec 方式でベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します(「単語に分割」ブロックで文書を単語列に変換可能)。
対応する言語は、日本語と英語のみです。

- 「ベクトル化対象 BigQuery テーブル」には、文書を特定するキーを持つ key 列と文書の単語列を持つ words 列(STRING 型の REPEATED モード)が必要です。
info_outline「単語に分割」ブロックと「Janome で日本語を単語に分割」ブロックの出力は指定可能です。
-
「結果出力先 BigQuery テーブル」は、word 列と vector 列(FLOAT 型の REPEATED モード)で構成されます。
- word 列:単語です。
- vector 列:単語のベクトル値です。
出力結果のベクトル値は、ログに出力される URL をクリックすることで、下図のように視覚的な確認ができます(画面は別タブに表示されます)。

info_outline 出力結果のベクトル値を視覚的に確認する機能は、単語数が 10,000 以下でないと利用できません。
warning セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。
プロパティ
プロパティ名 | 説明 |
---|---|
ブロック名 |
編集パネルに配置した当該ブロックの表示名が変更できます。 ブロックリストパネル中のブロック名は変更されません。 |
GCP サービスアカウント | このブロックで使用する GCP サービスアカウントを選択します。 |
ベクトル化対象 BigQuery データセット |
「ベクトル化対象 BigQuery テーブル」プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。 warning「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
ベクトル化対象 BigQuery テーブル |
ベクトル化したい文書(単語列)が格納されている BigQuery テーブルの ID を指定します。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
結果出力先 BigQuery データセット |
「結果出力先 BigQuery テーブル」プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。 warning「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
結果出力先 BigQuery テーブル |
単語ごとのベクトル値を出力する BigQuery テーブルの ID を指定します。 空でないテーブルが存在する場合は、空にして上書きします。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
一時フォルダー GCS URL |
このブロックの内部処理で一時的に使用する GCS 上のフォルダーへの GCS URL(gs://my-bucket/my-folder/ のような形式、ただし gs:// は入力不要)を指定します。 この GCS URL は、GCS Explorer のパスをコピー機能を使うと、簡単に取得できます。 内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。 warning「単語の分割対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
ブロックメモ | このブロックに関するメモが記載できます。このブロックの処理に影響しません。 |