ブロックリファレンス

BLOCKS Reference

文書(限定公開)

文書間のコサイン類似度を計算

このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

概要

このブロックは、文書間のコサイン類似度を計算します。ここで言う文書とは、[文書のベクトル化(TF-IDF)]ブロックや[文書のベクトル化(doc2vec)]ブロックで、ベクトル化されたデータを指します。

単語のベクトル化(word2vec)」ブロックでベクトル化されたデータもカラム名を変更することで、このブロックで単語間のコサイン類似度が計算できます。

対応する言語は、日本語と英語のみです。

文書間のコサイン類似度を計算ブロックの概要図
  • 「類似度の計算対象 BigQuery テーブル」には、文書を特定するキーを持つ key 列と文書のベクトルデータを持つ vector 列が必要です。

    「単語のベクトル化(word2vec)」ブロックの出力を指定する場合は、事前に word 列を key 列に名称変更してください。

    下図は「クエリーの実行」ブロックで、word 列を key 列に名称変更して、「文書間のコサイン類似度を計算」ブロックを利用する一例です。

    単語のベクトル化(word2vec)ブロックと文書間のコサイン類似度を計算ブロックの利用例

    上図の「単語のベクトル化(word2vec)」ブロックの結果出力先 BigQuery のデータセットとテーブルは、それぞれ tutorialtext_wotd2vec の想定です。

  • 「結果出力先 BigQuery テーブル」は、key1 列・key2 列・similarity 列で構成されます。

    • key1key2 列:各文書へのキーです。
    • similarity 列:key1key2 が示す文書間の類似度です。
    • 文書内の組合せや同一キーの組み合せは類似度の算出対象外です。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名

編集パネルに配置した当該ブロックの表示名が変更できます。

ブロックリストパネル中のブロック名は変更されません。

GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
類似度の計算対象 BigQuery データセット

類似度の計算対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
類似度の計算対象 BigQuery テーブル

文書間の類似度を計算したい文書(ベクトルデータ)が格納されている BigQuery テーブルの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery テーブル

文書間のコサイン類似度を出力する BigQuery テーブルの ID を指定します。

空でないテーブルが存在する場合は、空にして上書きします。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
類似度の計算対象 BigQuery データセット(CROSS JOIN するテーブルのデータセット)

類似度の計算対象 BigQuery テーブル(CROSS JOIN するテーブル)]のデータセットの ID を指定します。

2 つのテーブルに格納されたベクトルデータ同士を CROSS JOIN して類似度計算をする場合に使用します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
類似度の計算対象 BigQuery テーブル(CROSS JOIN するテーブル)

文書間の類似度を計算したい文書(ベクトルデータ)が格納されている BigQuery テーブルの ID を指定します。

2 つのテーブルに格納されたベクトルデータ同士を CROSS JOIN して類似度計算をする場合に使用します。

このテーブルが指定された場合は、[類似度の計算対象 BigQuery テーブル]の文書との組合せの類似度のみ算出します(下図参照)。

2 つのテーブル間のコサイン類似度の算出例

類似度の計算対象 BigQuery テーブル]の文書内の組合せ、このテーブルの文書内の組合せや同一キーの組み合せは算出対象外です(下図は同一キーが除外されている例)。

2 つのテーブル間のコサイン類似度の算出例(同一キー除外)
変数展開の指定が可能][% 形式の文字列書式の指定が可能]
ブロックメモ このブロックに関するメモが記載できます。このブロックの処理に影響しません。

この情報は役に立ちましたか?