ブロックリファレンス

BLOCKS Reference

文書(限定公開)

文書のベクトル化(doc2vec)

概要

このブロックは、doc2vec 方式で文書をベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します([単語に分割]ブロックで文書を単語列に変換可能)。

対応する言語は、日本語と英語のみです。

文書のベクトル化(doc2vec)ブロックの概要図
  • 「ベクトル化対象 BigQuery テーブル」には、文書を特定するキーを持つ key 列と文書の単語列を持つ words 列(STRING 型の REPEATED モード)が必要です。
  • 「結果出力先 BigQuery テーブル」は、key 列と vector 列(FLOAT 型の REPEATED モード)で構成されます。

    • key 列:各文書へのキーです。
    • vector 列:key が示す文書のベクトル値です。

出力結果のベクトル値は、ログに出力される URL をクリックすることで、下図のように視覚的な確認ができます(画面は別タブに表示されます)。

出力結果を視覚的に確認している様子

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

文書カテゴリーのブロックはすべて限定公開です。文書カテゴリー各ブロックの利用を希望される場合は、「お問い合わせ」ページより問い合わせ願います。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
ベクトル化対象 BigQuery データセット

ベクトル化対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

ベクトル化対象 BigQuery テーブル

ベクトル化したい文書(単語列)が格納されている BigQuery テーブルの ID を指定します。

結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

結果出力先 BigQuery テーブル

文書ごとのベクトル値を出力する BigQuery テーブルの ID を指定します。

ブロックメモ ブロックに対するコメントを指定します。