ブロックリファレンス

BLOCKS Reference

文書(限定公開)

文書のベクトル化(doc2vec)

このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

概要

このブロックは、doc2vec方式で文書をベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します([単語に分割]ブロックで文書を単語列に変換可能)。

対応する言語は、日本語と英語のみです。

文書のベクトル化(doc2vec)ブロックの概要図
  • 「ベクトル化対象BigQueryテーブル」には、文書を特定するキーを持つkey列と文書の単語列を持つwords列(STRING型のREPEATEDモード)が必要です。

    [単語に分割]ブロック[Janomeで日本語を単語に分割]ブロックの出力は指定可能です。

  • 「結果出力先BigQueryテーブル」は、key列とvector列(FLOAT型のREPEATEDモード)で構成されます。

    • key列:各文書へのキーです。
    • vector列:keyが示す文書のベクトル値です。

出力結果のベクトル値は、ログに出力されるURLをクリックすることで、下図のように視覚的な確認ができます(画面は別タブに表示されます)。

出力結果を視覚的に確認している様子

warningセルフサービスプランの場合は、このブロックを使用する前に、Dataflow APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント> Google APIを有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント このブロックで使用するGCPサービスアカウントを選択します。
ベクトル化対象BigQueryデータセット

ベクトル化対象BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。

変数展開の指定が可能][%形式の文字列書式の指定が可能]
ベクトル化対象BigQueryテーブル

ベクトル化したい文書(単語列)が格納されているBigQueryテーブルのIDを指定します。

変数展開の指定が可能][%形式の文字列書式の指定が可能]
結果出力先BigQueryデータセット

結果出力先BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。

変数展開の指定が可能][%形式の文字列書式の指定が可能]
結果出力先BigQueryテーブル

文書ごとのベクトル値を出力するBigQueryテーブルのIDを指定します。

空でないテーブルが存在する場合は、空にして上書きします。

変数展開の指定が可能][%形式の文字列書式の指定が可能]
ブロックメモ ブロックに対するコメントを指定します。

この情報は役に立ちましたか?