ブロックリファレンス

BLOCKS Reference

文書(限定公開)

文書のクラスタリング(k 平均法)

このカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKS のお問い合わせ機能からライセンス購入申請をお願いします。

概要

このブロックは、k 平均法(k-means) 方式を使って、複数の文書を類似する特徴で自動的にグルーピングします。

ここで言う文書とは、[文書のベクトル化(TF-IDF)]ブロックや[文書のベクトル化(doc2vec)]ブロックで、ベクトル化されたデータを指します。

このブロックを使うことで、テキストマイニング における文書分類が容易になります。

文書のクラスタリング(k 平均法)ブロックの概要図
  • 「クラスタリング対象 BigQuery テーブル」には、文書を一意に特定するキーを持つ列と文書のベクトル値を持つ列が必要で、以下の列名を期待しています。
    列名 説明
    key 文書を一意に特定するキーを持つ列
    vector 文書のベクトル値を持つ列

    上記と異なる列名でも問題ありません。その場合は、「クラスタリング対象 BigQuery テーブル」内のどの列がどの役割かを別途指定する必要があります(「キーの列名」プロパティと「ベクトルの列名」プロパティ)。

  • 「結果出力先 BigQuery テーブル」は、key 列と label 列で構成されます。

    列名 説明
    key 各文書を一意に特定するキーです。
    label key が示す文書のクラスタリング結果のラベルです。

セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Dataflow API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCP サービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
クラスタリング対象 BigQuery データセット

クラスタリング対象 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「クラスタリング対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
クラスタリング対象 BigQuery テーブル

クラスタリングしたい文書(ベクトルデータ)が格納されている BigQuery テーブルの ID を指定します。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery データセット

結果出力先 BigQuery テーブル]プロパティで指定する BigQuery テーブルが属する BigQuery データセットの ID を指定します。

「クラスタリング対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
結果出力先 BigQuery テーブル

文書のクラスタリング結果のラベルを出力する BigQuery テーブルの ID を指定します。

空でないテーブルが存在する場合は、空にして上書きします。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
一時フォルダー GCS URL

このブロックの内部処理で一時的に使用する GCS 上のフォルダーを指定します。

内部処理中に、このフォルダーに一時的なファイルが作成されますが、処理終了後は削除されます。

「クラスタリング対象 BigQuery データセット」・「結果出力先 BigQuery データセット」・「一時フォルダー GCS URL」のロケーションは合わせる必要があります。BigQuery のデータセットが US マルチリージョンの場合は、この限りではありません。

変数展開の指定が可能][% 形式の文字列書式の指定が可能]
ブロックメモ ブロックに対するコメントを指定します。
キーの列名

クラスタリング対象 BigQuery テーブル]で各文書を一意に識別する値が格納された列名を指定します(初期値:key)。

ベクトルの列名

クラスタリング対象 BigQuery テーブル]で文書のベクトル値が格納された列名を指定します(初期値:vector)。

この情報は役に立ちましたか?