ブロックリファレンス

Block Reference

機械学習

Cloud Speech API

このブロックは、Google Cloud Speech API を使用して、音声をテキストに変換します。

「基本操作ガイド > ヒント > Cloud Speech API ブロック(音声認識)の使い方」で、Cloud Speech API ブロックの使い方を解説しています。

warning セルフサービスプランの場合:
このブロックの使用にあたっては、Google Cloud Speech API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

Google から Google Cloud Speech API を効果的に使用するためのガイドライン "Best Practices" が公開されています。このブロックを使用する前に、一読されることをお薦めします。

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント このブロックで使用する GCP サービスアカウントを選択します。
音声データのGCS上のURL 音声データファイルが格納されている GCS 上の URL を指定します。
音声データのエンコーディング

「音声データのGCS上のURL」プロパティで指定した音声データのエンコーディングを指定します。指定できるエンコーディングは、次のいずれかです。

  • LINEAR16
  • FLAC
  • MULAW
  • AMR
  • AMR_WB

音声認識で最良の結果を得るエンコーディングとして、FLAC か LINEAR16 の使用が推奨されています。詳しくは、基本操作ガイドの「Google Cloud Speech API の音声データのエンコーディングについて」を参照してください。各エンコーディングの説明と音声データの変換について解説しています。

音声データのサンプルレート

「音声データのGCS上のURL」プロパティで指定した音声データのサンプルレートを 8000 から 48000 の間で指定します。単位は、ヘルツ(Hz)です。

最良の結果を得るための最適な値は、16000Hz です。

音声データの言語コード

「音声データのGCS上のURL」プロパティで指定した音声データの言語コードを指定します。例えば、日本語の場合は、「ja-JP」を指定します。

指定可能な言語コードのリストは、Language Support で確認できます。

結果を格納する変数

音声を変換したテキストデータを格納する変数を指定します。

詳細については、「出力仕様 > Cloud Speech API」を参照してください。

ブロックメモ ブロックに対するコメントを指定します。
最大変換候補数

音声データをテキストデータに変換する際、複数の変換候補を得ることができます。この「最大変換候補数」プロパティでは、この変換候補の最大数を 0 から 30 の間で指定します。

0 か 1 を指定した場合、最大で 1 の変換候補補が得られます。

不適切な表現を取り除く このプロパティを有効化すると、不適切な表現と思われるものを取り除きます。
音声認識のヒントとなる単語やフレーズ 音声認識の精度を高めるための単語やフレーズを指定します。