ブロックリファレンス

Block Reference

機械学習

Cloud Speech API

このブロックは、Google Cloud Speech API を使用して、音声をテキストに変換します。

このブロックはベータ版です。正式版リリース後、本ブロックは利用できなくなります。ご注意ください。
※正式版リリース後は、正式版のブロックをご利用ください。

また、ベータ版での提供となるため、一部の機能が正常に動作しない可能性があります。機能改善や不具合などのフィードバックは、フォーラムやお問い合わせで情報提供をお願いします。フィードバックの内容は MAGELLAN BLOCKS の品質向上のために利用いたします。

このブロックの使用にあたっては、Google Cloud Speech API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。

Google から Google Cloud Speech API を効果的に使用するためのガイドライン "Best Practices" が公開されています。このブロックを使用する前に、一読されることをお薦めします。

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント このブロックで使用する GCP サービスアカウントを選択します。選択する GCP サービスアカウントは、「ボード設定」の「GCPサービスアカウント」で設定します。
音声データのGCS上のURL 音声データファイルが格納されている GCS 上の URL を指定します。
音声データのエンコーディング

「音声データのGCS上のURL」プロパティで指定した音声データのエンコーディングを指定します。指定できるエンコーディングは、次のいずれかです。

  • LINEAR16
  • FLAC
  • MULAW
  • AMR
  • AMR_WB

音声認識で最良の結果を得るエンコーディングとして、FLAC か LINEAR16 の使用が推奨されています。詳しくは、基本操作ガイドの「Google Cloud Speech API の音声データのエンコーディングについて」を参照してください。各エンコーディングの説明と音声データの変換について解説しています。

音声データのサンプルレート

「音声データのGCS上のURL」プロパティで指定した音声データのサンプルレートを 8000 から 48000 の間で指定します。単位は、ヘルツ(Hz)です。

最良の結果を得るための最適な値は、16000Hz です。

音声データの言語コード

「音声データのGCS上のURL」プロパティで指定した音声データの言語コードを指定します。例えば、日本語の場合は、「ja-JP」を指定します。

指定可能な言語コードのリストは、Language Support で確認できます。

結果を格納する変数

音声を変換したテキストデータを格納する変数を指定します。

詳細については、「出力仕様 > Cloud Speech API」を参照してください。

ブロックメモ ブロックに対するコメントを指定します。
最大変換候補数

音声データをテキストデータに変換する際、複数の変換候補を得ることができます。この「最大変換候補数」プロパティでは、この変換候補の最大数を 0 から 30 の間で指定します。

0 か 1 を指定した場合、最大で 1 の変換候補補が得られます。

不適切な表現を取り除く このプロパティを有効化すると、不適切な表現と思われるものを取り除きます。
音声認識のヒントとなる単語やフレーズ 音声認識の精度を高めるための単語やフレーズを指定します。