機械学習
音声認識(音声認識モデル選択)
概要
このブロックは、Cloud Speech-to-Text open_in_new の構築済み音声認識モデルを利用して、通話や動画の音声をテキストに変換します。
info_outline Google から Cloud Speech-to-Text を効果的に使用するためのガイドライン「Best Practices open_in_new」が公開されています。このブロックを使用する前に、一読されることをお薦めします。
warning セルフサービスプラン(無料トライアル含む)の場合は、このブロックを使用する前に、Cloud Speech-to-Text API を有効にしてください。詳しくは、「基本操作ガイド > ヒント > Google API を有効にする」を参照してください。
プロパティ
プロパティ名 | 説明 | ||||||||
---|---|---|---|---|---|---|---|---|---|
ブロック名 | ブロックの名前を指定します。ブロックに表示されます。 | ||||||||
GCP サービスアカウント | このブロックで使用する GCP サービスアカウントを選択します。 | ||||||||
音声データの GCS 上の URL |
音声データファイルが格納されている GCS 上の URL を指定します。 [変数展開の指定が可能][% 形式の文字列書式の指定が可能]
|
||||||||
モデル |
構築済みの音声認識モデルを以下の中から選択します。
|
||||||||
結果を格納する変数 |
音声を変換したテキストデータを格納する変数を指定します。 詳細については、「出力仕様 > 音声認識」を参照してください。 |
||||||||
音声データのエンコーディング |
[音声データの GCS 上の URL]プロパティで指定した音声データのエンコーディングを指定します。指定できるエンコーディングは、次のいずれかです。
音声認識で最良の結果を得るエンコーディングとして、FLAC か LINEAR16 の使用が推奨されています。詳しくは、基本操作ガイドの「Cloud Speech-to-Text API の音声データのエンコーディングについて」を参照してください。各エンコーディングの説明と音声データの変換について解説しています。 |
||||||||
音声データのサンプルレート |
[音声データの GCS 上の URL]プロパティで指定した音声データのサンプルレートを 8000 から 48000 の間で指定します。単位は、ヘルツ(Hz)です。 最良の結果を得るための最適な値は、16000 Hz です。 |
||||||||
音声データの言語コード |
[音声データの GCS 上の URL]プロパティで指定した音声データの言語コードを指定します。例えば、日本語の場合は、[ja-JP]を指定します。 指定可能な言語コードのリストは、Language Support open_in_new で確認できます。 |
||||||||
ブロックメモ | ブロックに対するコメントを指定します。 | ||||||||
最大変換候補数 |
音声データをテキストデータに変換する際、複数の変換候補を得ることができます。この[最大変換候補数]プロパティでは、この変換候補の最大数を 0 から 30 の間で指定します。 0 か 1 を指定した場合、最大で 1 の変換候補補が得られます。 |
||||||||
不適切な表現を取り除く | このプロパティを有効化すると、不適切な表現と思われるものを取り除きます。 | ||||||||
音声認識のヒントとなる単語やフレーズ | 音声認識の精度を高めるための単語やフレーズを指定します。 |