ブロックリファレンス

BLOCKS Reference

機械学習

音声認識(音声認識モデル選択)

概要

このブロックは、Cloud Speech-to-Text の構築済み音声認識モデルを利用して、通話や動画の音声をテキストに変換します。

GoogleからCloud Speech-to-Textを効果的に使用するためのガイドライン「Best Practices 」が公開されています。このブロックを使用する前に、一読されることをお薦めします。

warningセルフサービスプランの場合は、このブロックを使用する前に、Cloud Speech-to-Text APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント> Google APIを有効にする」を参照してください。

プロパティ

プロパティ名 説明
ブロック名 ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント このブロックで使用するGCPサービスアカウントを選択します。
音声データのGCS上のURL

音声データファイルが格納されているGCS上のURLを指定します。

変数展開の指定が可能][%形式の文字列書式の指定が可能]
モデル

構築済みの音声認識モデルを以下の中から選択します。

モデル 説明
phone_call

通話音声に最適です。

video

動画や複数話者の音声に最適です。音声は16000 Hz以上のサンプルプレートで録音されていることが理想的です。

command_and_search

音声コマンドや音声検索などで使用される短い音声に最適です。

結果を格納する変数

音声を変換したテキストデータを格納する変数を指定します。

詳細については、「出力仕様>音声認識」を参照してください。

音声データのエンコーディング

音声データのGCS上のURL]プロパティで指定した音声データのエンコーディングを指定します。指定できるエンコーディングは、次のいずれかです。

  • LINEAR16
  • FLAC
  • MULAW
  • AMR
  • AMR_WB
  • MP3

音声認識で最良の結果を得るエンコーディングとして、FLACかLINEAR16の使用が推奨されています。詳しくは、基本操作ガイドの「Cloud Speech-to-Text APIの音声データのエンコーディングについて」を参照してください。各エンコーディングの説明と音声データの変換について解説しています。

音声データのサンプルレート

音声データのGCS上のURL]プロパティで指定した音声データのサンプルレートを8000から48000の間で指定します。単位は、ヘルツ(Hz)です。

最良の結果を得るための最適な値は、16000 Hzです。

音声データの言語コード

音声データのGCS上のURL]プロパティで指定した音声データの言語コードを指定します。例えば、日本語の場合は、[ja-JP]を指定します。

指定可能な言語コードのリストは、Language Support で確認できます。

ブロックメモ ブロックに対するコメントを指定します。
最大変換候補数

音声データをテキストデータに変換する際、複数の変換候補を得ることができます。この[最大変換候補数]プロパティでは、この変換候補の最大数を0から30の間で指定します。

0か1を指定した場合、最大で1の変換候補補が得られます。

不適切な表現を取り除く このプロパティを有効化すると、不適切な表現と思われるものを取り除きます。
音声認識のヒントとなる単語やフレーズ 音声認識の精度を高めるための単語やフレーズを指定します。

この情報は役に立ちましたか?