出力仕様
音声認識
このドキュメントでは、「音声認識」ブロックの出力結果について解説します。
例
以下は、音声データを「Cloud Speech-to-Text API」で解析させた結果です。音声データは、MAGELLAN BLOCKS ウェブサイトの文章「BLOCKS は、Google の圧倒的なチカラを誰でも気軽に利用できる。そんなサービスです。」を読み上げたものです。
{ "results": [ { "alternatives": [ { "transcript": "blocks は google の圧倒的な力を誰でも気軽に利用できるそんなサービスです", "confidence": 1 }, { "transcript": "blocks はグーグルの圧倒的な力を誰でも気軽に利用できるそんなサービスです" }, { "transcript": "blocks は google の圧倒的な力を誰でも気軽に利用できる損なサービスです" } ] } ], "gcs_url": "gs://magellan-iot-sample/sample.flac", "timestamp": 1477301684.0 }
このように「音声認識」ブロックの出力結果は、JSON 形式のデータとなっています。
仕様
「音声認識」ブロックが出力する JSON 形式データの仕様は以下のとおりです。
{ "results": [ { "alternatives": [ { "transcript": <string>, "confidence": <number> } ] } ], "gcs_url": <string>, "timestamp": <number> }
名前 | 値 |
---|---|
"results" | 音声データをテキストに変換したデータが出力されます。 |
"alternatives" | 音声データをテキストに変換する候補のリストです。変換候補の数は、0 から 30 で、「音声認識」ブロックの「最大変換候補数」プロパティの設定によります。 |
"transcript" | 音声データを変換した単語や文章などのテキスト(文字列)データです。 |
"confidence" | 変換したテキストデータの信頼度を表す数値です。0.0 から 1.0 の範囲で表します。数値の大きさが、信頼度の高さを表します。通常、もっとも信頼度の高いテキストにのみ出力されます。 |
"gcs_url" | 音声データの GCS 上の URL を表す文字列です。 |
"timestamp" | 音声データをテキストに変換した日時を表す数値です。日時は、UNIX 時間で表します。例えば、1477301684.0 は、2016 年 10 月 24 日 18 時 34 分 44 秒を表しています。 |
info_outline なお、この仕様は、2016 年 10 月時点の「Method: speech.syncrecognize | Google Cloud Platform open_in_new」の内容を元に記載しています。