ブロックリファレンス

Block Reference

出力仕様

Cloud Speech API

このドキュメントでは、「Cloud Speech API」ブロックの出力結果について解説します。

以下は、音声データを「Cloud Speech API」で解析させた結果です。音声データは、MAGELLAN BLOCKS ウェブサイトの文章「BLOCKS は、Google の圧倒的なチカラを誰でも気軽に利用できる。そんなサービスです。」を読み上げたものです。

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "blocks は google の圧倒的な力を誰でも気軽に利用できるそんなサービスです",
          "confidence": 1
        },
        {
          "transcript": "blocks はグーグルの圧倒的な力を誰でも気軽に利用できるそんなサービスです"
        },
        {
          "transcript": "blocks は google の圧倒的な力を誰でも気軽に利用できる損なサービスです"
        }
      ]
    }
  ],
  "gcs_url": "gs://magellan-iot-sample/sample.flac",
  "timestamp": 1477301684.0
}

このように「Cloud Speech API」ブロックの出力結果は、JSON 形式のデータとなっています。

仕様

「Cloud Speech API」ブロックが出力する JSON 形式データの仕様は以下のとおりです。

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": <string>,
          "confidence": <number>
        }
      ]
    }
  ],
  "gcs_url": <string>,
  "timestamp": <number>
}
名前
"results" 音声データをテキストに変換したデータが出力されます。
"alternatives" 音声データをテキストに変換する候補のリストです。変換候補の数は、0 から 30 で、「Cloud Speech API」ブロックの「 最大変換候補数」プロパティの設定によります。
"transcript" 音声データを変換した単語や文章などのテキスト(文字列)データです。
"confidence" 変換したテキストデータの信頼度を表す数値です。0.0 から 1.0 の範囲で表します。数値の大きさが、信頼度の高さを表します。通常、もっとも信頼度の高いテキストにのみ出力されます。
"gcs_url" 音声データの GCS 上の URL を表す文字列です。
"timestamp" 音声データをテキストに変換した日時を表す数値です。日時は、UNIX 時間で表します。例えば、1477301684.0 は、2016 年 10 月 24 日 18 時 34 分 44 秒を表しています。

なお、この仕様は、2016 年 10 月時点の「Method: speech.syncrecognize | Google Cloud Platform 」の内容を元に記載しています。