ブロックリファレンス

BLOCKS Reference

出力仕様

音声認識

このドキュメントでは、「音声認識」ブロックの出力結果について解説します。

以下は、「音声認識」ブロックの出力結果(変数に格納されたデータ)を「ログへ出力」ブロックでログに出力した内容です。

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "機械学習や人工知能に関して様々なサービスが発表されていますがビジネスで使おうとするとどれも高価で難しいものばかりです機械学習の専門家が機械学習を使うのではなくビジネスの専門家が機械学習を支えなければなりませんだからこそ magellan blocks は誰もが気軽に機械学習を使えるよう簡単かつリーズナブルな価格で提供しています",
          "confidence": 0.95264834
        },
        {
          "transcript": "機械学習や人工知能に関して様々なサービスが発表されていますがビジネスで使おうとするとどれも高価で難しいものばかりです機械学習の専門家が機械学習を使うのではなくビジネスの専門家が機械学習を使えなければなりませんだからこそ magellan blocks は誰もが気軽に機械学習を使えるよう簡単かつリーズナブルな価格で提供しています",
          "confidence": 0.9522989
        },
        {
          "transcript": "機械学習や人工知能に関して様々なサービスが発表されていますがビジネスで使おうとするとどれも高価で難しいものばかりです機械学習の専門家が機械学習を使うのではなくビジネスの専門家が機械学習を使わなければなりませんだからこそ magellan blocks は誰もが気軽に機械学習を使えるよう簡単かつリーズナブルな価格で提供しています",
          "confidence": 0.95246506
        }
      ],
      "resultEndTime": "35.160s",
      "languageCode": "ja-jp"
    }
  ],
  "gcs_url": "gs://my-gcp-project-us-central1-data/speech_api_sample_voice_ja.flac",
  "timestamp": 1661413050.02831
}

仕様

「音声認識」ブロックの結果は、以下に示すオブジェクトの形式で変数に格納されます。

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": STRING,
          "confidence": FLOAT
        }
      ],
      "channelTag": INTEGER,
      "resultEndTime": STRING,
      "languageCode": STRING
    }
  ],
  "gcs_url": STRING,
  "timestamp": FLOAT
}
名前
"results"

音声データをテキストに変換したデータです。

データは配列形式で、配列内の各要素はオブジェクトです。

"alternatives"

音声データをテキストに変換する候補のリストです。

リストは配列形式で、配列内の各要素はオブジェクトです。リストの数は、0から30で、「音声認識」ブロックの「最大変換候補数」プロパティの設定によります。

"transcript"

音声データを変換した単語や文章などのテキスト(文字列)データです。

"confidence"

変換したテキストデータの信頼度を表す数値です。

0.0から1.0の範囲で表します。数値の大きさが、信頼度の高さを表します。通常、もっとも信頼度の高いテキストにのみ出力されます。

"channelTag"

マルチチャンネル音声の場合、そのチャンネルからの音声の認識結果に対応するチャンネル番号です。

マルチチャンネル音声の場合のみ出力されます。

"resultEndTime"

音声の開始時点からの秒単位の経過時間を示します。小数点以下は最大9桁まで、末尾に秒を表す「s」が付きます(例:"35.160s")。

"languageCode"

検出された言語コードです。

"gcs_url"

音声データのGCS上のURLを表す文字列です。

"timestamp"

音声データをテキストに変換した日時を表す数値です。日時は、UNIX時間で表します。

例えば、1477301684.0は、2016年10月24日18時34分44秒を表しています。

この情報は役に立ちましたか?