最近のアクセス:
SpeechToText プロシージャー

オーディオストリームで検出された音声を転写 (文字に起こす) して、オーディオストリームをプレーンテキストに変換します。

パラメーター

設定

次の表に、この AI タスクを使用する際に設定する必要があるプロパティ (アクセスに必要な資格情報) を示します。
  PropertyKey
ProviderType Id Key SecretKey
Alibaba 智能语音交互 app-key 用户AccessKey 用户AccessKey
Amazon - Transcribe Transcribe
Baidu 百度语音 百度语音 百度语音
Google  - Cloud Speech API -
IBM - SpeechToText API -
Microsoft - Speech API -
SAP - - -
Tencent 语音识别 语音识别 -

下記の表に、次の音声を入力とした場合に行われる転写とその処理の所要時間をプロバイダー別に示します。


プロバイダー 出力 ベンチマーク
Alibaba GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] 9040ms
Amazon
{
    "Text": "The first question that comes to mind is, What is the nexus you Nexus is a tool that automatically generate software programs such as applications for Windows, the Web and smart devices, which are always at the forefront of technological evolution."
    "Confidence": 0.982
    "Info": [ 
        {
            "Property":"The", 
            "Value": "{\"start\":0.70000,\"duration\":0.17000}"
        },
        ...
        {
            "Property":"evolution", 
            "Value": "{\"start\":14.51000,\"duration\":0.60000}"
        },
        {
            "Property":".", 
            "Value": "{\"start\":15.11000,\"duration\":00.00000}"
        }
     ] 
}
202627ms
Baidu GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] N/A
Google
{
    "Text": "The first question that comes to mind is what is Genesis.The Nexus is a tool that automatically generate software program such as applications for Windows."
    "Confidence": 0.982
    "Info": [ 
        {
            "Property":"the",
            "Value": "{\"start\":0.00000,\"duration\":0.90000}"
        },
        ...
        {
            "Property":"Windows",
            "Value": "{\"start\":10.10000,\"duration\":0.50000}"
        },
        {
            "Property":".",
            "Value": "{\"start\":10.60000,\"duration\":0.00000}"
        }
     ] 
}
6986ms
IBM
{
    "Text": "The first question that comes to mind is.What is your nexus. Next is a tool that automatically generate software programs such as applications for windows the web and smart devices which are always at the forefront technological evolution."
    "Confidence": 0.982
    "Info": [ 
        {
            "Property":"The",
            "Value": "{\"start\":0.71000,\"duration\":0.12000}"
        },
        ...
        {
            "Property":"evolution",
            "Value": "{\"start\":14.48000,\"duration\":0.63000}"
        },
        {
            "Property":".",
            "Value": "{\"start\":15.11000,\"duration\":0.00000}"
        }
     ] 
}
8682ms
Microsoft 
{
    "Text": "The first question that comes to mind is what is genexus.",
    "Confidence": 1.0
}
3412ms
SAP N/A N/A
Tencent GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] N/A

考慮事項

短い転写

転写 (トランスクリプション) は、短時間のオーディオ (最長 15 秒) と短い発話のみを対象とします。最初の "サイレントマーク" までが転写の対象となるため (Microsoft の場合など)、出力されるテキストが不完全になる可能性があります。目的は、音声コマンドを識別することです。

中国のプロバイダー

中国語のオーディオのみをサポートします。別の (未知の) 言語でオーディオが提供された場合は、GXAI5000 エラーが発生します。
たとえば、次の中国語のオーディオに対する転写結果は、下の表のようになります。


プロバイダー 出力 ベンチマーク
Alibaba
{
    "Text": "提出的第一个问题是什么是冰山冰山是一个自动生成软件,程序的工具,例如为应用程序和智能设备始终处于技术发展的最前沿。"
    "Confidence": 1.0
}
13160ms
Baidu
{
    "Text": "提出的第一个问题是一个自动生成软件程序的工具,例如应用程序,智能设备始终处于技术发展的最前沿",
    "Confidence": 1.0
}
101354ms
Tencent 
{
    "Text": "提出的第一个问题是什么仅三十一个自动生成软件程序的工具例如应用程序可智能设备始终处于技术发展的最前沿",
    "Confidence": 1.0
}
98457ms

Amazon プロバイダー

オーディオファイルを Amazon S3 にアップロードする必要があります。Amazon の資格情報を使用して [ Storage Provider ] プロパティを設定した場合は、S3 バケットに格納されているオーディオが自動的に処理されます。それ以外の場合は、次のいずれかのエクスプレッションを使用して URL を指定する必要があります:
+ http://{bucket}.s3.amazonaws.com/{path/to/filename.ext}
+ http://{bucket}.s3-{region}.amazonaws.com/{path/to/filename.ext}
+ http://s3.amazonaws.com/{bucket}/{path/to/filename.ext}
+ http://s3-{region}.amazonaws.com/{bucket}/{path/to/filename.ext}
{region} は、アクセスに必要な資格情報のリージョンと一致している必要があります (リージョンが us-east-1 の場合のみ、空にすることができます)。

  • 入力のオーディオ形式はプロバイダーのタイプによって異なります。
    - Amazon WS では mp3mp4wavflac がサポートされています。
    - Baidu AI では pcmwavamr がサポートされています。
    - IBM Watson では mp3、mp4、wav、ogg、flac、webm がサポートされています (GeneXus 16 Upgrade 0 では mp3 のみがサポートされています)。
    - Microsoft Azure では wav のみがサポートされています。
    - Google Cloud AI では mp3wavogg がサポートされています。
    - Tencent AI では wav のみがサポートされています。
    このサイトで、オーディオの mime タイプが適切かどうかを確認できます。
  • 外部ツールを使用すれば、オーディオ形式を変換できます。
    次の手順に従うと、GeneXusAI はこの機能を実験的機能として自動的に統合します:
    1) サーバーのオペレーティングシステム (つまり、Linux または Windows) に応じて ffmpeg ツールをダウンロードします。
    2) バイナリファイルを File オブジェクトとしてナレッジベースに添付します。
    3) [ Extract for {gen} Generator ] プロパティを True に設定します。'{gen}' は使用中のジェネレーター (Java、.NET、.NET Core) です。
    4) [ {gen} Generator Extract Directory ] プロパティの値を "Resources" に設定します。
    5) 抽出されたバイナリファイルに、Web アプリケーションが実行されている場所における実行権限があることを確認します。
    6) 形式を問わず、入力の audio をこのタスクに渡します。
    この機能を追加すると、パフォーマンスが低下する可能性があることに留意してください。
    重要: この機能は実験的機能であるためサポートされていません。予告なく互換性が損なわれることもあります。自己責任でご使用ください。
  • Microsoft の Bing Speech API は廃止が決まっているため、資格情報を 2019 年 10 月より前に Speech API に移行する必要があります。

適用範囲

プラットフォーム  Web (.NET、.NET Core、Java)、スマートデバイス (Android、iOS)
接続  オンライン

使用可能バージョン

このプロシージャーは、GeneXus 16 以降で利用できます。

参考情報






サブページ
Created: 19/03/25 18:00 by Admin Last update: 24/03/25 23:57 by Admin
カテゴリ
Powered by GXwiki 3.0