オーディオストリームで検出された音声を転写 (文字に起こす) して、オーディオストリームをプレーンテキストに変換します。
次の表に、この AI タスクを使用する際に設定する必要があるプロパティ (アクセスに必要な資格情報) を示します。
|
PropertyKey |
ProviderType |
Id |
Key |
SecretKey |
Alibaba |
智能语音交互 app-key |
用户AccessKey |
用户AccessKey |
Amazon |
- |
Transcribe |
Transcribe |
Baidu |
百度语音 |
百度语音 |
百度语音 |
Google |
- |
Cloud Speech API |
- |
IBM |
- |
SpeechToText API |
- |
Microsoft |
- |
Speech API |
- |
SAP |
- |
- |
- |
Tencent |
语音识别 |
语音识别 |
- |
下記の表に、次の音声を入力とした場合に行われる転写とその処理の所要時間をプロバイダー別に示します。
プロバイダー |
出力 |
ベンチマーク |
Alibaba |
GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] |
9040ms |
Amazon |
{
"Text": "The first question that comes to mind is, What is the nexus you Nexus is a tool that automatically generate software programs such as applications for Windows, the Web and smart devices, which are always at the forefront of technological evolution."
"Confidence": 0.982
"Info": [
{
"Property":"The",
"Value": "{\"start\":0.70000,\"duration\":0.17000}"
},
...
{
"Property":"evolution",
"Value": "{\"start\":14.51000,\"duration\":0.60000}"
},
{
"Property":".",
"Value": "{\"start\":15.11000,\"duration\":00.00000}"
}
]
}
|
202627ms |
Baidu |
GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] |
N/A |
Google |
{
"Text": "The first question that comes to mind is what is Genesis.The Nexus is a tool that automatically generate software program such as applications for Windows."
"Confidence": 0.982
"Info": [
{
"Property":"the",
"Value": "{\"start\":0.00000,\"duration\":0.90000}"
},
...
{
"Property":"Windows",
"Value": "{\"start\":10.10000,\"duration\":0.50000}"
},
{
"Property":".",
"Value": "{\"start\":10.60000,\"duration\":0.00000}"
}
]
}
|
6986ms |
IBM |
{
"Text": "The first question that comes to mind is.What is your nexus. Next is a tool that automatically generate software programs such as applications for windows the web and smart devices which are always at the forefront technological evolution."
"Confidence": 0.982
"Info": [
{
"Property":"The",
"Value": "{\"start\":0.71000,\"duration\":0.12000}"
},
...
{
"Property":"evolution",
"Value": "{\"start\":14.48000,\"duration\":0.63000}"
},
{
"Property":".",
"Value": "{\"start\":15.11000,\"duration\":0.00000}"
}
]
}
|
8682ms |
Microsoft |
{
"Text": "The first question that comes to mind is what is genexus.",
"Confidence": 1.0
}
|
3412ms |
SAP |
N/A |
N/A |
Tencent |
GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ] |
N/A |
転写 (トランスクリプション) は、短時間のオーディオ (最長 15 秒) と短い発話のみを対象とします。最初の "サイレントマーク" までが転写の対象となるため (Microsoft の場合など)、出力されるテキストが不完全になる可能性があります。目的は、音声コマンドを識別することです。
中国語のオーディオのみをサポートします。別の (未知の) 言語でオーディオが提供された場合は、GXAI5000 エラーが発生します。
たとえば、次の中国語のオーディオに対する転写結果は、下の表のようになります。
プロバイダー |
出力 |
ベンチマーク |
Alibaba |
{
"Text": "提出的第一个问题是什么是冰山冰山是一个自动生成软件,程序的工具,例如为应用程序和智能设备始终处于技术发展的最前沿。"
"Confidence": 1.0
}
|
13160ms |
Baidu |
{
"Text": "提出的第一个问题是一个自动生成软件程序的工具,例如应用程序,智能设备始终处于技术发展的最前沿",
"Confidence": 1.0
}
|
101354ms |
Tencent |
{
"Text": "提出的第一个问题是什么仅三十一个自动生成软件程序的工具例如应用程序可智能设备始终处于技术发展的最前沿",
"Confidence": 1.0
}
|
98457ms |
オーディオファイルを Amazon S3 にアップロードする必要があります。Amazon の資格情報を使用して
[ Storage Provider ] プロパティを設定した場合は、S3 バケットに格納されているオーディオが自動的に処理されます。それ以外の場合は、次のいずれかのエクスプレッションを使用して URL を指定する必要があります:
+
http://{bucket}.s3.amazonaws.com/{path/to/filename.ext}
+
http://{bucket}.s3-{region}.amazonaws.com/{path/to/filename.ext}
+
http://s3.amazonaws.com/{bucket}/{path/to/filename.ext}
+
http://s3-{region}.amazonaws.com/{bucket}/{path/to/filename.ext}
{region} は、アクセスに必要な資格情報のリージョンと一致している必要があります (リージョンが us-east-1 の場合のみ、空にすることができます)。
-
入力のオーディオ形式はプロバイダーのタイプによって異なります。
- Amazon WS では mp3、mp4、wav、flac がサポートされています。
- Baidu AI では pcm、wav、amr がサポートされています。
- IBM Watson では mp3、mp4、wav、ogg、flac、webm がサポートされています (GeneXus 16 Upgrade 0 では mp3 のみがサポートされています)。
- Microsoft Azure では wav のみがサポートされています。
- Google Cloud AI では mp3、wav、ogg がサポートされています。
- Tencent AI では wav のみがサポートされています。
このサイトで、オーディオの mime タイプが適切かどうかを確認できます。
-
外部ツールを使用すれば、オーディオ形式を変換できます。
次の手順に従うと、GeneXusAI はこの機能を実験的機能として自動的に統合します:
1) サーバーのオペレーティングシステム (つまり、Linux または Windows) に応じて ffmpeg ツールをダウンロードします。
2) バイナリファイルを File オブジェクトとしてナレッジベースに添付します。
3) [ Extract for {gen} Generator ] プロパティを True に設定します。'{gen}' は使用中のジェネレーター (Java、.NET、.NET Core) です。
4) [ {gen} Generator Extract Directory ] プロパティの値を "Resources" に設定します。
5) 抽出されたバイナリファイルに、Web アプリケーションが実行されている場所における実行権限があることを確認します。
6) 形式を問わず、入力の audio をこのタスクに渡します。
この機能を追加すると、パフォーマンスが低下する可能性があることに留意してください。
重要: この機能は実験的機能であるためサポートされていません。予告なく互換性が損なわれることもあります。自己責任でご使用ください。
- Microsoft の Bing Speech API は廃止が決まっているため、資格情報を 2019 年 10 月より前に Speech API に移行する必要があります。
プラットフォーム |
Web (.NET、.NET Core、Java)、スマートデバイス (Android、iOS) |
接続 |
オンライン |
このプロシージャーは、
GeneXus 16 以降で利用できます。