SpeechToText プロシージャー

オーディオストリームで検出された音声を転写 (文字に起こす) して、オーディオストリームをプレーンテキストに変換します。

パラメーター

in:&audio :: Audio データタイプ
転写対象のオーディオストリームです。
in:&locale :: Locale, GeneXusAI
入力音声の言語ロケールです。
in:&provider :: Provider, GeneXusAI.Configuration
プロバイダーの設定です。
inout:&Messages :: Messages, GeneXus.Common
タスクによって返された警告メッセージとエラーメッセージのコレクションです。エラーが返された場合はコードの内容を確認してください。詳細については、エラーコードと説明を参照してください。
out:&OutputText :: OutputText, GeneXusAI
転写されたテキストです。

設定

次の表に、この AI タスクを使用する際に設定する必要があるプロパティ (アクセスに必要な資格情報) を示します。

	PropertyKey
ProviderType	Id	Key	SecretKey
Alibaba	智能语音交互 app-key	用户AccessKey	用户AccessKey
Amazon	-	Transcribe	Transcribe
Baidu	百度语音	百度语音	百度语音
Google	-	Cloud Speech API	-
IBM	-	SpeechToText API	-
Microsoft	-	Speech API	-
SAP	-	-	-
Tencent	语音识别	语音识别	-

例

下記の表に、次の音声を入力とした場合に行われる転写とその処理の所要時間をプロバイダー別に示します。

SpeechToText - サンプル入力

0:00

プロバイダー	出力	ベンチマーク
Alibaba	GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ]	9040ms
Amazon	{ "Text": "The first question that comes to mind is, What is the nexus you Nexus is a tool that automatically generate software programs such as applications for Windows, the Web and smart devices, which are always at the forefront of technological evolution." "Confidence": 0.982 "Info": [ { "Property":"The", "Value": "{\"start\":0.70000,\"duration\":0.17000}" }, ... { "Property":"evolution", "Value": "{\"start\":14.51000,\"duration\":0.60000}" }, { "Property":".", "Value": "{\"start\":15.11000,\"duration\":00.00000}" } ] }	202627ms
Baidu	GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ]	N/A
Google	{ "Text": "The first question that comes to mind is what is Genesis.The Nexus is a tool that automatically generate software program such as applications for Windows." "Confidence": 0.982 "Info": [ { "Property":"the", "Value": "{\"start\":0.00000,\"duration\":0.90000}" }, ... { "Property":"Windows", "Value": "{\"start\":10.10000,\"duration\":0.50000}" }, { "Property":".", "Value": "{\"start\":10.60000,\"duration\":0.00000}" } ] }	6986ms
IBM	{ "Text": "The first question that comes to mind is.What is your nexus. Next is a tool that automatically generate software programs such as applications for windows the web and smart devices which are always at the forefront technological evolution." "Confidence": 0.982 "Info": [ { "Property":"The", "Value": "{\"start\":0.71000,\"duration\":0.12000}" }, ... { "Property":"evolution", "Value": "{\"start\":14.48000,\"duration\":0.63000}" }, { "Property":".", "Value": "{\"start\":15.11000,\"duration\":0.00000}" } ] }	8682ms
Microsoft	{ "Text": "The first question that comes to mind is what is genexus.", "Confidence": 1.0 }	3412ms
SAP	N/A	N/A
Tencent	GXAI4101 - Parameter '&Locale' is malformed.Expected values: [ Chinese (Simplified, Mainland), Mandarin (Simplified, Mainland), Cantonese (Traditional, Hong Kong) ]	N/A

考慮事項

短い転写

転写 (トランスクリプション) は、短時間のオーディオ (最長 15 秒) と短い発話のみを対象とします。最初の "サイレントマーク" までが転写の対象となるため (Microsoft の場合など)、出力されるテキストが不完全になる可能性があります。目的は、音声コマンドを識別することです。

中国のプロバイダー

中国語のオーディオのみをサポートします。別の (未知の) 言語でオーディオが提供された場合は、GXAI5000 エラーが発生します。
たとえば、次の中国語のオーディオに対する転写結果は、下の表のようになります。

SpeechToText - サンプル - 中国語

0:00

プロバイダー	出力	ベンチマーク
Alibaba	{ "Text": "提出的第一个问题是什么是冰山冰山是一个自动生成软件，程序的工具，例如为应用程序和智能设备始终处于技术发展的最前沿。" "Confidence": 1.0 }	13160ms
Baidu	{ "Text": "提出的第一个问题是一个自动生成软件程序的工具，例如应用程序，智能设备始终处于技术发展的最前沿", "Confidence": 1.0 }	101354ms
Tencent	{ "Text": "提出的第一个问题是什么仅三十一个自动生成软件程序的工具例如应用程序可智能设备始终处于技术发展的最前沿", "Confidence": 1.0 }	98457ms

オーディオファイルを Amazon S3 にアップロードする必要があります。Amazon の資格情報を使用して [ Storage Provider ] プロパティを設定した場合は、S3 バケットに格納されているオーディオが自動的に処理されます。それ以外の場合は、次のいずれかのエクスプレッションを使用して URL を指定する必要があります:
+ http://{bucket}.s3.amazonaws.com/{path/to/filename.ext}
+ http://{bucket}.s3-{region}.amazonaws.com/{path/to/filename.ext}
+ http://s3.amazonaws.com/{bucket}/{path/to/filename.ext}
+ http://s3-{region}.amazonaws.com/{bucket}/{path/to/filename.ext}
{region} は、アクセスに必要な資格情報のリージョンと一致している必要があります (リージョンが us-east-1 の場合のみ、空にすることができます)。

注

入力のオーディオ形式はプロバイダーのタイプによって異なります。
- Amazon WS では mp3、mp4、wav、flac がサポートされています。
- Baidu AI では pcm、wav、amr がサポートされています。
- IBM Watson では mp3、mp4、wav、ogg、flac、webm がサポートされています (GeneXus 16 Upgrade 0 では mp3 のみがサポートされています)。
- Microsoft Azure では wav のみがサポートされています。
- Google Cloud AI では mp3、wav、ogg がサポートされています。
- Tencent AI では wav のみがサポートされています。
このサイトで、オーディオの mime タイプが適切かどうかを確認できます。
外部ツールを使用すれば、オーディオ形式を変換できます。
次の手順に従うと、GeneXusAI はこの機能を実験的機能として自動的に統合します:
1) サーバーのオペレーティングシステム (つまり、Linux または Windows) に応じて ffmpeg ツールをダウンロードします。
2) バイナリファイルを File オブジェクトとしてナレッジベースに添付します。
3) [ Extract for {gen} Generator ] プロパティを True に設定します。'{gen}' は使用中のジェネレーター (Java、.NET、.NET Core) です。
4) [ {gen} Generator Extract Directory ] プロパティの値を "Resources" に設定します。
5) 抽出されたバイナリファイルに、Web アプリケーションが実行されている場所における実行権限があることを確認します。
6) 形式を問わず、入力の audio をこのタスクに渡します。
この機能を追加すると、パフォーマンスが低下する可能性があることに留意してください。
重要: この機能は実験的機能であるためサポートされていません。予告なく互換性が損なわれることもあります。自己責任でご使用ください。
Microsoft の Bing Speech API は廃止が決まっているため、資格情報を 2019 年 10 月より前に Speech API に移行する必要があります。

適用範囲

プラットフォーム	Web (.NET、.NET Core、Java)、スマートデバイス (Android、iOS)
接続	オンライン

使用可能バージョン

このプロシージャーは、GeneXus 16 以降で利用できます。

GeneXus 16 Upgrade 1 以降
- Google Cloud AI を使用できます。
GeneXus 16 Upgrade 2 以降
- Amazon WS および Tencent AI を使用できます。
GeneXus 16 Upgrade 3 以降
- Baidu AI を使用できます。
GeneXus 16 Upgrade 4 以降
- Alibaba AI を使用できます。

参考情報

TextToSpeech プロシージャー