text-to-speech-en-multi-0001 (複合)#
ユースケースと概要説明#
テキストからメルスペクトログラムと波形を同時に再構築する音声合成複合モデルです。このモデルは、40 人の話者に対してスペースで区切られたシンボルのシーケンスから波形を生成します。話者の音声特性は 2 つの数値のベクトルで表されます。モデルは、修正された ForwardTacotron および修正された MelGAN フレームワーク上に構築されます。
複合モデル仕様#
メトリック |
値 |
|---|---|
ソース・フレームワーク |
PyTorch* |
期間予測モデルの仕様#
text-to-speech-en-multi-0001-duration-prediction モデルは、ForwardTacotron ベースのシンボルの継続時間プレディケーターです。
メトリック |
値 |
|---|---|
GFlops |
28.75 |
MParams |
26.18 |
入力#
シーケンス、名前:
input_seq、形状:1, 512、形式:B,C、ここで:B- バッチサイズC- シーケンス内のシンボルの数
入力シーケンスのマスク、名前:
input_mask、形状:1, 1, 512、形式:B, D, C、ここで:B- バッチサイズD- 乗算用の追加次元C- シーケンス内のシンボルの数
アテンションにおける相対位置表現用のマスク、名前:
pos_mask、形状:1, 1, 512, 512、形式:B, D, C, C、ここで:B- バッチサイズD- 乗算用の追加次元C- シーケンス内のシンボルの数
話者の音声埋め込みを表すベクトル、名前:
speaker_embedding、形状:1, 2、形式:B, D、ここで:B- バッチサイズD- 埋め込みベクトルのサイズ
出力#
入力シンボルの継続時間、名前:
duration、形状:1, 512, 1、形式:B, C, H、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。B- バッチサイズC- シーケンス内のシンボルの数H- 空の次元
処理された埋め込み、名前:
embeddings、形状:1, 512, 256、形式:B, C, H、ここで: 各シンボルの処理された埋め込みが順番に含まれます。B- バッチサイズC- シーケンス内のシンボルの数H- 中間特徴マップの高さ
メルスペクトログラム回帰モデルの仕様#
text-to-speech-en-multi-0001-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。
メトリック |
値 |
|---|---|
GFlops |
7.81 |
MParams |
5.12 |
入力#
期間ごとに整列された処理された埋め込み、名前:
data、形状:1, 512, 256、形式:B, T, C、ここで:B- バッチサイズT- メルスペクトログラムの時間C- 処理された埋め込み次元
時間次元による
dataのマスク、名前:data_mask、形状:1, 1, 512、形式:B, D, T、ここで:B- バッチサイズD- 乗算用の追加次元T- メルスペクトログラムの時間
アテンションにおける相対位置表現用のマスク、名前:
pos_mask、形状:1, 1, 512, 512、形式:B, D, C, C、ここで:B- バッチサイズD- 乗算用の追加次元C- シーケンス内のシンボルの数
話者の音声埋め込みを表すベクトル、名前:
speaker_embedding、形状:1, 2、形式:B, D、ここで:B- バッチサイズD- 埋め込みベクトルのサイズ
出力#
メルスペクトログラム、名前: mel、形状: 80, 512、形式: C, T、ここで:
T- メルスペクトログラムの時間C- メルスペクトログラムの行数
オーディオ生成モデルの仕様#
text-to-speech-en-multi-0001-generation モデルは、MelGAN ベースのオーディオ・ジェネレーターです。
メトリック |
値 |
|---|---|
GFlops |
48.38 |
MParams |
12.77 |
入力#
メルスペクトログラム、名前: mel、形状: 1, 80, 128、形式: B, C, T、ここで:
B- バッチサイズC- メルスペクトログラムの行数T- メルスペクトログラムの時間
出力#
オーディオ、名前 - audio、形状 - 32768、形式 - T、ここで:
T- サンプリング・レート 22050 のオーディオの時間 (約 1.5 秒)。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。