text-to-speech-en-multi-0001 (複合)#

ユースケースと概要説明#

テキストからメルスペクトログラムと波形を同時に再構築する音声合成複合モデルです。このモデルは、40 人の話者に対してスペースで区切られたシンボルのシーケンスから波形を生成します。話者の音声特性は 2 つの数値のベクトルで表されます。モデルは、修正された ForwardTacotron および修正された MelGAN フレームワーク上に構築されます。

複合モデル仕様#

メトリック	値
ソース・フレームワーク	PyTorch*

期間予測モデルの仕様#

text-to-speech-en-multi-0001-duration-prediction モデルは、ForwardTacotron ベースのシンボルの継続時間プレディケーターです。

メトリック	値
GFlops	28.75
MParams	26.18

入力#

シーケンス、名前: input_seq、形状: 1, 512、形式: B,C、ここで:
- B - バッチサイズ
- C - シーケンス内のシンボルの数
入力シーケンスのマスク、名前: input_mask、形状: 1, 1, 512、形式: B, D, C、ここで:
- B - バッチサイズ
- D - 乗算用の追加次元
- C - シーケンス内のシンボルの数
アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C、ここで:
- B - バッチサイズ
- D - 乗算用の追加次元
- C - シーケンス内のシンボルの数
話者の音声埋め込みを表すベクトル、名前: speaker_embedding、形状: 1, 2、形式: B, D、ここで:
- B - バッチサイズ
- D - 埋め込みベクトルのサイズ

出力#

入力シンボルの継続時間、名前: duration、形状: 1, 512, 1、形式: B, C, H、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。
- B - バッチサイズ
- C - シーケンス内のシンボルの数
- H - 空の次元
処理された埋め込み、名前: embeddings、形状: 1, 512, 256、形式: B, C, H、ここで: 各シンボルの処理された埋め込みが順番に含まれます。
- B - バッチサイズ
- C - シーケンス内のシンボルの数
- H - 中間特徴マップの高さ

メルスペクトログラム回帰モデルの仕様#

text-to-speech-en-multi-0001-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。

メトリック	値
GFlops	7.81
MParams	5.12

入力#

期間ごとに整列された処理された埋め込み、名前: data、形状: 1, 512, 256、形式: B, T, C、ここで:
- B - バッチサイズ
- T - メルスペクトログラムの時間
- C - 処理された埋め込み次元
時間次元による data のマスク、名前: data_mask、形状: 1, 1, 512、形式: B, D, T、ここで:
- B - バッチサイズ
- D - 乗算用の追加次元
- T - メルスペクトログラムの時間
アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C、ここで:
- B - バッチサイズ
- D - 乗算用の追加次元
- C - シーケンス内のシンボルの数
話者の音声埋め込みを表すベクトル、名前: speaker_embedding、形状: 1, 2、形式: B, D、ここで:
- B - バッチサイズ
- D - 埋め込みベクトルのサイズ

出力#

メルスペクトログラム、名前: mel、形状: 80, 512、形式: C, T、ここで:

T - メルスペクトログラムの時間
C - メルスペクトログラムの行数

オーディオ生成モデルの仕様#

text-to-speech-en-multi-0001-generation モデルは、MelGAN ベースのオーディオ・ジェネレーターです。

メトリック	値
GFlops	48.38
MParams	12.77

入力#

メルスペクトログラム、名前: mel、形状: 1, 80, 128、形式: B, C, T、ここで:

B - バッチサイズ
C - メルスペクトログラムの行数
T - メルスペクトログラムの時間

出力#

オーディオ、名前 - audio、形状 - 32768、形式 - T、ここで:

T - サンプリング・レート 22050 のオーディオの時間 (約 1.5 秒)。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

テキスト読み上げ Python* デモ

法務上の注意書き#

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。