aclnet#
ユースケースと概要説明#
AclNet モデルは音響分類を実行するように設計されており、ファイル <omz_dir>/data/dataset_classes/aclnet_53cl.txt にリストされている 53 の異なるクラスの環境音響の内部データセットでトレーニングされています。モデルの詳細については、論文 を参照してください。
モデル入力は、N, C, 1, L 形式の PCM オーディオサンプルのセグメントです。
AclNet のモデル出力は、内部音響データベースから 53 の異なる環境音響クラスの音響分類器出力です。
仕様#
メトリック |
値 |
|---|---|
タイプ |
分類 |
GFLOPs |
1.42 |
MParams |
2.71 |
ソース・フレームワーク |
PyTorch* |
精度#
メトリック |
値 |
|---|---|
上位 1 |
86.3% |
上位 5 |
92.0% |
入力#
元のモデル#
オーディオ、名前 - input、形状 - 1, 1, 1, L、形式 - N, C, 1, L、ここで:
N- バッチサイズC- チャネルL- PCM サンプル数 (最小値は 16000)
変換されたモデル#
オーディオ、名前 - input、形状 - 1, 1, 1, L、形式 - N, C, 1, L、ここで:
N- バッチサイズC- チャネルL- PCM サンプル数 (最小値は 16000)
出力#
元のモデル#
音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt)、名前 - 出力 - output、形状 - 1, 53、出力データ形式 - N, C、ここで:
N- バッチサイズC- [0, 1] 範囲の各クラスの予測ソフトマックスのスコア
変換されたモデル#
音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt)、名前 - 出力 - output、形状 - 1, 53、出力データ形式 - N, C、ここで:
N- バッチサイズC- [0, 1] 範囲の各クラスの予測ソフトマックスのスコア
モデルをダウンロードして OpenVINO™ IR 形式に変換#
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>モデル・コンバーターの使用例:
omz_converter --name <model_name>デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。