driver-action-recognition-adas-0002 (複合)#
ユースケースと概要説明#
これは、ドライバー監視ユースケース向けの行動認識複合モデルであり、エンコーダー部分とデコーダー部分で構成されます。エンコーダー・モデルは、MobileNetV2 エンコーダーを使用した Video Transformer アプローチを使用します。飲酒、髪を整えるまたは化粧をする、ラジオの操作、後ろに手を伸ばす、安全運転、電話で話す、メールを送るなどの行動を認識できます。認識されるアクションの完全なリストは、<omz_dir>/demos/action_recognition_demo/python/driver_actions.txt にあります。
例#

複合モデル仕様#
メトリック |
値 |
|---|---|
ソース・フレームワーク |
PyTorch* |
エンコーダー・モデル仕様#
driver-action-recognition-adas-0002-encoder モデルはビデオフレームを受け入れ、埋め込みを生成します。ビデオフレームは、約 1 秒のフラグメントをカバーするようにサンプリングする必要があります (つまり、30 fps ビデオでは 2 フレームごとにスキップします)。
メトリック |
値 |
|---|---|
GFlops |
0.676 |
MParams |
2.863 |
入力#
画像、名前: 0、形状: 1, 3, 224, 224、形式: B, C, H, W、ここで:
B- バッチサイズC- チャネル数H- 画像の髙さW- 画像の幅
予想される色の順序は BGR です。
出力#
モデルは、処理されたフレームの埋め込みを表す、形状 1, 512, 1, 1 のテンソルを出力します。
デコーダーモデル仕様#
driver-action-recognition-adas-0002-decoder モデルは、driver-action-recognition-adas-0002-encoder によって計算されたフレーム埋め込みのスタックを受け入れ、入力ビデオに対して予測を生成します。
メトリック |
値 |
|---|---|
GFlops |
0.147 |
MParams |
4.205 |
入力#
埋め込みイメージ、名前: 0、形状: B, T, C、形式の 1, 16, 512、ここで:
B- バッチサイズT- 入力クリップの期間C- 埋め込み次元
出力#
モデルは、形状 1, 9 のテンソルを出力します。各行は、実行されたアクションのロジットベクトルです。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。