text-recognition-0005 (複合)#
ユースケースと概要説明#
テキストの検出と認識を同時に行うテキスト・スポッティング複合モデルです。このモデルは、スペースで区切られた記号シーケンスを検出し、辞書なしで認識を実行します。このモデルは、アテンション・ベースのテキスト認識ヘッドを備えた Mask-RCNN フレームワークの上に構築されています。
アルファベットは英数字です: abcdefghijklmnopqrstuvwxyz0123456789。
例#

複合モデル仕様#
メトリック |
値 |
|---|---|
単語スポッティング hmean ICDAR2015、辞書なし |
71.29% |
ソース・フレームワーク |
PyTorch* |
Hmean ワード・スポッティングは、Incidental Scene Text (ICDAR2015) チャレンジに従って定義および測定されます。
検出器モデル仕様#
text-spotting-0005-detector モデルは、ResNet50 バックボーンとテキスト機能出力を備えた Mask-RCNN ベースのテキスト検出器です。
メトリック |
値 |
|---|---|
GFlops |
184.495 |
MParams |
27.010 |
入力#
画像、名前: image、形状: 1, 3, 768, 1280、形式: 1, C, H, W、ここで:
C- チャネル数H- 画像の髙さW- 画像の幅
予想されるチャネルの順序は BGR です。
出力#
モデルには動的形状の出力があります。
名前:
labels、形状:-1。検出されたすべてのオブジェクトの連続する整数のクラス ID。0はテキストクラスを表します。名前:
boxes、形状:-1, 5。(top_left_x、top_left_y、bottom_right_x、bottom_right_y、confidence) 形式の、検出されたオブジェクト周囲の境界ボックス。名前:
masks、形状:-1, 28, 28。すべての出力境界ボックスのテキストのセグメント化マスク。名前:
text_features、形状-1, 64, 28, 28。テキスト認識ヘッドに供給されるテキストの特徴。
エンコーダー・モデル仕様#
text-spotting-0005-recognizer-encoder モデルは、テキスト認識ヘッドの完全畳み込みエンコーダーです。
メトリック |
値 |
|---|---|
GFlops |
2.082 |
MParams |
1.328 |
入力#
名前: input、形状: 1, 64, 28, 28。検出部から得られるテキスト認識特徴。
出力#
名前: output、形状: 1, 256, 28, 28。エンコードされたテキスト認識特徴。
デコーダーモデル仕様#
メトリック |
値 |
|---|---|
GFlops |
0.106 |
MParams |
0.283 |
入力#
名前:
encoder_outputs、形状:1, (28*28), 256。エンコードされたテキスト認識特徴。名前:
prev_symbol、形状:1。以前に生成されたシンボルのアルファベットのインデックス。名前:
prev_hidden、形状:1, 1, 256。GRU の以前の非表示状態。
出力#
名前:
output、形状:1, 38。エンコードされたテキスト認識特徴。2 から始まるインデックスはアルファベット記号に対応します。0 と 1 は、それぞれ特別なシーケンスの開始記号と終了記号です。名前:
hidden、形状:1, 1, 256。GRU の現在の非表示状態。
トレーニング・パイプライン#
OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。