text-recognition-0005 (複合)#

ユースケースと概要説明#

テキストの検出と認識を同時に行うテキスト・スポッティング複合モデルです。このモデルは、スペースで区切られた記号シーケンスを検出し、辞書なしで認識を実行します。このモデルは、アテンション・ベースのテキスト認識ヘッドを備えた Mask-RCNN フレームワークの上に構築されています。

アルファベットは英数字です: abcdefghijklmnopqrstuvwxyz0123456789。

メトリック	値
単語スポッティング hmean ICDAR2015、辞書なし	71.29%
ソース・フレームワーク	PyTorch*

Hmean ワード・スポッティングは、Incidental Scene Text (ICDAR2015) チャレンジに従って定義および測定されます。

text-spotting-0005-detector モデルは、ResNet50 バックボーンとテキスト機能出力を備えた Mask-RCNN ベースのテキスト検出器です。

メトリック	値
GFlops	184.495
MParams	27.010

画像、名前: image、形状: 1, 3, 768, 1280、形式: 1, C, H, W、ここで:

予想されるチャネルの順序は BGR です。

モデルには動的形状の出力があります。

名前: labels、形状: -1。検出されたすべてのオブジェクトの連続する整数のクラス ID。0 はテキストクラスを表します。
名前: boxes、形状: -1, 5。(top_left_x、top_left_y、bottom_right_x、bottom_right_y、confidence) 形式の、検出されたオブジェクト周囲の境界ボックス。
名前: masks、形状: -1, 28, 28。すべての出力境界ボックスのテキストのセグメント化マスク。
名前: text_features、形状 -1, 64, 28, 28。テキスト認識ヘッドに供給されるテキストの特徴。

text-spotting-0005-recognizer-encoder モデルは、テキスト認識ヘッドの完全畳み込みエンコーダーです。

メトリック	値
GFlops	2.082
MParams	1.328

名前: input、形状: 1, 64, 28, 28。検出部から得られるテキスト認識特徴。

名前: output、形状: 1, 256, 28, 28。エンコードされたテキスト認識特徴。

メトリック	値
GFlops	0.106
MParams	0.283

名前: output、形状: 1, 38。エンコードされたテキスト認識特徴。2 から始まるインデックスはアルファベット記号に対応します。0 と 1 は、それぞれ特別なシーケンスの開始記号と終了記号です。
名前: hidden、形状: 1, 1, 256。GRU の現在の非表示状態。

OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。