アダプター#

アダプターは、生のネットワーク推論出力を、その後のポスト・プロセッサーのワークやメトリックの計算に適した表現形式に変換するクラスです。アダプターは、構成に使用できるパラメーターを持つ場合があります。アダプターとパラメーターは、必要に応じて構成ファイルを通じて設定されます。

設定ファイルにアダプターを設定する方法の説明#

各ランチャーが特定のアダプターを使用するように、構成ファイルの launchers セクションでアダプターを指定できます。

トポロジーのアダプターを設定するには 2 つの方法があります:

文字列としてアダプターを定義。

adapter: classification

アダプター名を設定するため type: を使用して、アダプターを辞書として定義します。このアプローチにより、必要に応じてアダプターの追加パラメーターを設定することができます。

adapter: type: reid grn_workaround: False

サポートされるアダプター#

AccuracyChecker は、次のアダプターのセットをサポートします。

classification - 分類モデルの出力を ClassificationPrediction 表現に変換します。
- argmax_output - モデル出力が ArgMax レイヤーであることを示す識別子。
- block - バッチ全体を単一のデータブロックとして処理します。
- classification_output - ターゲット出力レイヤー名。
- fixed_output - block モードでは、全レイヤー出力の一部からデータを収集できます。
- fixed_output_index - データを収集するレイヤー出力配列へのインデックス
- label_as_array - ClassificationPrediction のラベルを配列として生成します
segmentation - セマンティック・セグメント化モデルの出力を SeegmentationPrediction 表現に変換します。
- make_argmax - argmax 演算を出力値に適用できます。
segmentation_one_class - セマンティック・セグメント化モデルの出力を SeegmentationPrediction 表現に変換します。モデルの出力が各ピクセルが前景クラスに属する確率である場合に適しています。
- threshold - 有効なクラスに属する確率の最小しきい値。
anomaly_segmentation - 異常セグメント化モデルの出力を AnomalySeegmentationPrediction 表現に変換します。
- threshold - 有効なクラスに属する確率の最小しきい値。
tiny_yolo_v1 - Tiny YOLO v1 モデルの出力を DetectionPrediction 表現に変換します。
reid - 再識別モデルの出力を ReIdentificationPrediction 表現に変換します。
- grn_workaround - グローバル領域正規化レイヤーを追加して出力の処理を有効にします (オプション、デフォルトは True)。
- joining_method - 埋め込みを結合するために使用されるメソッド (オプション、サポートされているメソッドは sum と concatenation、デフォルトは sum です)。
- target_out - ターゲット出力レイヤー名 (オプション、モデルで最初に指定しない場合は使用されます)。
- keep_shape - 予測された埋め込みの初期形状を維持できるようにします (オプション、デフォルトは False、モデル出力が平坦化されることを意味します)。
yolo_v2 - YOLO v2 ファミリーモデルの出力を DetectionPrediction 表現に変換します。
- classes - 検出クラスの数 (デフォルトは 20)。
- anchors - カンマで区切ったリストまたは事前計算された次のいずれかとして提供されるアンカー値:
  - yolo_v2 - [1.3221, 1.73145, 3.19275, 4.00944, 5.05587, 8.09892, 9.47112, 4.84053, 11.2364, 10.0071]、
  - tiny_yolo_v2 - [1.08, 1.19, 3.42, 4.41, 6.63, 11.38, 9.42, 5.11, 16.62, 10.52]
- coords - bbox 座標の数 (デフォルトは 4)。
- num - DarkNet 設定ファイルの num パラメーター (デフォルトは 5)。
- cells - 幅と高さのセルの数 (デフォルトは 13)。
- raw_output - 生の YOLO 出力形式の追加の前処理を有効にします (デフォルトは False)。
- output_format - 出力レイヤー形式の設定:
  - BHW - ボックスが最初 (デフォルト、生成された IR のデフォルトでもあります)。
  - HWB - ボックスが最後。ネットワーク出力が 3D (バッチ付きの 4D) テンソルではない場合にのみ適用されます。
yolo_v3 - YOLO v3 ファミリーモデルの出力を DetectionPrediction 表現に変換します。
- classes - 検出クラスの数 (デフォルトは 80)。
- anchors - アンカー値はカンマで区切ったリストとして提供されるか、事前に計算されます:
  - yolo_v3 - [10.0, 13.0, 16.0, 30.0, 33.0, 23.0, 30.0, 61.0, 62.0, 45.0, 59.0, 119.0, 116.0, 90.0, 156.0, 198.0, 373.0, 326.0]
  - tiny_yolo_v3 - [10.0, 14.0, 23.0, 27.0, 37.0, 58.0, 81.0, 82.0, 135.0, 169.0, 344.0, 319.0]
- coords - bbox 座標の数 (デフォルトは 4)。
- num - DarkNet 設定ファイルの num パラメーター (デフォルトは 3)。
- anchor_mask - 出力レイヤーで使用されるアンカーのマスク (オプション、指定されていない場合は、アンカーを選択するデフォルトの方法が使用されます)。
- threshold - 検出の有効な最小物体度スコア値 (デフォルトは 0.001)。
- outputs - 出力レイヤー名のリスト。
- raw_output - 生の YOLO 出力形式の追加の前処理を有効にします (デフォルトは False)。
- output_format - 出力レイヤー形式の設定 - 最初のボックス (BHW) (デフォルト、生成された IR のデフォルト)、最後のボックス (HWB)。ネットワーク出力が 3D (バッチ付きの 4D) テンソルではない場合にのみ適用されます。
- cells - outputs に従って、各レイヤーのグリッドサイズを設定します。do_reshape=True の場合、または出力テンソルの次元が 3 に等しくない場合にのみ機能します。
- do_reshape - output_format 値 (デフォルトでは [B,Cy,Cx]) に応じて、出力テンソルを [B,Cy,Cx] または [Cy,Cx,B] 形式に強制的に再形成します。cells 値を指定する必要がある場合があります。
- transpose - 出力テンソルを指定された形式に転置します (オプション)。
- multiple_labels - 検出オブジェクトに対して複数のラベルを許可します (デフォルトは False)。
yolo_v3_onnx - ONNX Yolo V3 モデルの出力を DetectionPrediction に変換します。
- boxes_out - 境界ボックスのあるレイヤーの名前
- scores_out - 各クラスとボックスのペアの検出スコアを含む出力レイヤーの名前。
- indices_out - インデックスのトリプレット (class_id、score_id、bbox_id) を持つ出力レイヤーの名前。
yolo_v3_tf2 - ボックスデコードが埋め込まれた TensorFlow 2 Yolo V3 の出力を DetectionPrediction に変換します。
- outputs - 出力レイヤー名のリスト。
- score_threshold - 有効なボックスの最小許容スコア (オプション、デフォルトは 0)。
yolo_v5 - YOLO v5 ファミリーモデルの出力を DetectionPrediction 表現に変換します。パラメーターは yolo_v3 モデルの場合と同じです。
yolof - YOLOF モデルの出力を DetectionPrediction 表現に変換します。パラメーターは yolo_v3 モデルの場合と同じです。
yolor - YOLOR モデルの出力を DetectionPrediction 表現に変換します。
- output_name - 出力レイヤーの名前。
- threshold - 検出の有効な最小オブジェクトネス・スコア値 (オプション、デフォルトは 0.001)。
- num - DarkNet 設定ファイルの num パラメーター (オプション、デフォルトは 5)。
yolox - YOLOX モデルの出力を DetectionPrediction 表現に変換します。
- output_name - 出力レイヤーの名前 (オプション)。
- threshold - 検出の有効な最小オブジェクトネス・スコア値 (オプション、デフォルトは 0.001)。
- num - DarkNet 設定ファイルの num パラメーター (オプション、デフォルトは 5)。
yolo_v8_detection - オブジェクト検出用に事前トレーニングされた YOLO v8 ファミリーの出力を DetectionPrediction に変換します。
- conf_threshold - 有効な検出をフィルタリングするための最小信頼度 (オプション、デフォルトは 0.25)。
- multi_label - 同じボックス座標に複数のラベルを使用できるようにします (オプション、デフォルトは True)。
lpr - ナンバープレート認識モデルの出力を CharacterRecognitionPrediction 表現に変換します。
aocr - アテンション OCR モデルの出力を CharacterRecognitionPrediction に変換します。
- output_blob - 予測されたラベルまたは文字列を含む出力レイヤーの名前 (オプション、指定しない場合は、最初に見つかった出力が使用されます)。
- labels - オプション、生ラベルのデコードにサポートされるトークンのリスト (オプション、デフォルト設定は ASCII チャームマップであり、モデルにデコード部分がある場合、このパラメーターは無視されます)。
- eos_index - ラベル内の文字列トークンの終わりのインデックス。(オプション、デフォルトは 2、モデルにデコード部分がある場合は無視されます)。
- to_lower_case - デコードされた文字を小文字に変換できるようにします (オプション、デフォルトは True)。
ppocr - PaddlePaddle CRNN のようなモデル出力を CharacterRecognitionPrediction に変換します。
- vocabulary_file - デコード用の認識記号を含むファイル。
- remove_duplicates - 重複したシンボルの削除を許可します (オプション、デフォルト値 - True)。
ssd - SSD モデルの出力を DetectionPrediction 表現に変換します。
ssd_mxnet - SSD ベースのモデルの出力を MXNet フレームワークから DetectionPrediction 表現に変換します。
pytorch_ssd_decoder - 組み込みデコーダーを使用せずに、PyTorch からの SSD モデルの出力を変換します。
- scores_out - 境界ボックススコアを含む出力レイヤーの名前。
- boxes_out - 境界ボックスの座標を含む出力レイヤーの名前。
- confidence_threshold - 有効なボックススコアの下限 (オプション、デフォルトは 0.05)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.5)。
- keep_top_k - 保持する必要があるボックスの最大数 (オプション、デフォルトは 200)。
- feat_size - [[feature_width, feature_height], …] 形式の機能サイズ (オプション、MLPerf から取得したデフォルト値)
- do_softmax - 検出スコアにソフトマックスを適用するかどうかを示すブールタイプのフラグ。(オプション、デフォルトは True)。
ssd_onnx - NonMaxSuppression レイヤーを使用して PyTorch からの SSD ベースのモデルの出力を変換します。
- labels_out - ラベルまたは検索用の正規表現を含む出力レイヤーの名前。
- scores_out - スコアまたは検索用の正規表現を含む出力レイヤーの名前。オプション、モデルにスコアとボックス座標が連結されている場合は指定できません。
- bboxes_out - 検索用の bbox または正規表現を含む出力レイヤーの名前。
ssd_tf - SSD ベースのモデルの出力を TensorFlow フレームワークから DetectionPrediction 表現に変換します。
- labels_out - ラベルまたは検索用の正規表現を含む出力レイヤーの名前。
- scores_out - スコアまたは検索用の正規表現を含む出力レイヤーの名前。
- bboxes_out - 検索用の bbox または正規表現を含む出力レイヤーの名前。
tf_object_detection - 検出モデルの出力を TensorFlow オブジェクト検出 API から DetectionPrediction に変換します。
- classes_out - 予測されたクラスを含む出力レイヤーの名前。
- boxes_out - [y0, x0, y1, x1] 形式の予測ボックス座標を含む出力レイヤーの名前。
- scores_out - 検出スコアを含む出力レイヤーの名前。
- num_detections_out - 有効な検出の数を含む出力レイヤーの名前。
faster_rcnn_onnx - ONNX Faster RCNN モデルの出力を DetectionPrediction に変換します。
- labels_out - ラベルを含む出力レイヤーの名前。ラベルがボックスおよびスコアと連結されている場合はオプションです (ボックス出力のみが提供され、形状は [N, 6] です)。
- scores_out - スコアを含む出力レイヤーの名前。スコアがボックスと連結されている場合はオプションです (ボックス出力の形状は [N, 5])。
- bboxes_out - bbox を含む出力レイヤーの名前。
retinanet - RetinaNet ベースのモデルの出力を変換します。
- loc_out - 境界ボックスデルタを含む出力レイヤーの名前。
- class_out - 分類確率を含む出力レイヤーの名前。
retinanet_multihead - RetinaNet モデルの出力を複数レベルの出力に変換します。
- boxes_outputs - ボックス付きの出力のリスト。
- class_outputs - クラス確率を含む出力のリスト。重要: ボックスの出力とクラスの出力の数は同じでなければなりません。
- ratios - アンカー生成の比率のリスト (オプション、デフォルトは [1.0、2.0、0.5])。
- pre_nms_top_k - NMS が適用される前に上位 k 個のボックスを保持します (オプション、デフォルトは 1000)。
- post_nms_top_k - NMS 適用後の最終検出数 (オプション、デフォルトは 100)。
- nms_threshold - NMS のしきい値 (オプション、デフォルトは 0.5)。
- min_conf - 検出の最小信頼しきい値 (オプション、デフォルトは 0.05)。
retinanet_tf2 - TensorFlow 2 公式実装からの RetinaNet ベースのモデルの出力を変換します。
- boxes_outputs - ボックス付きの出力のリスト。
- class_outputs - クラス確率を含む出力のリスト。重要: ボックスの出力とクラスの出力の数は同じでなければなりません。
- aspect_ratios - アンカー生成のアスペクト比のリスト (オプション、デフォルトは [1.0、2.0、0.5])。
- min_level - 最小ピラミッドレベル (オプション、デフォルトは 3)。
- max_level - 最大ピラミッドレベル (オプション、デフォルトは 7)。
- num_scales - アンカースケールの数 (オプション、デフォルトは 3)。
- anchor_size - アンカーボックスのサイズ (オプション、デフォルトは 4)。
- pre_nms_top_k - NMS が適用される前に上位 k 個のボックスを保持します (オプション、デフォルトは 5000)。
- total_size - NMS 適用後の最終検出数 (オプション、デフォルトは 100)。
- nms_threshold - NMS のしきい値 (オプション、デフォルトは 0.5)。
- score_threshold - 検出の最小信頼しきい値 (オプション、デフォルトは 0.05)。
rfcn_class_agnostic - Caffe RFCN モデルの出力を、境界ボックスにとらわれない回帰アプローチで変換します。
- cls_out - 各クラスの検出された確率を含む出力レイヤーの名前。レイヤーの形状は [num_boxes, num_classes] です。ここで、num_boxes は予測ボックスの数、num_classes - 背景を含むデータセット内のクラスの数です。
- bbox_out - 検出されたボックスデルタを含む出力レイヤーの名前。レイヤーの形状は [num_boxes, 8] です。ここで、num_boxes は予測ボックスの数、8 (背景に 4 + 前景に 4) の境界ボックスの座標です。
- roid_out - 対象領域を含む出力レイヤーの名前。
ppdetection - PaddlePaddle 物体検出モデルの出力を DetectionPrediction に変換します。
- boxes_out - [[label, score, x_min, y_min, x_max, y_max] ... の形式で予測されたボックスを含む出力レイヤーの名前。
- num_boxes_out - バッチ内の各画像の予測ボックスの数を含む出力レイヤーの名前。
face_person_detection - 2 つの検出出力を持つ顔人物検出モデル出力を ContainerPredition に変換します。ここで、パラメーター face_out と person_out の値は、コンテナ内の DetectionPrediction の識別に使用されます。
- face_out - 顔検出出力レイヤー名。
- person_out - 人物検出出力レイヤー名。
person_attributes - 人物属性認識モデルの出力を MultiLabelRecognitionPrediction に変換します。
- attributes_recognition_out - 属性スコアを含む出力レイヤー名。(オプション、モデルに複数の出力がある場合に使用されます)。
vehicle_attributes - 車両属性認識モデルの出力を ContainerPrediction に変換します。ここで、パラメーター color_out および type_out の値は、コンテナ内での識別 ClassificationPrediction に使用されます。
- color_out - 車両の色属性の出力レイヤー名。
- type_out - 車両タイプ属性の出力レイヤー名。
head_pose - 頭部姿勢推定モデルの出力を ContainerPrediction に変換します。ここで、パラメーター angle_pitch、angle_yaw および angle_roll の名前は、コンテナ内の RegressionPrediction の識別に使用されます。
- angle_pitch - ピッチ角の出力レイヤー名。
- angle_yaw - ヨー角の出力レイヤー名。
- angle_roll - ロール角の出力レイヤー名。
age_gender - 年齢性別認識モデルの出力を ContainerPrediction に変換します。性別認識には gender という名前の ClassificationPrediction、年齢認識には age_classification という名前の ClassificationPrediction、および age_error という名前の RegressionPrediction を使用します。
- age_out - 年齢認識用の出力レイヤー名。
- gender_out - 性別認識用の出力レイヤー名。
age_recognition - 年齢認識モデルの出力を、年齢認識に age_classification という名前の ClassificationPrediction と age_error という名前の RegressionPrediction を使用して ContainerPrediction に変換します。
- age_out - 年齢認識のための出力レイヤー名 (オプション)。
action_detection - 人物検出およびアクション認識タスクのモデルの出力を、クラスに依存しないメトリック計算用の DetectionPrediction とアクション認識用の ActionDetectionPrediction を使用した ContainerPrediction に変換します。コンテナの表現には、それぞれ class_agnostic_prediction および action_prediction という名前が付いています。
- priorbox_out - SSD 形式の前のボックスを含むレイヤーの名前。
- loc_out - SSD 形式のボックス座標を含むレイヤーの名前。
- main_conf_out - 検出の信頼度を含むレイヤーの名前。
- add_conf_out_prefix - トポロジーに後続の複数のレイヤーまたはレイヤー名がある場合、アクションの信頼度を含むレイヤーの世代のプリフィクス。
- add_conf_out_count - アクションの信頼度を含むレイヤーの数 (オプション、アクションの信頼度が 1 つのレイヤーに含まれている場合は、この引数を指定できません)。
- num_action_classes - アクション認識のための数値クラス。
- detection_threshold - 有効な検出の最小検出信頼レベル。
- actions_scores_threshold - 有効な検出のための最小限のアクションの信頼レベル。
- action_scale - 正しいアクションスコアを計算するスケール。
image_processing - 単一画像処理用のネットワークの出力を ImageProcessingPrediction に変換します。
- reverse_channels - 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション。デフォルトは False) です。
- mean - 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)
- std - 範囲 [0, 255] の値を取得するために結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255) 重要通常、mean と std は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。アクションの順序:
1. std で乗算
2. mean を加算
3. このオプションが有効な場合、チャネルを反転します。
- target_out - モデルに複数の出力があるターゲットモデルの出力レイヤー名。
super_resolution - 単一画像超解像度ネットワークの出力を SuperResolutionPrediction に変換します。
- reverse_channels - 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション。デフォルトは False) です。
- mean - 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)
- std - 範囲 [0, 255] の値を取得するため結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255)
- cast_to_uint8 - 出力画像ピクセルを [0, 255] 範囲にキャストします。重要通常、mean と std は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。アクションの順序:
1. std で乗算
2. mean を加算
3. このオプションが有効な場合、チャネルを反転します。
- target_out - モデルに複数の出力がある場合の超解像度モデルの出力レイヤー名。
multi_target_super_resolution - 複数の出力を持つ出力超解像度ネットワークを、出力ごとに SuperResolutionPrediction を使用して ContainerPrediction に変換します。
- reverse_channels - 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション。デフォルトは False) です。
- mean - 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)
- std - 範囲 [0, 255] の値を取得するため結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255)
- cast_to_uint8 - 出力画像ピクセルを [0, 255] 範囲にキャストします。重要通常、mean と std は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。アクションの順序:
1. std で乗算
2. mean を加算
3. このオプションが有効な場合、チャネルを反転します。
- target_mapping - ここで、キーは ConverterPrediction 内でキーとして使用される解決済みタスクの名前、値は出力レイヤー名です。
super_resolution_yuv - YUV 形式で出力を返す超解像度モデルの出力を SuperResolutionPrediction に変換します。各出力レイヤーには 1 つのチャネルのみが含まれます。
- y_output - Y チャネルの出力レイヤー。
- u_output - U チャネルの出力レイヤー。
- v_output - V チャネルの出力レイヤー。
- target_color - 超解像度画像のターゲット色空間 - bgr および rgb がサポートされています。(オプションであり、デフォルトは bgr)。
landmarks_regression - ランドマーク回帰のモデルの出力を FacialLandmarksPrediction または HandLandmarksPrediction に変換します。
- landmarks_out - ランドマークの出力レイヤー。
- landmarks_step - ランドマークごとの座標の数 (オプション、デフォルトは 2)。
- is_hand_landmarks - FacialLandmarksPrediction の代わりに HandLandmarksPrediction への変換を許可します (オプション、デフォルトは False)。
pixel_link_text_detection - テキスト検出用の PixelLink のようなモデルの出力を TextDetectionPrediction に変換します。
- pixel_class_out - 各ピクセルのテキスト/非テキスト分類に関連する情報を含むレイヤーの名前。
- pixel_link_out - ピクセルとその隣接ピクセル間のリンクに関する情報を含むレイヤーの名前。
- pixel_class_confidence_threshold - 有効なセグメント化マスクの信頼度のしきい値 (オプション、デフォルトは 0.8)。
- pixel_link_confidence_threshold - 有効なピクセルリンクの信頼しきい値 (オプション、デフォルトは 0.8)。
- min_area - 有効なテキスト予測の最小領域 (オプション、デフォルトは 0)。
- min_height - 有効なテキスト予測の最小高 (オプション、デフォルトは 0)。
ctpn_text_detection - テキスト検出用の CTPN のようなモデルの出力を TextDetectionPrediction に変換します。
- cls_prob_out - クラスの確率を含む出力レイヤーの名前。
- bbox_pred_out - 予測されたボックスを含む出力レイヤーの名前。
- min_size - 検出された有効なテキスト提案の最小サイズ (オプション、デフォルトは 8)。
- min_ratio - 有効なテキスト行の最小幅/高の比率 (オプション、デフォルトは 0.5)。
- line_min_score - テキスト行の最小信頼度 (オプション、デフォルトは 0.9)。
- text_proposals_width - テキスト提案の最小幅 (オプション、デフォルトは 16)。
- min_num_proposals - テキスト提案の最小数 (オプション、デフォルトは 2)。
- pre_nms_top_n - NMS 適用前に保存された上位 n 個のプロポーザル (オプション、デフォルトは 12000)。
- post_nms_top_n - NMS 適用後に保存された上位 n 個のプロポーザル (オプション、デフォルトは 1000)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.7)。
east_text_detection - テキスト検出用の EAST のようなモデルの出力を TextDetectionPrediction に変換します。
- score_map_out - スコアマップを含む出力レイヤーの名前。
- geometry_map_out - ジオメトリー・マップを含む出力レイヤーの名前。
- score_map_threshold - スコアマップのしきい値 (オプション、デフォルトは 0.8)。
- nms_threshold - テキストボックス NMS のしきい値 (オプション、デフォルトは 0.2)。
- box_threshold - テキストボックスの最小信頼しきい値 (オプション、デフォルトは 0.1)。
craft_text_detection - テキスト検出用の CRAFT のようなモデルの出力を TextDetectionPrediction に変換します。
- score_out - スコアマップを含む出力レイヤーの名前。
- text_threshold - テキストの信頼度のしきい値 (オプション、デフォルトは 0.7)。
- link_threshold - リンク信頼度のしきい値 (オプション、デフォルトは 0.4)。
- low_text - テキストの下限スコア (オプション、デフォルトは 0.4)。
ppocr_det - 出力 PPOCR テキスト検出モデルを TextDetectionPrediction に変換します。
- threshold - セグメント化ビットマップのしきい値 (オプション、デフォルトは 0.3)。
- box_threshold - 信頼度のしきい値による予測ボックスのフィルタリング (オプション、デフォルトは 0.7)。
- max_candidates - 考慮すべき検出された候補の最大数 (オプション、デフォルトは 1000)。
- unclip_ratio - アンクリップ率 (オプション、デフォルトは 2)。
- min_size - 最小ボックスサイズ (オプション、デフォルトは 3)。
facial_landmarks_detection - 顔ランドマーク検出用のモデルの出力を FacialLandmarksHeatMapPrediction に変換します。
human_pose_estimation - 人間の姿勢推定のモデルの出力を PoseEstimationPrediction に変換します。
- part_affinity_fields_out - キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。
- keypoints_heatmap_out - キーポイント・ヒートマップを含む出力レイヤーの名前。モデルに出力レイヤーが 1 つだけ (この 2 つの出力レイヤーを連結したもの) である場合、出力レイヤーは省略できます。
human_pose_estimation_openpose - 人間の姿勢推定のための OpenPose に似たモデルの出力を PoseEstimationPrediction に変換します。
- part_affinity_fields_out - キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。
- keypoints_heatmap_out - キーポイント・ヒートマップを含む出力レイヤーの名前。
- upscale_factor - 後処理前のヒートマップとパーツ・アフィニティー・フィールドのアップスケーリング係数。
human_pose_estimation_ae - 人間の姿勢推定の連想埋め込み型モデルの出力を PoseEstimationPrediction に変換します。
- heatmaps_out - キーポイント・ヒートマップを含む出力レイヤーの名前。
- nms_heatmaps_out - 非最大抑制後のキーポイント・ヒートマップを含む出力レイヤーの名前。
- embeddings_out - 埋め込み (タグ) マップを含む出力レイヤーの名前。
beam_search_decoder - シンボルシーケンス認識用の CTC Beam Search デコーダーを実現し、モデル出力を CharacterRecognitionPrediction に変換します。
- beam_size - デコード中に使用するビームのサイズ (デフォルトは 10)。
- blank_label - CTC ブランクラベルのインデックス。
- softmaxed_probabilities - モデルが出力レイヤーにソフトマックスを使用することを示すインジケーター (デフォルトは False)。
- logits_output - デコーダーで使用するネットワークの出力レイヤーの名前
- custom_label_map - 文字列の辞書としてのアルファベット。CTC アルゴリズムの空白記号を含める必要があります (dataset_meta または vocabulary_file で指定されている場合はオプション)。
- vocabulary_file - モデル語彙を含むファイル。txt ファイルとして表され、各ラベルが独自の行に配置されます (オプション)。
ctc_greedy_search_decoder - シンボルシーケンス認識用の CTC Greedy Search デコーダーを実現し、モデル出力を CharacterRecognitionPrediction に変換します。
- blank_label - CTC ブランクラベルのインデックス (デフォルトは 0)。
- logits_output - ネットワークの出力レイヤーの名前 (オプション)。
- custom_label_map - 文字列の辞書としてのアルファベット。CTC アルゴリズムの空白記号を含める必要があります (dataset_meta または vocabulary_file で指定されている場合はオプション)。
- vocabulary_file - モデル語彙を含むファイル。txt ファイルとして表され、各ラベルが独自の行に配置されます (オプション)。
- shift_labels - ラベルマップ ID が 0 位置に空白ラベルなしで表現されている場合は、ラベルマップ ID を 1 にシフトします (オプション、デフォルトは False)。
simple_decoder - テキスト認識モデルの最も簡単なデコーダー。クラスのインデックスを指定された文字に変換し、eos_label の最初のエントリーで出力をスライスします。
- eos_label - デコードを終了するラベル (オプション、デフォルトは [s])。
- start_label - デコードを開始するラベル (オプション)。
- custom_label_map - ラベルマップ (データセット・メタによって提供されない場合)。
- start_index - 予測データの開始インデックス (オプション、デフォルトは 0)。
- do_lower - 予測データを小文字に変換できます (オプション、デフォルトは False)。
- vocabulary_file - デコードラベルを含むファイル (オプション)。
ctc_beam_search_decoder - 音声認識用 LM を使用しない CTC ビーム検索デコーダーの Python 実装。
ctc_greedy_decoder - 音声認識用の積極的な CTC デコーダー。
ctc_beam_search_decoder_with_lm - 音声認識用の kenlm バイナリー形式の N-gram 言語モデルを使用した CTC ビーム検索デコーダーの Python 実装。
- beam_size - デコード中に使用するビームのサイズ (デフォルトは 10)。
- logarithmic_prob - “True” に設定すると、ネットワークが自然対数確率を与えることを示します。単純な確率 (ソフトマックス後) のデフォルトは False です。
- probability_out - 文字確率を含むネットワークの出力の名前 (必須)
- alphabet - 文字列のリストとしてのアルファベット。CTC 空白シンボルには空の文字列を含めます。デフォルトは、スペース + 26 文字の英字 + アポストロフィ + 空白です。
- sep - 単語の区切り文字。文字ベースの LM には空の文字列を使用します。デフォルトはスペースです。
- lm_file - –model_attributes または –models を基準としたバイナリー kenlm 形式の LM へのパス。デフォルトは LM なしのビームサーチです。
- lm_alpha - LM アルファ: LM スコアの重み係数 (LM を使用する場合に必要)
- lm_beta - LM ベータ: log_e 単位での追加単語ごとのスコアボーナス (LM を使用する場合に必要)
- lm_oov_score - 語彙外の単語の LM スコアをこの値に置き換えます (デフォルトは 1000、LM なしでは無視されます)
- lm_vocabulary_offset - LM ファイルの語彙文字列セクションの始まり。デフォルトでは、語彙を使用して候補単語をフィルタリングしません (LM なしでは無視されます)
- lm_vocabulary_length - LM ファイル内の語彙文字列セクションのバイト単位のサイズ (LM なしでは無視されます)
fast_ctc_beam_search_decoder_with_lm - 音声認識用の kenlm バイナリー形式の N-gram 言語モデルを備えた CTC ビーム検索デコーダーは、<omz_dir>/demos/speech_recognition_deepspeech_demo/python/ctcdecode-numpy/ ディレクトリーにある ctcdecode_numpy Python モジュールに依存します。
- beam_size - デコード中に使用するビームのサイズ (デフォルトは 10)。
- logarithmic_prob - “True” に設定すると、ネットワークが自然対数確率を与えることを示します。単純な確率 (ソフトマックス後) のデフォルトは False です。
- probability_out - 文字確率を含むネットワークの出力の名前 (必須)
- alphabet - 文字列のリストとしてのアルファベット。CTC 空白シンボルには空の文字列を含めます。デフォルトは、スペース + 26 文字の英字 + アポストロフィ + 空白です。
- sep - 文字ベースの LM の場合は空の文字列に設定します。デフォルトはスペースです。
- lm_file - –model_attributes または –models を基準としたバイナリー kenlm 形式の LM へのパス。デフォルトは LM なしのビームサーチです。
- lm_alpha - LM アルファ: LM スコアの重み係数 (LM を使用する場合に必要)
- lm_beta - LM ベータ: log_e 単位での追加単語ごとのスコアボーナス (LM を使用する場合に必要)
wav2vec - 出力 Wav2Vec モデルを CharacterRecognitionPrediction にデコードします。
- alphabet - 変換 token_id でサポートされているトークンのリスト。
- pad_token - アルファベットのパディングを表すトークン (wav2vec はこのトークンを CTC-blank として使用します) オプション、デフォルトは <pad>。
- words_delimeter - 連続する単語間の区切り文字を表わすトークン。オプションであり、デフォルトは |。
- group_tokens - 繰り返されるトークンを 1 つずつ置き換えることができます。オプションであり、デフォルトは True。
- lower_case - 結果を小文字に変換できるようにします。オプションであり、デフォルトは False。
- cleanup_whitespaces - 余分な空白を 1 つにマージできます。オプションであり、デフォルトは True。
gaze_estimation - 視線推定モデルの出力を GazeVectorPrediction に変換します。
hit_ratio_adapter - 出力 NCF モデルを HitRatioPrediction に変換します。
brain_tumor_segmentation - 脳腫瘍セグメント化モデルの出力を BrainTumorSegmentationPrediction に変換します。
- segmentation_out - セグメント化出力レイヤー名。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。
- make_argmax - argmax 演算を出力値に適用できます。(デフォルト - False)
- label_order - 出力クラスからデータセット・クラスへのマッピングを設定します。例: label_order: [3,1,2] は、モデルの出力の ID 3 のクラスはデータセットの ID 1 のクラスと一致し、モデルの出力の ID 1 のクラスはデータセットの ID 2 のクラスと一致し、モデルの出力の ID 2 のクラスはデータセットの ID 3 のクラスと一致します。
nmt - ニューラル機械翻訳モデルの出力を MachineTranslationPrediction に変換します。
- vocabulary_file - モデルが予測した単語のインデックスをエンコードする語彙を含むファイル (vocab.bpe.32000.de など)。パスには --models 引数でプリフィクスを付けることができます。
- eos_index - 語彙内の文字列の終わりのシンボルのインデックス (オプション、ランチャーが空の予測をカットオフする動的出力形状をサポートしていない場合に使用されます)。
bert_question_answering_embedding - 埋め込みベクトルを生成するようにトレーニングされた BERT モデルの出力を QuestionAnsweringEmbeddingPrediction に変換します。
narnmt - 非自己回帰ニューラル機械翻訳モデルの出力を MachineTranslationPrediction に変換します。
- vocabulary_file - モデルが予測した単語のインデックスをエンコードする語彙を含むファイル (vocab.json など)。パスには --models 引数でプリフィクスを付けることができます。
- merges_file - モデルが予測した単語へのインデックスをエンコードするマージを含むファイル (例: merges.txt)。パスには --models 引数でプリフィクスを付けることができます。
- output_name - 必要に応じて、モデルの出力レイヤーの名前 (オプション)。
- sos_symbol - start_of_sentence シンボルの文字列表現 (デフォルト = <s>)。
- eos_symbol - end_of_sentence シンボルの文字列表現 (デフォルト = </s>)。
- pad_symbol - パッド記号の文字列表現 (デフォルト = <pad>)。
- remove_extra_symbols - 予測文字列から sos/eos/pad シンボルを削除します (デフォルト = True)
bert_question_answering - 質問応答タスクを解決するためにトレーニングされた BERT モデルの出力を QuestionAnsweringPrediction に変換します。
bidaf_question_answering - 質問応答タスクを解決するためにトレーニングされた BiDAF モデルの出力を QuestionAnsweringPrediction に変換します。
- start_pos_output - 回答の開始位置を含む出力レイヤーの名前。
- end_pos_output - 回答の終了位置を含む出力レイヤーの名前。
bert_classification - テキスト分類タスク用にトレーニングされた BERT モデルの出力を、ClassificationPrediction に変換します。
- num_classes - 予測されたクラスの数。
- classification_out - 分類確率を含む出力レイヤーの名前。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。
- single_score - モデルがバイナリー分類の場合のクラス ID またはクラス 1 に属する確率を表す単一の値を返すことを強調します (オプション、デフォルトは False)。
bert_ner - 固有表現認識タスク用にトレーニングされた BERT モデルの出力を SequenceClassificationPrediction に変換します。
- classification_out - 分類確率を含む出力レイヤーの名前。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。
human_pose_estimation_3d - 3D 人間の姿勢推定のためのモデルの出力を PoseEstimation3dPrediction に変換します。
- features_3d_out - 3D 座標マップを含む出力レイヤーの名前。
- keypoints_heatmap_out - キーポイント・ヒートマップを含む出力レイヤーの名前。
- part_affinity_fields_out - キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。
ctdet - CenterNet オブジェクト検出モデルの出力を DetectionPrediction に変換します。
- center_heatmap_out - 中心点のヒートマップを含む出力レイヤーの名前。
- width_height_out - オブジェクト・サイズを含む出力レイヤーの名前。
- regression_out - オフセット予測を使用した回帰出力の名前。
mask_rcnn - Mask-RCNN の生の出力を DetectionPrediction と CoCoInstanceSegmentationPrediction の組み合わせに変換します。
- classes_out - クラスに関する情報を含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。
- scores_out - bbox スコアを含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。
- boxes_out - bbox を含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。
- raw_masks_out - raw インスタンス・マスクを含む出力レイヤーの名前。
- num_detections_out - 有効な検出数を含む出力レイヤーの名前 (TF オブジェクト検出 API でトレーニングされた MaskRCNN モデルで使用)。
- detection_out - SSD のような検出出力レイヤー名 (モデルに scores_out、boxs_out、classes_out がある場合はオプション)。
mask_rcnn_with_text - 追加のテキスト認識ヘッドを備えた Mask-RCNN の生の出力を TextDetectionPrediction に変換します。
- classes_out - クラスに関する情報を含む出力レイヤーの名前。
- scores_out - bbox スコアを含む出力レイヤーの名前。
- boxes_out - bbox を含む出力レイヤーの名前。
- raw_masks_out - raw インスタンス・マスクを含む出力レイヤーの名前。
- texts_out - テキストを含む出力レイヤーの名前。
- confidence_threshold - 検出されたインスタンスを除外するために使用される信頼度のしきい値。
yolact - Yolact モデルの生の出力を DetectionPrediction と CoCoInstanceSegmentationPrediction の組み合わせに変換します。
- loc_out - ボックスの位置を含む出力レイヤーの名前。モデルに埋め込まれたボックスをデコードする場合はオプション。
- prior_out - 前のボックスを含む出力レイヤーの名前。モデルに埋め込まれたボックスをデコードする場合はオプション。
- boxes_out - デコードされた出力ボックスを含む出力レイヤーの名前。モデルにボックスデコード用の事前の loc 出力がある場合はオプション。
- conf_out - 各ボックスのすべてのクラスの信頼スコアを含む出力レイヤーの名前。
- mask_out - インスタンス・マスクを含む出力レイヤーの名前。
- proto_out - マスク計算用のプロトを含む出力レイヤーの名前。
- confidence_threshold - 検出されたインスタンスを除外するために使用される信頼度のしきい値 (オプション、デフォルトは 0.05)。
- max_detections - メトリックの計算に使用される最大検出値 (オプション、デフォルトは 100)。
class_agnostic_detection - 検出モデルの ‘boxes’ [n, 5] 出力を DetectionPrediction 表現に変換します。
- output_blob - bbox を含む出力レイヤーの名前。
- scale - bbox 座標を正規化するスカラー値または 2 つの値を含むリスト。
mono_depth - 単眼奥行き推定モデルの出力を DepthEstimationPrediction に変換します。
inpainting - 画像修復モデルの出力を ImageInpaintingPrediction 表現に変換します。
style_transfer - スタイル転送モデルの出力を StyleTransferPrediction 表現に変換します。
retinaface - RetinaFace モデルの出力を DetectionPrediction または DetectionPrediction、AttributeDetectionPrediction、FacialLandmarksPrediction を使用した表現コンテナに変換します (出力セットに応じて異なります)。
- scores_outputs - 32、16、8 ストライドに属する順の顔検出スコアを持つ出力レイヤーの名前のリスト。
- bboxes_outputs - 32 ストライド、16 ストライド、8 ストライドに属する順の顔検出ボックスを含む出力レイヤーの名前のリスト。
- landmarks_outputs - 32 ストライド、16 ストライド、8 ストライドに属する順序で予測された顔ランドマークを持つ出力レイヤーの名前のリスト (オプション。指定しない場合は、DetectionPrediction のみが生成されます)。
- type_scores_outputs - 32、16、8 ストライドに属する順序で属性検出スコアを持つ出力レイヤーの名前のリスト (オプション。指定しない場合は、DetectionPrediction のみが生成されます)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.5)。
- keep_top_k - 保持する必要があるボックスの最大数 (オプション)。
- include_boundaries - NMS の境界を含めることができます (オプション、デフォルトは False)。
retinaface-pytorch - RetinaFace PyTorch モデルの出力を DetectionPrediction または DetectionPrediction、FacialLandmarksPrediction を使用した表現コンテナに変換します (提供された出力セットに応じて異なります)
- scores_output - 顔検出スコアを含む出力レイヤーの名前。
- bboxes_output - 顔検出ボックスを含む出力レイヤーの名前。
- landmarks_output - 予測された顔のランドマークを含む出力レイヤーの名前 (オプション、指定しない場合は、DetectionPrediction のみが生成されます)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.4)。
- keep_top_k - 保持する必要があるボックスの最大数 (オプション、デフォルトは 750)。
- include_boundaries - NMS の境界を含めることができます (オプション、デフォルトは False)。
- confidence_threshold - 検出されたインスタンスを除外するために使用される信頼度のしきい値 (オプション、デフォルトは 0.02)。
faceboxes - FaceBoxes モデルの出力を DetectionPrediction 表現に変換します。
- scores_out - 境界ボックススコアを含む出力レイヤーの名前。
- boxes_out - 境界ボックスの座標を含む出力レイヤーの名前。
prnet - 3D ランドマーク回帰タスクの PRNet モデルの出力を FacialLandmarks3DPrediction に変換します。
- landmarks_ids_file - 位置ヒートマップからランドマークを抽出するインデックスを含むファイル。(オプション、デフォルト値はこちらで定義されています)
person_vehicle_detection - 人物車両検出モデルの出力を DetectionPrediction 表現に変換します。アダプターはスコアをマージし、予測を人物と車両にグループ化して、それに応じてラベルを割り当てます。
- iou_threshold - NMS 動作の IOU しきい値。
face_detection - 顔検出モデルの出力を DetectionPrediction 表現に変換します。操作は、モデル出力を定義されたアンカー、ウィンドウスケール、ウィンドウの変換、およびウィンドウの長さにマッピングして顔候補のリストを生成することで実行されます。
- score_threshold - 顔が有効であるか識別するスコアしきい値。
- layer_names - ターゲット出力レイヤーのベース名。
- anchor_sizes - 各ベース出力レイヤーのアンカーサイズ。
- window_scales - 各基本出力レイヤーのウィンドウスケール。
- window_lengths - 各基本出力レイヤーのウィンドウの長さ。
face_detection_refinement - 顔検出改良モデルの出力を DetectionPrediction 表現に変換します。アダプターは、前のステージのモデルで生成された候補を絞り込みます。
- threshold - 有効な顔候補を決定するスコアのしきい値。
attribute_classification - 属性分類モデルの出力を、属性とそのスコアに関する複数の ClassificationPrediction を含む ContainerPrediction に変換します。
- output_layer_map - キーが属性分類モデルの出力レイヤー名、値が属性の名前である辞書。
regression - 回帰モデルの出力を RegressionPrediction 表現に変換します。
- keep_shape - 予測された多次元配列の形状を維持できるようにします (オプション、デフォルトは False)。
multi_output_regression - gt データを使用した回帰のために、生の出力特徴を RegressionPrediction に変換します。
- output - ターゲット出力名のリスト。
- ignore_batch - 出力バッチサイズを無視するかどうか。オンライン・ビデオ・ストリームを処理する場合、出力バッチサイズは無視されます。デフォルトは False です。
mixed - 任意のモデルの出力を、複数のタイプの予測を含む ContainerPrediction に変換します。
- adapters - 辞書。キーは出力名、値はモデルの出力とアダプターを関連付ける output_blob キーを含むアダプター構成マップです。
person_vehilce_detection_refinement - 人物車両検出改良モデルの出力を DetectionPrediction 表現に変換します。アダプターは、前のステージのモデルで生成されたプロポーズを改良します。
head_detection - 頭部検出モデルの出力を DetectionPrediction 表現に変換します。操作は、モデル出力を定義されたアンカー、ウィンドウスケール、ウィンドウの変換、およびウィンドウの長さにマッピングして頭の候補リストを生成することで実行されます。
- score_threshold - 顔が有効であるか識別するスコアしきい値。
- anchor_sizes - 各ベース出力レイヤーのアンカーサイズ。
- window_scales - 各基本出力レイヤーのウィンドウスケール。
- window_lengths - 各基本出力レイヤーのウィンドウの長さ。
face_recognition_quality_assessment - 顔認識品質評価モデルの出力を QualityAssessmentPrediction 表現に変換します。
duc_segmentation - DUC セマンティック・セグメント化モデルの出力を DUCSegmentationAdapter 表現に変換します
- ds_rate - ダウンサンプル・レートを指定します。
- cell_width - 予測を抽出するセルの幅を指定します。
- label_num - 出力ラベルクラスの数を指定します。
stacked_hourglass - 単一の人間の姿勢推定に対する積み上げ砂時計ネットワークの出力を PoseEstimationPrediction に変換します。
- score_map_output - スコアマップを取得するための出力レイヤーの名前 (オプション、指定しない場合はデフォルトの出力ブロブが使用されます)。
dna_seq_beam_search - ビーム検索デコードを使用して、DNA シーケンスモデルの出力を DNASequencePrediction に変換します。
- beam_size - CTC ビーム検索のビームサイズ (オプション、デフォルトは 5)。
- threshold - ビームカットしきい値 (オプション、デフォルトは 1e-3)。
- output_blob - シーケンス予測を含む出力レイヤーの名前 (オプション、指定されていない場合はモデルから自動的に選択されます)。
dna_seq_crf_beam_search - ビーム検索デコードを使用して、DNA シーケンシング CRF モデルの出力を DNASequencePrediction に変換します。
- output_blob - シーケンス予測を含む出力レイヤーの名前 (オプション、指定されていない場合はモデルから自動的に選択されます)。
pwcnet - PWCNet ネットワークの出力を OpticalFlowPrediction に変換します。
- flow_out - ターゲット出力レイヤー名。
salient_object_detection - 顕著な物体検出モデルの出力を SalientRegionPrediction に変換します。
- salient_map_output - 顕著性マップを取得するターゲット出力レイヤー (オプション、指定しない場合はデフォルトの出力ブロブが使用されます)。
two_stage_detection - 2 段階検出器の出力を DetectionPrediction に変換します。
- boxes_out - BxNx[x_min, y_min, width, height] 形式の境界ボックスを含む出力。ここで、B - ネットワーク・バッチ・サイズ、N - 検出されたボックスの数。
- cls_out - [BxNxC] 形式の分類確率を含む出力。ここで、B - ネットワーク・バッチサイズ、N - 検出されたボックスの数、C - 分類されたボックスの数。
dumb_decoder - 音声認識モデルの出力を CharacterRecognitionPrediction に変換します。
- alphabet - サポートされているトークンのリスト。語彙が非常に大きい場合は、受け入れられたトークンのリストを含む txt ファイルを使用して、vocabulary_file を使用することもできます (各トークンは、token_id として個別の行に配置する必要があります)。
- blank_token_id - 空のトークンの token_id (オプション、デコード後の空のラベルのフィルタリングに使用されます)。
- eos_token_id - 文字列の末尾の token_id (オプション、デコード後の EOS トークンのフィルタリングに使用されます)。
- replace_underscore - デコード後に解除記号を空白に置き換えることができます。
- uppercase - 予測を大文字で生成します。デフォルトは True です。
detr - DETR モデルファミリーの出力を DetectionPrediction に変換します。
- scores_out - 検出スコアのロジットを含む出力レイヤー名。
- boxes_out - [Cx,Cy,W,H] 形式の検出ボックス座標を含む出力レイヤー名。ボックスの中心の Cx - x 座標、ボックスの中心の Cy - y 座標、W、H - 幅と高さそれぞれ。
ultra_lightweight_face_detection - 超軽量顔検出モデルの出力を DetectionPrediction 表現に変換します。
- scores_out - 境界ボックススコアを含む出力レイヤーの名前。
- boxes_out - 境界ボックスの座標を含む出力レイヤーの名前。
- score_threshold - 有効なボックスの最小許容スコア (オプション、デフォルトは 0.7)。
trimap - グレースケール・モデル出力を ImageProcessingPrediction に変換します。カットゾーンとキープゾーンのピクセル値をそれぞれ 0 と 1 に置き換えます。他のすべての後処理は、image_processing アダプターから継承されます。
background_matting - 背景マットモデルの出力を BackgroundMattingPrediction に変換します。
noise_suppression - オーディオノイズ除去モデルの出力を NoiseSuppressionPrediction に変換します。
- output_blob - 処理された信号を含む出力レイヤーの名前 (オプション、指定しない場合は、モデルで最初に見つかった出力が使用されます)。
kaldi_latgen_faster_mapped - 出力 Kaldi* 自動音声認識モデルを、CharcterRecognitionPrediction への遷移モデルによる格子生成アプローチを使用してデコードします。重要このアダプターには Kaldi* のインストールが必要です (67db30cc コミットの使用を推奨します) そして、コンパイルされた実行可能アプリが含まれるディレクトリーへのパスを提供します: latgen-faster-mapped、lattice-scale、lattice-add-penalty、lattice-best-path。パスのディレクトリーは、--kaldi_bin_dir コマンドライン引数または KALDI_BIN_DIR 環境変数を使用して指定できます。
- fst_file - 重み付き有限状態トランスデューサー (WFST) 状態グラフファイル。*words_file - 単語テーブルファイル。
- transition_model_file - 遷移モデルファイル。
- beam - ビームサイズ (オプション、デフォルトは 1)。
- lattice_beam - 格子ビームのサイズ (オプション、デフォルトは 1)。
- allow_partial - 部分的なデコードを許可します (オプション、デフォルトは False)。
- acoustic_scale - デコード用の音響スケール (オプション、デフォルトは 0.1)。
- min_active - デコード用の最小アクティブパス (オプション、デフォルトは 200)。
- max_active - デコード用の最大アクティブパス (オプション、デフォルトは 7000)。
- inverse_acoustic_scale - 格子スケーリング用の逆音響スケール (オプション、デフォルトは 0)。
- word_insertion_penalty - 格子に単語挿入ペナルティーを追加します。ペナルティーは負の対数確率、基数 e で、コストの言語モデルの部分に追加されます (オプション、0)。
kaldi_feat_regression - 必要に応じて、行列特徴全体をマージし、コンテキスト・ウィンドウ・サイズに応じて逆処理を行うことで、kaldi モデルからの出力特徴を RegressionPrediction に変換します。
- target_out - 回帰のターゲット出力レイヤーの名前 (オプション、指定しない場合、最初の出力が使用されます)。
- flattenize - 出力特徴を平坦化します。(オプションであり、デフォルトは False)。
quantiles_predictor - 時系列予測モデルの出力を TimeSeriesForecastingQuantilesPrediction に変換します。
- quantiles - predictions[i]->quantile[i] マッピング。
- output_name - 変換する出力ノードの名前。
mask_to_binary_classification - セグメント化マスクとして表されるモデルの出力を ArgMaxClassificationPrediction に変換します。指定されたしきい値とのマスク内の比較最大確率として計算されたクラスラベル。
- threshold - ラベル 1 の確率しきい値 (オプション、デフォルトは 0.5)。
ssd_multilabel - 複数のラベルが 1 つのボックスに対応できる SSD ベースのモデルの出力を DetectionPrediction 表現に変換します。
- scores_out - 境界ボックススコアを含む出力レイヤーの名前。
- boxes_out - 境界ボックスの座標を含む出力レイヤーの名前。
- confidence_threshold - 有効なボックススコアの下限 (オプション、デフォルトは 0.01)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.45)。
- keep_top_k - NMS 中に保持する必要があるボックスの最大数 (オプション、デフォルトは 200)。
- diff_coord_order - 座標の順序付け規則は、一般的に使用される形式 [x0, y0, x1, y1] とは異なります。値が True の場合、座標の形式は [y0, x0, y1, x1] (オプション、デフォルトは False) です。
- max_detections - 保持する必要があるボックスの最大数 (オプション)。
background_matting_with_pha_and_fgr - 前景とアルファを予測する背景マットモデルの出力を BackgroundMattingPrediction に変換します。
- alpha_out - アルファを含む出力レイヤーの名前。
- foreground_out - 前景を持つ出力レイヤーの名前。
nanodet - NanoDet モデルファミリーの出力を DetectionPrediction 表現に変換します。
- num_classes - 予測クラスの数 (オプション、デフォルトは 80)。
- confidence_threshold - 有効なボックススコアの下限 (オプション、デフォルトは 0.05)。
- nms_threshold - NMS のオーバーラップしきい値 (オプション、デフォルトは 0.6)。
- max_detections - 保持する必要があるボックスの最大数 (オプション、デフォルトは 100)。
- reg_max - 整数セットの最大値 (オプション、デフォルトは 7)。
- strides - 入力マルチレベル特徴マップのストライド (オプション、デフォルト [8、16、32])。
- is_legacy - 従来の NanoDet モデルを使用します (オプション、デフォルトは False)。
palm_detection - 手のひら検出モデルの出力を DetectionPrediction 表現に変換します。
- scores_out - scores モデル出力の名前。
- boxes_out - boxes モデル出力の名前。
- num_anchor_layers - アンカー計算のレイヤー数 (オプション、デフォルトは 4)。
- strides - 入力マルチレベル特徴マップのストライド (オプション、デフォルト [8, 16, 16, 16])。
- min_scale - アンカー計算の最小スケール (オプション、デフォルトは 0.1484375)。
- max_scale - アンカー計算の最大スケール (オプション、デフォルトは 0.75)。
- input_size_width - モデル入力イメージの幅 (オプション、デフォルトは 128)。
- input_size_height - モデル入力イメージの高さ (オプション、デフォルトは 128)。
- reduce_boxes_in_lowest_layer - 最下レイヤーのアンカーサイズを小さくします (オプション、デフォルトは False)。
- aspect_ratios - マルチレベル特徴マップのアスペクト比 (オプション、デフォルト [1])。
- inteprolated_scale_aspect_ratio - 補間スケールのアスペクト比 (オプション、デフォルトは 1)。
- fixed_anchor_size - 固定サイズのアンカーを生成します (オプション、デフォルトは ‘True’)。
- sigmoid_score - スコア出力はシグモイドです (オプション、デフォルトは ‘True’)。
- score_clipping_thresh - スコア・クリッピングのしきい値 (オプション、デフォルトは 100)。
- reverse_output_order - boxes の出力データの順序は (y,x) ではなく (x,y) です (オプション、デフォルトは True)。
- keypoint_coord_offset - boxes 出力内のキーポイント座標のオフセット (オプション、デフォルトは 4)。
- num_keypoints - boxes 出力内のキーポイントの数 (オプション、デフォルトは 7)。
- num_values_per_keypoint - キーポイントごとの座標の数 (オプション、デフォルトは 2)。
- scales - 検出ボックスのスケールは x、y、w、h です。(オプション、デフォルトは [128, 128, 128, 128])。
- min_score_thresh - 有効なボックススコアの下限 (オプション、デフォルトは 0.5)。
- apply_exp_on_box_size - ボックスのサイズは指数の引数です (オプション、デフォルトは False)。
- num_classes - 検出クラスの数 (オプション、デフォルトは 1)。