bert-small-uncased-whole-word-masking-squad-0001#

ユースケースと概要説明#

これは、トランスフォーマー・ライブラリーによって提供されるオリジナルの bert-large-uncased-whole-word-masking-finetuned-squad から SQuAD v1.1 トレーニング・セットに基づいて抽出された、小規模な BERT-large に類似したモデルです。このモデルは英語の質問応答を実行します。入力は、前提とその前提に対する質問を連結したもので、出力は前提内の質問に対する回答の場所です。元のモデルの詳細については、BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、HuggingFace のトランスフォーマー: 最先端の自然言語処理を参照してください。

トークン化は、BERT トークナイザー (実装の詳細についてはデモコードを参照) と同梱されている vocab.txt 辞書ファイルを使用して行われます。入力はトークン化する前に小文字にする必要があります。

品質メトリックは、SQuAD v1.1 データセット (dev 分割) に基づいて計算されました。シーケンスの最大長は 384 で、入力は小文字です。

メトリック	値
F1	91.57%
完全一致 (EM)	85.04%

トークン ID、名前: input_ids、形状: 1, 384。トークン ID は、トークン化された前提と質問を表す一連の整数値です。シーケンス構造は次のとおりです ([CLS]、[SEP] および [PAD] は、辞書で指定されている対応するトークン ID に置き換える必要があります): [CLS] + トークン化された質問 + [SEP] + トークン化された質問の前提 + [SEP] + (最大シーケンス長 384 までパディングする [PAD] トークン)
入力マスク、名前: attention_mask、形状: 1, 384。入力マスクは、入力内の有効な値のマスクを表す整数値です。入力の値は次と等しくなります:
- 1 は [CLS] + トークン化された質問 + [SEP] + トークン化された質問の前提 + input_ids の [SEP] 部分に対応する位置 (つまり、[PAD] トークンを含む位置を除くすべての位置)、および
- 0 はそれ以外の位置です
トークンタイプ、名前: token_type_ids、形状: 1, 384。トークンタイプは、input_ids を質問と前提に分割することを表す整数値です。値は次のとおりです:
- 1 は、質問のトークン化された前提に対応する位置 + input_ids の [SEP] 部分、および
- 0 はそれ以外の位置です

最終出力は 2 つの 1, 384 浮動小数点値のロジットのスコアベクトルであり、ソフトマックス操作後の質問の前提における回答の開始位置と終了位置の確率になります。

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

元の bert-large-uncased-whole-word-masking-finetuned-squad モデルは、Apache License バージョン 2.0 に基づいて配布されているトランスフォーマー・ライブラリーから取得されています。