データリーダー#
データリーダーは、特定の形式で入力データを読み取るクラスです。リーダーには、設定に使用できるパラメーターが提供される場合があります。リーダーとパラメーターは、必要に応じて構成ファイルを通じて設定されます。
設定ファイルでデータリーダーを設定する方法の説明#
特定のリーダーを使用するため、構成ファイルの datasets セクションでデータリーダーを指定できます。リーダーが指定されていない場合、デフォルトで opencv_imread リーダーが使用されます。
データセットにデータリーダーを設定するには 2 つの方法があります:
リーダーを文字列で定義します。
reader: opencv_imreadリーダー名を設定するために
type:を使用して、リーダーを辞書として定義します。このアプローチにより、必要に応じてリーダーに追加のパラメーターを設定できます。
reader: type: opencv_imread reading_flag: gray異なる形式 (画像や JSON など) で保存されたデータを使用する複数の入力を持つモデルがある場合、combine_reader を使用できます。combine_reader を使用すると、ファイル名に応じて読み取りスキームを指定できます。パラメーター scheme を使用して、キーがファイル名の正規表現、値が reader_name である辞書の読み取り方法を記述します。
reader: type: combine_reader scheme: *.json: json_reader *.jpeg: opencv_imreadサポートされるデータリーダー#
精度チェッカーは、次のデータリーダーをサポートしています:
opencv_imread- OpenCV ライブラリーを使用して画像を読み込みます。デフォルトの色空間は BGR です。reading_flag- (オプション) 画像の読み取り方法を指定するフラグ:color- デフォルト、カラー画像をロード、gray- 画像をグレースケール・モードでロード、unchanged- アルファチャネルを含む画像をそのままロードします。
pillow_imread- Pillow ライブラリーを使用して画像を読み取ります。デフォルトの色空間は RGB です。to_rgb- 画像の RGB への変換を許可します (オプション、デフォルトはTrue)
scipy_imread-scipy.misc.imreadと同様のアプローチでイメージを読み取ります
注意: バージョン 1.3.0 以降、画像処理モジュールは scipy ライブラリーには含まれません。このリーダーは scipy を使用していません。skimage_imread- scikit-mage ライブラリーを使用してイメージを読み取ります。デフォルトの色空間は RGB です。tf_imread- TensorFlow を使用して画像を読み取ります。デフォルトの色空間は RGB です。TensorFlow をインストールする必要があります。opencv_capture- OpenCV を使用してビデオからフレームを読み取ります。json_reader- json ファイルから値を読み取ります。key- json 辞書に保存されている読み取り用のキー。
annotation_features_extractor- アノテーションから特徴を読み取ります。features- 特徴のリスト。すべての特徴はアノテーション表現のフィールドである必要があります。
numpy_reader- numpy でダンプされたファイルを読み取ります (npy または npz 形式がサポートされています)keys- カンマで区切ったモデル入力名のリストseparator- 入力識別子とファイル識別子の間の区切り記号id_sep- 入力識別子の入力名とレコード番号の間の区切り記号block- ブロックモード (バッチ向け)。このモードでは、リーダーは変数全体を返します。record_mode- フィールド名とレコード ID の間の区切り文字としてid_sepを使用して、numpy 配列から特定のレコードを取得できるようにします
numpy_txt_reader- テキスト形式で保存されたデータを numpy 配列に読み取ります。numpy_dict_reader- numpy ファイルに保存された辞書を読み取ってアンパックします。numpy_bin_reader- numpy を使用してバイナリーファイルを読み取ります。dtype- 配列読み取りデータタイプ (オプション、デフォルトはfloat32)。as_buffer- バイナリーファイルをバッファーとして読み取ります (オプション、デフォルトはFalse)。offset-as_bufferが有効な場合の開始デコード配列のオフセット (オプション、デフォルトは 0)。
nifti_reader- NifTI データ形式を読み取りますchannels_first- nifti ファイルを読み取り、チャネルが最初の順序で転置できるようにします (オプション、デフォルトはFalse)multi_frame- 3D 画像を 2D フレームのシーケンスとして読み取ることができます (オプション、デフォルトはFalse)frame_separator-multi_frameモードでのファイル名とフレーム番号の間の文字列区切り文字 (オプション、デフォルトは#)frame_axis- 3D 画像のフレーム軸の数 (オプション、デフォルトは-1、最後の軸)to_4D- 読み取り結果の 4D 次元への展開を制御します (オプション、デフォルトはTrue)
wav_reader- WAV ファイルを NumPy 配列に読み込みます。サンプルレートも取得します。mono- マルチチャネル・オーディオがロードされている場合、チャネルに沿った平均値を取得します (オプション、デフォルトはFalse)。to_float- オーディオ信号を float に変換します (オプション、デフォルトはFalse)。Float データタイプはfloat_dtypeパラメーターを使用して選択できます。float_dtype-to_float変換のデータタイプを指定します。サポートされている値:float16、float32、float64。オプションであり、デフォルトはfloat32。flattenize- 信号を平坦化します (オプション、デフォルトはFalse)。
dicom_reader- DICOM 形式で保存された画像を読み取ります。pickle_reader- pickle ファイルに保存されているデータを読み取ります。pickle コンテンツのサポートされている形式:数値データ配列
数値データ配列 + 辞書に格納されたメタデータ
rawpy- rawpy ライブラリーを使用して生の画像形式を読み取ります。postprocess- 画像の後処理と正規化を許可します (オプション、デフォルトはTrue)。
byte_reader- 生のバイナリーデータを読み取り、それらを numpy-array にラップします。lmdb_reader- LMDB データベースから指定されたインデックスの画像を抽出します。kaldi_ark_reader- Kaldi* アーカイブ形式 (ark) を読み取ります。flac_reader- FLAC ファイルを NumPy 配列に読み込みます。dtype- データの読み取り精度を指定します。サポートされる値:float32、float64、int16、int32。オプションであり、デフォルトはint32。mono- マルチチャネル・オーディオがロードされている場合、チャネルに沿った平均値を取得します (オプション、デフォルトはFalse)。