PyTorch* を使用して山火事を予測する

同カテゴリーの次の記事

CPU 上での XGBoost、LightGBM、CatBoost 推論の高速化

この記事は、The Parallel Universe Magazine 54 号に掲載されている「Predict Forest Fires Using PyTorch*」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。


parallel_v54_03

この記事では、PyTorch* による転移学習 (英語) を使用して、画像のディテールのみを使用し、空中写真が伝える火災の危険性に従って空中写真を分類します。MODIS 火災データセット (英語) は、2018年から 2020年までにカリフォルニア州で発生した実際の火災を記録しています。MODIS (Moderate Resolution Imaging Spectroradiometer、中解像度イメージング分光放射計) データセットには、過去の山火事の場所の詳細な情報が得られるように、特定の日付範囲の高解像度画像とラベル付けされた地図データが含まれています。次に、火災が発生した地域および近隣地域の 2016年から 2017年の 2年間の (火災が発生する前の) 画像をサンプリングします。転移学習を使用して、「Fire (火災発生)」および「NoFire (火災なし)」とラベル付けされた数百枚の画像を追加し、 (空中写真で事前トレーニングされていない) 事前トレーニング済み ResNet 18 モデルを適応させます。

空中写真で使用するために (もともと ImageNet データセットでトレーニングされた) 事前トレーニング済みモデルを微調整することは、山火事を予測するという状況下で画像から有用な情報を抽出する効果的なアプローチです。深い層とスキップ接続を備えた ResNet アーキテクチャーは、物体認識や画像分類を含むさまざまなコンピューター・ビジョン (英語) タスクで効果的であることが実証されています。このアプローチを使用すると、正確なモデルを構築するために必要なのは、数百枚の画像と約 15 分の CPU 時間だけです。詳細は、続きをお読みください。

空中写真を使用したケーススタディー

私のアプローチは、2016年から 2021年までの、カリフォルニア州の火災が発生した地域と発生していない地域の空中写真を利用した予測のみに焦点を当てたバイナリー分類器を作成することでした。トレーニング・セットには、2016年から 2017年までの、重要な地域の火災発生前の空中写真を使用しました。評価セットには、2018年から 2020年までに撮影された同じ場所の画像 (および 2021年の画像を含む拡張セット) を使用しました。火災が発生した地域と発生していない地域の両方をサンプリングしました。山火事の可能性は、MODIS データセットから取得した既知の山火事の地域に基づいています。サクラメントの北の、太平洋からシエラネバダ山脈までの地域を選択しました。この地域では、過去に大規模な山火事が何度も発生しています。

データの収集

データの取得と前処理は、次の基本的な手順に従いました。最初に、Google Earth Engine* (英語) と JavaScript* プログラムを使用して MODIS 火災データと空中写真を収集しました。プロジェクトのスクリプトは ForestFirePrediction (英語) リポジトリーにあります。次に、米国農務省の USDA/NAIP/DOQQ データセットから地図を生成しました。最後に、NASA MODIS/006/MCD64A1 データセットから空中写真を抜き出しました。

MODIS により定義された、2018年から 2020年までに火災が発生した場所と発生していない場所を図 1図 2 に示します。赤は火災が発生した地域です。オレンジと水色のピンは使用した画像のサンプルの場所で、オレンジのピンは火災が発生した場所を、水色のピンは火災が発生していない場所を表します。各画像は約 60 平方マイル (約 155 平方キロメートル) の範囲をカバーします。


図 1. Google Earth Engine* と MODIS/006/MCD64A1 データセットを使用して山火事が発生した場所をサンプリング



図 2. Google Earth Engine* と MODIS/006/MCD64A1 データセットを使用して 山火事が発生していない場所をサンプリング

空中写真のサンプリングには、NAIP/DOQQ データセットを使用しました。例えば、図 3 は、カリフォルニア州パラダイス付近の、大規模火災 (2018年) が発生する前の空中写真を示しています。


図 3. USDA/NAIP/DOQQ データセットの空中写真のサンプル (2018 年の山火事発生前のカリフォルニア州パラダイス)

火災が発生した地域のサンプルとして 106 枚の画像を、火災が発生していない地域のサンプルとして 111 枚の画像を使用しました (表 1)。転移学習を使用しているため、モデルを最初からトレーニングする場合よりもデータセットを はるかに小さくできます。画像のトレーニング、検証、テストの内訳は次のとおりです。

関連記事