アダプタ学習を用いたビジョン基盤モデルによる多時期・多地点サンゴ礁状態モニタリングのためのマルチラベル分類

Table of Contents

サンゴ礁生態系は重要な生態学的サービスを提供する一方で、地球温暖化、海洋酸性化、人為的攪乱によって脅かされつつあります。世界各地で、市民科学に基づくサンゴ礁保全プログラムが、地域のモニタリングと管理を支援するために実施されてきました。これらのプログラムは通常、ボランティアのダイバーがテキストベースの観察記録を行うことに依存していますが、このプロセスは労力を要し、観察者間で不一致が生じやすいです。水中画像の利用可能性が高まる中、深層学習モデルはサンゴの状態評価を自動化する有望な解決策を提供します。しかし、従来型モデルは、複雑な生態学的モニタリング課題を扱う際に、高い精度と汎化性能を維持することが依然として難しいです。
本研究は、Aquatic Conservation: Marine and Freshwater Ecosystems に掲載した我々の先行研究を踏まえ、データの範囲と方法論的深度を拡張するものです。第一に、タイ・コタオ(Koh Tao)の15ダイブサイトにおいて2年間にわたり収集した、多時期・多地点の現地画像を含むようにデータセットを拡張しました。すべての画像は、市民科学プログラムで一般的に用いられる標準化カテゴリに基づいてアノテーションされており、既存のモニタリングプロトコルと直接整合します。第二に、ビジョン基盤モデル(vision foundation model)をアダプター学習(adapter learning)技術と統合することで、精度・汎化性能・学習効率を向上させました。

ビジョン基盤モデルは、ドメインをまたぐ高い性能で知られており、生態系画像解析に大きな利点をもたらします。しかし、完全なファインチューニングにはデータセンター規模の高性能GPU資源が必要で、炭素排出量も大きく、多くの保全コミュニティにとって現実的ではありません。この課題に対処するため、本研究では DINOv2 基盤モデルと Low-Rank Adaptation(LoRA)を組み合わせた軽量アプローチを導入します。このアダプター方式により、学習可能パラメータ数を大幅に削減しつつ、効率的なファインチューニングが可能になります。

実験の結果、DINOv2-LoRA モデルはマルチラベルのサンゴ状態分類精度を有意に向上させ、マッチ比(match ratio)64.77%を達成しました。これは、最良の従来型深層学習ベースライン(Swin-Transformer)の60.34%と比較して高いです。さらに、本手法は学習可能パラメータを1136.50Mから5.91Mへ、ピーク時の割当GPUメモリを21.39Gから13.00Gへ削減し、学習効率の大幅な改善を示しました。季節やサイトの異なる条件間での転移学習実験により、多時期・多地点設定における強い汎化性能も示され、長期的な生態学的モニタリングが可能になることが示されました。

我々の知る限り、本研究は、多様な現地収集画像を用いたサンゴ礁状態のマルチラベル分類に対して、ビジョン基盤モデルを効率的に適応させた最初の研究です。提案フレームワークは、自動化されたサンゴ礁モニタリングを前進させ、環境管理および市民科学に基づく保全活動を支援するためのアクセスしやすいツールを提供します。

図1. 本研究のデータ収集に用いた写真トランセクト調査手法

図2. 画像分類プロセスを示す模式図

図3. 地域保全チームのボランティア2名が、捕食者(オニヒトデ)の除去活動を行っている様子

Publication Shao, X., Chen, H., Zhao, F., Magson, K., Chen, J., Li, P., Wang, J., Sasaki, J.: Multi-label classification for multi-temporal, multi-spatial coral reef condition monitoring using vision foundation model with adapter learning. Marine Pollution Bulletin, 223, 119054, 2026. DOI

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください