査読を経て、以下の論文がジャーナル誌への掲載決定となり、本日公開されました。
Confidence-Aware Gated Multimodal Fusion for Robust Temporal Action Localization in Occluded Environments
Authors: Masato Takami, Tomohiro Fukuda
Website: https://www.mdpi.com/1424-8220/26/8/2454
DOI: https://doi.org/10.3390/s26082454
本研究では、産業現場などで頻繁に発生する遮蔽環境下において、行動の時系列認識(Temporal Action Localization: TAL)をより安定的に行うための新たなマルチモーダル融合手法を提案しています。
RGB映像と骨格情報を統合する既存手法では、遮蔽によって信頼性の低下した骨格データが、かえって認識性能を悪化させる「ネガティブトランスファー」が課題となっていました。そこで本研究では、OpenPoseの信頼度スコアを注意機構に直接組み込み、信頼性の低い関節情報を動的に抑制する Gated Skeleton Refinement Module (Gated SRM) を開発しました。
実験では、強い遮蔽を含む IKEA ASM dataset を用いて検証を行い、従来の単純な融合手法で見られた性能低下を回避しつつ、mAP 21.77% を達成しました。また、エンドツーエンドで約 9.2 FPS の推論速度を維持しており、実環境でのマクロな作業モニタリングへの応用可能性も示されました。
大幅な精度向上を目指すというよりも、実環境で避けられないデータ欠損に対して、安定した安全策(fail-safe)を提供することを主眼とした研究です。ご関心をお持ちいただけましたら、ぜひご覧いただけますと幸いです。
After peer review, the following paper has been accepted and published today.
Confidence-Aware Gated Multimodal Fusion for Robust Temporal Action Localization in Occluded Environments
Authors: Masato Takami, Tomohiro Fukuda
Website: https://www.mdpi.com/1424-8220/26/8/2454
DOI: https://doi.org/10.3390/s26082454
This study proposes a new multimodal fusion framework for more robust Temporal Action Localization (TAL) in industrial and real-world environments where occlusions frequently occur.
In conventional RGB–skeleton fusion approaches, unreliable skeletal data under occlusion often causes negative transfer, leading to degraded performance. To address this issue, we developed a Gated Skeleton Refinement Module (Gated SRM) that directly incorporates OpenPose confidence scores into the attention mechanism, dynamically suppressing unreliable joint information.
Experiments on the heavily occluded IKEA ASM dataset showed that the proposed method successfully avoided the severe performance degradation commonly observed in naive fusion approaches, achieving 21.77% mAP while maintaining practical end-to-end inference speed of approximately 9.2 FPS.
Rather than aiming solely for large accuracy gains, this work focuses on providing a robust fail-safe mechanism for real-world action recognition under inevitable data loss and occlusion. We would be grateful if you take a look.
