環境設計情報学領域 福田研究室

Environmental Design and Information Technology Laboratory (Fukuda Laboratory)

Society 5.0、すなわち「超スマート社会」の実現を目指し、人間・人工物・自然といった要素の関係性を総合的に設計する環境デザインの方法論を構築しています。また、AIをはじめとする情報通信技術(ICT)の高度な活用によって、環境デザインシステムの開発を進めるとともに、総合工学的視点から環境情報学の研究と教育にも取り組んでいます。
Aiming to realize Society 5.0—an ultra-smart society—we are developing methodologies for environmental design that comprehensively integrate the relationships among humans, artifacts, and nature. In parallel, we pursue the advancement of environmental design systems through the sophisticated use of information and communication technologies (ICT), including AI, and engage in research and education in environmental informatics from a comprehensive engineering perspective.

遮蔽環境下におけるロバストな行動時系列認識に関する論文が公開されました ― 信頼度を考慮したマルチモーダル融合手法 ― | Paper Published on Robust Temporal Action Localization under Occlusion — Confidence-Aware Multimodal Fusion Approach —

査読を経て、以下の論文がジャーナル誌への掲載決定となり、本日公開されました。

Confidence-Aware Gated Multimodal Fusion for Robust Temporal Action Localization in Occluded Environments
Authors: Masato Takami, Tomohiro Fukuda
🔗Website: https://www.mdpi.com/1424-8220/26/8/2454
🔗DOI: https://doi.org/10.3390/s26082454

本研究では、産業現場などで頻繁に発生する遮蔽環境下において、行動の時系列認識(Temporal Action Localization: TAL)をより安定的に行うための新たなマルチモーダル融合手法を提案しています。

RGB映像と骨格情報を統合する既存手法では、遮蔽によって信頼性の低下した骨格データが、かえって認識性能を悪化させる「ネガティブトランスファー」が課題となっていました。そこで本研究では、OpenPoseの信頼度スコアを注意機構に直接組み込み、信頼性の低い関節情報を動的に抑制する Gated Skeleton Refinement Module (Gated SRM) を開発しました。

実験では、強い遮蔽を含む IKEA ASM dataset を用いて検証を行い、従来の単純な融合手法で見られた性能低下を回避しつつ、mAP 21.77% を達成しました。また、エンドツーエンドで約 9.2 FPS の推論速度を維持しており、実環境でのマクロな作業モニタリングへの応用可能性も示されました。

大幅な精度向上を目指すというよりも、実環境で避けられないデータ欠損に対して、安定した安全策(fail-safe)を提供することを主眼とした研究です。ご関心をお持ちいただけましたら、ぜひご覧いただけますと幸いです。


After peer review, the following paper has been accepted and published today.

Confidence-Aware Gated Multimodal Fusion for Robust Temporal Action Localization in Occluded Environments
Authors: Masato Takami, Tomohiro Fukuda
🔗Website: https://www.mdpi.com/1424-8220/26/8/2454
🔗DOI: https://doi.org/10.3390/s26082454

This study proposes a new multimodal fusion framework for more robust Temporal Action Localization (TAL) in industrial and real-world environments where occlusions frequently occur.

In conventional RGB–skeleton fusion approaches, unreliable skeletal data under occlusion often causes negative transfer, leading to degraded performance. To address this issue, we developed a Gated Skeleton Refinement Module (Gated SRM) that directly incorporates OpenPose confidence scores into the attention mechanism, dynamically suppressing unreliable joint information.

Experiments on the heavily occluded IKEA ASM dataset showed that the proposed method successfully avoided the severe performance degradation commonly observed in naive fusion approaches, achieving 21.77% mAP while maintaining practical end-to-end inference speed of approximately 9.2 FPS.

Rather than aiming solely for large accuracy gains, this work focuses on providing a robust fail-safe mechanism for real-world action recognition under inevitable data loss and occlusion. We would be grateful if you take a look.