首页 > 快讯 > 芝浦工业大学推出的创新型Vote-based框架显著增强了手部持物姿态的预测准确性

芝浦工业大学推出的创新型Vote-based框架显著增强了手部持物姿态的预测准确性

发布时间：2025-05-06 12:40:04 | 责任编辑：张毅 | 浏览量：59 次

在增强现实（AR）等应用中，手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期，日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架，显著提高了这一领域的准确性，令人瞩目地提升了13.9% 的姿态估计精度。
这一新方法的核心在于有效整合来自 RGB（颜色）和深度图像的数据，特别是在手遮挡物体的情况下。研究团队指出，现有的姿态估计技术往往在手部遮挡时遇到精度下降的难题，而手与物体之间的非刚性转换则进一步加剧了这一问题。例如，当我们握住一个软球时，手的力量会扭曲物体的形状，导致估计变得更加复杂。
为了解决这些挑战，芝浦工大的团队设计了一个创新的深度学习框架。该框架包含四个主要部分:从 RGB-D 图像中提取高维特征的主干网络、Vote 模块、基于 Vote 的新型融合模块以及手部感知物体姿态估计模块。首先，研究者通过2D 和3D 骨架预测手和物体的关键点。随后，各个骨干中的 Vote 模块独立为关键点进行投票，最后通过基于 Vote 的融合模型将投票结果整合。
这套新颖的 Vote 机制利用了局部信息并结合通道关注机制，动态地将 RGB 和深度数据结合，克服了手部遮挡和数据不对齐带来的困难，从而实现了更加精准的手持物体姿态估计。此外，手感知物体姿态估计模块通过自注意机制捕捉手与物体关键点间的复杂关系，进一步提高了估计精度。
研究者在多个公共数据集上进行了实验，结果显示，该框架的准确性和稳健性都有了显著提高，最高可达15%。在实际应用中，框架实现了76.8% 的平均精度和仅40毫秒的推理时间，显示出其良好的实用性和部署潜力。这一方法不仅提升了姿态估计的准确性，还为 AI 系统在沉浸式 AR/VR 技术中的应用开辟了新的可能性。

日本芝浦工业大学的研究团队提出了一种基于Vote机制的多模态融合框架，显著提升了手持物体姿态估计的精度。这一创新方法通过有效整合RGB（颜色）和深度图像数据，解决了手部遮挡物体以及手与物体之间非刚性转换带来的挑战。

研究背景

在增强现实（AR）、机器人技术和计算机视觉等领域，准确估计手持物体的姿态是一项重要但极具挑战性的任务。现有方法在手部遮挡物体时精度会大幅下降，同时手与物体之间的非刚性交互（如挤压物体）也会增加估计的复杂性。此外，传统方法在融合RGB和深度数据时，容易出现特征表示不一致的问题。

研究方法

芝浦工业大学开发的深度学习框架包含四个主要部分：

主干网络：从RGB-D图像中提取高维特征。
Vote模块：对2D和3D骨架预测的手和物体关键点进行独立投票。
基于Vote的融合模块：通过基于半径的邻域投影和通道关注机制，动态组合2D和3D投票结果，保留局部信息并适应不同输入条件。
手部感知物体姿态估计模块：利用自注意机制捕捉手与物体关键点之间的复杂关系，进一步提高精度。

实验结果

研究人员在多个公共数据集上进行了实验，结果显示该框架的准确性和稳健性显著提高，最高可达15%。在实际应用中，该框架实现了76.8%的平均精度，相比现有方法提升了13.9%。此外，该框架的推理时间仅为40毫秒（未细化）和200毫秒（细化），显示出良好的实用性和部署潜力。

研究意义

这一创新方法不仅显著提高了手持物体姿态估计的精度，还为AI系统在沉浸式AR/VR技术中的应用开辟了新的可能性。它有望加速人工智能系统的部署，推动机器人技术的发展。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。