В реальном мире руки неизбежно взаимодействуют с объектами, поэтому понимание поведения и намерений такого взаимодействия имеет важное исследовательское значение. В данной статье предлагается метод трехмерной оценки позы рук и взаимодействующих объектов, основанный на объединении мультимодальных признаков и структурного восприятия, направленный на решение проблемы низкой точности оценки позы, вызванной взаимным occlusion, самоокклюзией руки и сложным фоном взаимодействия. Метод использует мультимодальные признаки цветных и глубинных изображений для взаимодополнения информации, эффективно решая проблемы сложного фона, самоокклюзии руки и взаимного occlusion руки и объекта. Кроме того, на основе графовой структуры разработаны модули восприятия структуры для руки, взаимодействующего объекта и структуры их взаимодействия, что способствует более разумной и точной оценке двухмерной позы рук и объекта. Наконец, полученные двухмерные позы объединяются с информацией о глубине из глубинных изображений, а затем окончательная трехмерная поза взаимодействия руки и объекта оптимизируется с помощью текстурных признаков. Для проверки эффективности предложенного метода проведены серии экспериментов на датасетах FPHA, HO-3D и других, в результате чего ошибка позы руки и объекта снизилась до 9,62 мм и 14,37 мм соответственно. Результаты экспериментов показывают, что предложенный метод превосходит существующие методы оценки позы взаимодействия руки и объекта и обладает высокой устойчивостью и обобщаемостью.
关键词
оценка позы руки и объекта;графовая сверточная сеть;мультимодальные признаки;структурное восприятие