En el mundo real, la mano inevitablemente interactúa con objetos, por lo que comprender el comportamiento y la intención de esta interacción tiene una gran importancia investigativa. Este artículo propone un método para la estimación de la pose tridimensional de la mano y los objetos interactivos basado en la combinación de características multimodales y la percepción estructural, abordando el problema de la baja precisión en la estimación de la pose causada por oclusiones mutuas, autooclusiones de la mano y fondos complejos. El método utiliza características multimodales de imágenes a color y de profundidad para lograr un complemento informativo, resolviendo eficazmente problemas de fondos complejos, autooclusiones de la mano y oclusión mutua entre la mano y el objeto. Además, se diseñan módulos de percepción estructural basados en estructuras gráficas para la mano, el objeto interactivo y la estructura de interacción mano-objeto, lo que ayuda a estimar una pose 2D más razonable y precisa de la mano y el objeto interactivo. Finalmente, la pose 2D obtenida se fusiona con la información de profundidad contenida en las imágenes de profundidad, y luego se optimiza aún más la pose tridimensional fusionada utilizando características de textura para obtener la pose tridimensional final de interacción mano-objeto. Para validar la eficacia del método, se llevaron a cabo una serie de experimentos en los conjuntos de datos FPHA, HO-3D, entre otros, donde el error de pose para la mano y el objeto interactivo se redujo a 9,62 mm y 14,37 mm respectivamente. Los resultados experimentales muestran que el método propuesto supera a los métodos existentes de estimación de pose de interacción mano-objeto, con alta robustez y capacidad de generalización.
关键词
estimación de pose mano-objeto;red convolucional gráfica;características multimodales;percepción estructural