Dans le monde réel, il est inévitable que les mains interagissent avec des objets, c’est pourquoi comprendre le comportement et les intentions de cette interaction présente une grande importance pour la recherche. Cet article propose une méthode d'estimation de la pose 3D des mains et des objets interactifs basée sur la combinaison de caractéristiques multimodales et la perception structurelle, afin de résoudre le problème de faible précision d’estimation de pose causé par l’occlusion mutuelle, l’auto-occlusion de la main et des arrière-plans complexes. Cette méthode utilise les caractéristiques multimodales d’images couleur et de cartes de profondeur pour réaliser une complémentarité d’information, résolvant efficacement les problèmes d’arrière-plan complexe, d’auto-occlusion de la main et d’occultation mutuelle main-objet. De plus, des modules de perception structurelle basés sur des structures graphiques sont conçus pour la main, l’objet interactif et la structure d’interaction main-objet, ce qui aide à estimer une pose 2D plus raisonnable et précise de la main et de l’objet. Enfin, les poses 2D obtenues sont fusionnées avec les informations de profondeur contenues dans les images de profondeur, puis la pose 3D fusionnée est optimisée à l’aide des caractéristiques de texture pour obtenir la pose 3D finale d’interaction main-objet. Pour valider l’efficacité de cette méthode, une série d’expériences ont été menées sur les jeux de données FPHA, HO-3D, etc., où l’erreur de pose pour la main et l’objet interactif a été réduite respectivement à 9,62 mm et 14,37 mm. Les résultats expérimentaux montrent que la méthode proposée est supérieure aux méthodes existantes d’estimation de pose d’interaction main-objet, avec une robustesse et une capacité de généralisation élevées.
关键词
estimation de pose main-objet;réseau de convolution graphique;caractéristiques multimodales;perception structurelle