Schätzung der Hand-Objekt-Interaktionspose durch Kombination multimodaler Merkmale und Strukturwahrnehmung

WANG Wenrun ,  

DANG Jianwu ,  

WANG Yangping ,  

REN Pengbai ,  

PAN Rui ,  

摘要

In der realen Welt ist es unvermeidlich, dass die Hand mit Objekten interagiert. Daher ist das Verständnis des Verhaltens und der Absichten dieser Interaktion von großer Forschungsbedeutung. In diesem Artikel wird eine Methode zur dreidimensionalen Pose-Schätzung von Hand und interagierenden Objekten vorgeschlagen, die multimodale Merkmale und Strukturwahrnehmung kombiniert, um das Problem der niedrigen Genauigkeit der Pose-Schätzung zu lösen, das durch gegenseitige Okklusion, Selbstokklusion der Hand und komplexe Interaktionshintergründe verursacht wird. Die Methode nutzt multimodale Merkmale aus Farb- und Tiefenbildern, um eine Informationskomplementarität zu erreichen und effektiv Probleme mit komplexem Hintergrund, Selbstokklusion der Hand und gegenseitiger Okklusion von Hand und Objekt zu lösen. Darüber hinaus wurden auf der Grundlage graphbasierter Strukturen spezielle Strukturwahrnehmungsmodule für die Hand, das interagierende Objekt und die Hand-Objekt-Interaktionsstruktur entwickelt, die helfen, eine vernünftigere und genauere zweidimensionale Pose der Hand und des interagierenden Objekts zu schätzen. Schließlich werden die erhaltenen zweidimensionalen Posen mit den Tiefeninformationen aus Tiefenbildern kombiniert und die fusionierte dreidimensionale Pose mittels Texturmerkmalen weiter optimiert, um die endgültige dreidimensionale Hand-Objekt-Interaktionspose zu erhalten. Zur Verifizierung der Wirksamkeit der vorgeschlagenen Methode wurden Serien von Experimenten auf den Datensätzen FPHA, HO-3D usw. durchgeführt, wobei der Posenfehler für Hand und interagierendes Objekt auf 9,62 mm bzw. 14,37 mm reduziert wurde. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode den bestehenden Methoden zur Schätzung von Hand-Objekt-Interaktionsposen überlegen ist und eine hohe Robustheit und Generalisierbarkeit aufweist.

关键词

Hand-Objekt-Posenschätzung;Graph-Convolutional-Netzwerk;multimodale Merkmale;Strukturwahrnehmung

阅读全文