(相關資料圖)
北京商報訊(記者 魏蔚)10月27日,智源研究院宣布,單圖高精度6D位姿估計方法開源,讓機器人"一眼看懂"陌生物體。傳統6D位姿估計方法大多依賴高質量CAD模型或多視角重建,難以滿足動態、實時的實際需求。現有的單張圖像推理方法則普遍受限于尺度、外觀和姿態的模糊性。正因如此,盡管近年來視覺-語言-動作(VLA)模型在寬容度較高的任務中取得進展,但在毫米級精度的操作場景中,感知—控制鏈條仍難以閉合,制約了機器人通用操作能力的進一步提升。
針對這一挑戰,北京智源人工智能研究院(BAAI)可控世界模型創新中心趙昊團隊提出了OnePoseViaGen:該方法無需預設 3D 模型,僅依賴單張RGBD參考圖像,即可在未知物體上實現高精度 6D 位姿估計。相關論文 "One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation"入選 CoRL 2025 Oral。
X 關閉
X 關閉