hw3-DexGraspVLA.github.io

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

📝 Paper | 🌍 Code Page | 📺 Video


🌟 简介 (Introduction)

DexGraspVLA 是一个创新的分层式视觉-语言-动作 (Vision-Language-Action, VLA) 框架,致力于解决机器人通用灵巧抓取的难题。它能够在包含数千种未见过的物体、光照和背景组合的复杂真实世界环境中,实现超过 90% 的灵巧抓取成功率,尤其擅长处理杂乱场景和理解复杂的自然语言指令


DexGraspVLA 在超过1200种未见过的物体、光照和背景组合下展现出超过90%的抓取成功率。

🎯 研究目标与挑战 (Goals and Challenges)

通用的灵巧抓取是机器人实现复杂操作的关键,但在现实环境中面临巨大挑战:

DexGraspVLA 旨在克服这些挑战,提出一个具备以下特点的系统:

  1. 强大的零样本泛化能力: 无需针对新环境进行额外训练即可成功抓取。
  2. 复杂的语言理解与推理: 能够理解并执行如“清理桌面”等长时序、多步骤的指令。
  3. 模块化与可扩展性: 采用分层设计,易于训练、调试和功能扩展。

DexGraspVLA 需要应对未见过的物体、光照和背景组合。

💡 方法框架 (Methodology)

DexGraspVLA 采用分层架构,有效结合了大型基础模型的理解能力和特定任务策略的执行能力:

  1. 高层任务规划器 (Planner): 利用预训练的视觉语言大模型 (VLM)(Qwen-VL-chat-72B),负责理解用户输入的自然语言指令,结合视觉场景信息,进行任务分解和目标物体的视觉定位 (Grounding),输出目标物体的边界框 (Bounding Box)。
  2. 底层动作控制器 (Controller): 基于扩散模型 (Diffusion Policy),学习从多视角视觉特征 (头部相机和腕部相机) 和本体感受信息灵巧手动作的映射。它接收 Planner 提供的目标信息,并生成平滑、精确的闭环抓取动作序列。

DexGraspVLA 的分层框架:Planner 进行理解和规划,Controller 生成具体动作。

任务规划器 (Planner) 详解

Planner 的核心是将用户的指令转化为机器人可执行的明确目标。


Planner 利用 VLM 将语言指令 (如 "the black Coca Cola") 定位到图像中的具体物体,并生成边界框。


Planner 判断用户指令类型,并进行相应的处理流程。


Planner 根据指令和场景信息,生成抓取计划或进行状态检查。

动作控制器 (Controller) 详解

Controller 负责将 Planner 的规划转化为实际的物理动作。


控制器使用的主要符号及其维度说明。

🛠️ 硬件平台 (Hardware Platform)

实验平台主要由以下部分组成:


DexGraspVLA 使用的硬件平台示意图。

📊 实验结果 (Experiments & Results)

DexGraspVLA 在多种具有挑战性的场景下进行了广泛评估,展现了卓越的性能。

强泛化能力验证

在包含 360 种未见物体、6 种未见背景、3 种未见光照,共 1287 种组合的测试场景中:


在未见过的物体、背景、光照组合下的泛化性能。


泛化能力测试中的物体多样性(形状、粗糙度)可视化。

零样本抓取性能

在包含已知和未知物体的零样本场景中,DexGraspVLA (Ours@1) 相比于自制的基线方法取得了显著提升,尤其是在处理未见过的物体时。


零样本抓取任务中的成功率对比。


零样本抓取任务中的成功率柱状图对比。

边界框预测与注意力鲁棒性

即使在背景或光照存在干扰的情况下,Planner 也能准确预测目标边界框,Controller 的注意力机制能够始终聚焦于目标物体。


在不同干扰条件下,边界框预测和注意力热图保持稳定和准确。

大规模未见环境评估

进一步的评估覆盖了更广泛、更贴近现实的未见环境组合,结果再次验证了 DexGraspVLA 的高成功率和强泛化能力。


在 1287 种大规模组合测试场景下的详细成功率。


大规模未见环境评估中使用的部分场景示例。

📜 引用 (Citation)

如果 DexGraspVLA 的项目对您有帮助,请考虑引用:

@misc{zhong2025dexgraspvla,
      title={DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping},
      author={Yifan Zhong and Xuchuan Huang and Ruochong Li and Ceyao Zhang and Yitao Liang and Yaodong Yang and Yuanpei Chen},
      year={2025},
      eprint={2502.20900},
      archivePrefix={arXiv},
      primaryClass={cs.RO},
      url={https://arxiv.org/abs/2502.20900},
}

Acknowledgements

This codebase is based on Diffusion Policy, RDT, DiT, and pi_zero_pytorch.