八大金刚、网红斗舞,深圳具身智能马拉松跑到哪了

原创
04/17 17:54
阅读数 3.9K

清明假期,拥有3800万国际粉丝的网红“甲亢哥” Speed 中国行旅程来到了深圳站,打卡“深圳特色”——与人形机器人互动、一起跳舞。这个直播片段在全球的观看量预估超5000万,成了对外展示深圳的一个重要切面。直播间弹幕刷屏的“China Tech”也传达出一个信息——具身智能技术的研究正飞速进步,而拥有完备机器人产业链的深圳也正通过技术与文化的深度融合,以人形机器人+超级 IP 的破圈效应,为全球人机协作标注中国坐标。

再往前倒2个月,蛇年春节后,“深圳具身智能八大金刚”这一概念在科技圈不胫而走。这一称号所指的具体企业虽未完全公开,但结合政策动向、融资动态与技术路径,可能性较高的是优必选、普渡科技、逐际动力、众擎机器人、帕西尼感知科技、跨维智能、数字华夏和智平方这8家企业。除了“八大金刚”,深圳还聚集了星尘智能、桥介数物、灵触科技等具身智能企业,这些企业也不乏亮眼的研究。

透过这些具身智能公司的主要研究方向与成果,我们也能窥见整个具身智能研究的核心范式迁移与技术收敛趋势:技术上,感知、决策、行动三大学科正从“孤立优化”转向“闭环耦合”;应用层面,具身智能体正从“任务专用型”向“通用适应型”跃迁。比如此前专注触觉感知的帕西尼,已通过异构感知-控制联合训练推出首款人形机器人TORA-ONE,其双手内搭载近两千个帕西尼自主研发生产的 ITPU多维触觉传感单元,拥有0.01N 的精准力控能力,能实现物体6D 位姿识别与柔性抓取,可以广泛应用于工业制造、精密制造、医疗康养、仓储物流等多种场景。

技术线:婴儿学步和超感官并存

广义上的具身智能是指具有物理形态的智能体,除了人形机器人外,智能车、四足机器狗等等都囊括其中。随着灵巧手、人形机器人研发的加速,现在我们提到的具身智能常用来专指人体形态的智能体。这类机器人无论是在外形上还是行动上,都在朝着“无限接近真实人类”的目标出发。

人类的大脑与身体构造,可以简单概括为一条「感知-认知-控制」闭环链路:五感负责接收外界信息;大脑皮层整合多模态信息并生成决策;脊髓与周围神经系统传递信号;小脑实时协调运动肌群完成动作;成年人体拥有206块骨骼、约360个关节,主要活动关节86个,运动自由度达可以达到230+。

参照人类生理结构,具身智能机器人的研发可解构为以下核心模块:

  • 感知层:替代人类五感,包括激光雷达(视觉)、六维力传感器(触觉)、IMU(前庭平衡觉)等;

  • 机器人大脑:主导认知与决策,大模型技术突飞猛进后,具身智能的决策系统研究开始依赖多模态大模型实现因果推理;

  • 机器人小脑:运动控制中枢,通过模型预测控制、全身协同控制等算法实现毫米级精度;

  • 行动层:对应人体肌肉与骨骼系统,由伺服电机(肌肉)、谐波减速器(肌腱)、碳纤维连杆(骨骼)等构成执行机构。

从这4个角度出发,也能很直观看出现有的机器人和人类之间差距。

感知

感知方面,机器人已初步构建起与人类五感对应的传感器体系,但是在感知精度和不同感官的配合上还有差距。比如,人眼对运动物体的识别反应最快接近0.1秒,如接住飞来的棒球。而机器人依赖多维感知+计算,面对快速移动物体时决策延迟达有时可能达到0.3-0.5秒甚至更长。此外,人的五感配合非常丝滑,比如看到地面积水,脚底触觉感知到鞋底打滑,立刻便能判断摔倒风险,但机器人可能因传感器数据冲突,激光雷达与 IMU 的位姿误差,导致动作卡顿。

但机器人在感知的“生物合理性”上存在硬伤:视觉系统依赖人工标注数据集,无法像人类婴儿般通过自监督学习理解未知物体。更关键的是,多模态数据的时空对齐误差可达10ms 级,而人类神经传导延迟仅1ms,这会导致机器人面对动态场景时易出现“感官割裂”——例如当激光雷达检测到前方障碍物时,惯性导航单元可能因振动干扰传递错误位姿数据,引发运动控制冲突。

不过,有时候机器人也会拥有人类无法企及的“超感官”能力,比如工业分拣机器人通过太赫兹成像检测材料内部缺陷,农业机器人利用多光谱相机分析作物病虫害,核电站检修机器人搭载 γ 射线传感器定位辐射源等等。这些超越生物极限的感知手段,正在特定垂直领域重构生产力标准。

大脑

传统机器人决策系统依赖分层架构,如 ROS MoveIt 通过集成采样、优化算法等实现运动规划,并与基于规则的状态机协同。新兴具身智能企业则引入百亿参数级多模态大模型,如智平方自主研发的 AI2R Brain 具身大模型,已成功部署于 Alpha Bot 系列机器人

从这个角度看,现有的大语言模型虽在文本理解、逻辑推理等任务中表现显著,但其能力边界高度依赖训练数据的规模与质量,GPT-4的训练语料库涵盖约13万亿 token 的文本数据,接近人类个体一生阅读量的数千倍。这种数据暴力美学使 LLMs 能够模拟人类语言模式,但仍然存在无法解释、不可避免的幻觉。

相比之下,具身智能的决策系统面临更严峻的数据瓶颈。以动作-状态对为单位计算,当前全球可用的高质量具身智能数据集总量预估是千万级,而且数据模态复杂,需要同步记录视觉、力觉、关节位姿等信号,所以扩展起来也十分费劲。几个知名具身数据集覆盖的场景也有限:

  • RoboMIND:汇聚了来自 Franka Emika Panda、Tien Kung、AgileX Cobot Magic V2.0 和 UR5e 四种不同机器人实体的海量数据,目前总计约十万条轨迹,年底将达到三十余万条。轨迹涵盖了 479 个任务、96 个不同的物体类别以及 38 项操作技能。

  • AgiBot World:全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。

  • Meta Ego4D:最大规模开源数据集,含4000小时第一视角视频+3D关节数据,但仅覆盖日常交互场景。

  • 斯坦福BEHAVIOR:包含1000种家庭任务仿真数据,但物理引擎精度误差达15%。

  • DeepMind Open X-Embodiment:整合22种机器人形态的50万条操作记录,但硬件异构性导致跨平台泛化率不足30%。

这种数据稀缺性源于两大挑战:一是采集成本高昂,单台人形机器人采集1小时多模态数据,需要用到 RGB-D 相机+六维力传感器+IMU,成本较高,且需专业工程师全程监控;二是标注效率低下,需要人类标注员二次处理机器人操作视频的数据。

有业内人士估算,特斯拉的人形机器人 Optimus 至少需要数百万小时的数据才能完全准备好在特斯拉工厂工作,这期间可能需要至少5亿美元的数据采集成本。

高昂的采集成本也拖慢了具身智能数据的收集进度。目前业界的解决方式多是叠加“仿真+迁移”的技术,在虚拟环境中生成数亿条廉价数据预训练,再通过少量真实数据微调。但仿真器与现实的“物理鸿沟”仍导致实际场景性能损失40%以上。

小脑

在机器人运动控制领域,“小脑”技术的核心挑战在于复现生物神经系统的高效性与鲁棒性。

人类小脑通过约690亿神经元构成的微电路,以毫秒级延迟协调全身600余块肌肉,功耗不足5瓦,却能在湿滑路面行走、接住意外抛来的钥匙等动态场景中展现惊人的适应性。

传统方法依赖于精确的物理建模和数学推导,强调理论框架的完备性,但开发周期长、适应性有限。比如动力学模型控制,需建立复杂的运动学与动力学模型,通过在线优化计算生成轨迹,但依赖高精度传感器和实时计算,对动态环境适应性差,难以应对复杂地形或突发扰动。此外还有模型预测控制(MPC),通过预测未来数步的动力学状态,优化当前控制输入,缺点是计算复杂度高,非线性模型求解速度慢,仅适用于特定步态或场景。

随着AI技术的发展,数据驱动的学习算法逐渐成为主流,显著降低开发门槛并提升适应性。比如过仿真环境设计奖励机制,让机器人自主探索最优策略。

又或是仿真学习,通过人类示教或动作捕捉数据生成运动策略。目前,桥介数物也正是通过 learning-based 的方式,让机器人在仿真环境中通过深度强化学习自主学会行动策略,将开发周期从数月缩短至数天。

然而,这类算法的工程化落地仍面临一些困境,比如动态环境建模的物理鸿沟,仿真器中训练的模型因摩擦系数、空气阻力等参数误差,迁移到真实场景时成功率会有所下降;此外还有算力与能效的失衡问题,双足机器人实时运动控制需要的功耗远超人类小脑同等任务功耗。

行动

行动上的进步很明显,比如去年走都走不稳的人形机器人,今年已经可以和人类一起跳手绢舞、斧头舞,完成后空翻等各种动作了。在机器人行动层技术的研究中,核心目标是通过仿生结构与驱动系统的协同设计,逼近甚至超越人类运动系统的效率与适应性。

人类的行动自由度大概在200-300范围,可以实现许多精细动作,比如人的单只手掌的27个自由度允许抓握从鸡蛋到扳手的全品类工具。相比之下,当前人形机器人的行动层仍受制于机械设计的物理桎梏:能与人类共舞的众擎机器人 SE01 已经走在业界前沿,其32个自由度虽能完成前空翻等高动态动作,但执行叠衣、拧瓶盖等精细任务时,其手部动作与人类手指的连续柔顺控制存在代际差距。

此前曾被视作机器人巅峰之作的波士顿动力 Atlas 也仅有28个自由度,背后也是高昂的成本在支撑。为了降低成本,提升性能,波士顿动力公司正转向全电驱动技术的研究。即便如此,这样一个机器人的售价也在15万美元左右

从每个细分技术场景来看,也就不难解释,为什么机器人在许多日常生活场景中难以复刻人类的灵活与直觉,但是常常在一些人类实现不了地方取得意外之喜。想让机器人既能跳得了舞、切得了钻石、做得了手术,又能剥完整鸡蛋,还有很长的路要走。

供应链:从以月为单位到当天送达

“这不是一家公司的事情。”

我们常常能从具身智能企业那里听到这句话。动辄十亿级的研发资金需求,全球范围内稀缺的复合型人才,以及从毫米级触觉传感器到千瓦级关节模组的超长产业链,让具身智能乃至整个机器人产业不仅仅需要上下游的配合,更需要各个细分技术厂商、通用技术厂商的配合。

技术研发的爆点将在哪天到来难以预测,在那之前,各式零部件、基础耗材的攻击也是对产业链的一大考验。

近期,逐际动力联合创始人兼首席运营官张力就公开表示,“深圳在机器人硬件供应链上优势明显,有的硬件我们上午下单,当天下午就能做好送到,这极大提升了机器人公司硬件产品的迭代速度。”对比此前,有学者在国外做机器人相关研究时,经常需要从中国购买零部件,通常得一两个月才能收到货,而发货地多是深圳粤海街道发货。

因为机器人产业起步早、政策扶植等因素,深圳积累了硬件、供应链优势。有了供应链优势,再结合技术,量产才能成为可能。

3月3日,深圳市工业和信息化局发布《深圳市加快推进人工智能终端产业发展行动计划(2025—2026年)》。其中提出目标,到2026年,深圳市人工智能终端产业核心竞争力进一步增强,产品“含深度”进一步提升,产业生态持续丰富。具体来看,目标包括届时深圳市人工智能终端产业规模达8000亿元以上、力争1万亿元,集聚不少于10家现象级人工智能终端企业,人工智能终端产品产量突破1.5亿台;手机、计算机、大模型一体机、可穿戴设备等领域推出50款以上爆款人工智能终端产品,智能制造、智慧金融、智慧城市、智慧养老、智慧政务等领域打造60个以上人工智能终端典型应用场景。

同日,深圳市科技创新局发布《深圳市具身智能机器人技术创新与产业发展行动计划(2025—2027年)》。其中提到,到2027年,深圳市在机器人关键核心零部件、AI芯片、人工智能与机器人融合技术、多模态感知技术、高精度运动控制技术、灵巧操作技术等方面取得突破。具体来看,目标包括届时深圳市新增培育估值过百亿企业10家以上、营收超十亿企业20家以上,实现十亿级应用场景落地50个以上,关联产业规模达到1000亿元以上,具身智能机器人产业集群相关企业超过1200家。打造公共服务平台矩阵,吸引更多上下游企业、科研机构、创新团队等加入,形成更完善的产业生态,具身智能机器人产业综合实力达到国际领先水平。

中信证券认为,人形机器人产业快速发展,全球主要整机厂商陆续开始出货,人形机器人将迎来商业化。今年以来,随着一些具身智能整机厂商陆续公布量产计划,2025年可能是人形机器人量产的元年的观点也正在升温。

具身智能的进化、量产,本质是一场对人类生物本能的工程学解构——当机器人用碳纤维骨骼和代码复刻出人类230个自由度的动作时,我们不仅需要技术的突破,更需要整个产业链的配合。

本篇我们从宏观角度看了深圳具身智能“明星”企业的概况和技术,接下来,我们将持续追踪具身智能的技术攻坚与商业化落地,从多个角度深入解析具身智能的技术与发展。欢迎投稿和交流:18655807197

4月26日,【未来智造:机器⼈软件系统技术前沿】OSC源创会·深圳站·112期开启:

听日本创客高須正和拆解机器人竞赛中的 ROS 实战密码

深挖具身智能数据生态的底层逻辑,建设开源生态;

直面运动控制的“脑机战争”技术博弈;

触摸全球首款双模态多维触觉灵巧手技术,见证触觉传感升级;

看国产 RT-Thread 如何用硬实力机器人操作系统难题;

5大领域专家带你穿透技术瓶颈,直抵机器人智能化核心战场。

现场更有精美茶歇和超多礼品相待!

(号外:报名本期源创会即可享受4月24日-26日的 FAIR plus-机器人全产业链接会现场通票,一睹机器人全产业链展会风采)

🔥 即刻报名:https://www.oschina.net/event/8595590 🔥

时间:2025-04-26 12:00 至 16:30

🏠 地点:深圳市 福⽥区 福华三路深圳会展中⼼8号馆

4月24-26日,“机器人全产业链接会(FAIR plus 2025)”也讲在深圳会展中心(福田)7-8 号馆举办,同期举办 LogiMAT China2025。活动内容精彩纷呈,包含学术会议、技术沙龙、社区培育,其中的技术社区共建会,涵盖开源技术沙龙、社区生态召集会、标准工作组会议;另外还有场景协同开发对接会,精准对接匹配各方需求,新品发布及产品说明会,为企业展示新品提供平台。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
1 收藏
0
分享
返回顶部
顶部