“2025世界大会”于8月8日至12日在北京经济技术开发区开幕,“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。澳鹏中国产品研发副总裁钱程,深圳赛博格机器人有限公司技术副总裁张怀东,云深处科技副总经理葛永乐,安徽聆动通用的季超等出席论坛“智聚前沿,技破无界:AI大模型赋能具身智能创新革命”圆桌对话并演讲。
以下为圆桌对话实录:
季超(主持):大家好,我是安徽聆动通用的季超。接下来将由我主持“智聚前沿,技破无界:AI大模型赋能具身智能创新革命”圆桌会议。在科技飞速发展的当下,机器人、具身智能与大模型技术的融合与突破正成为推动各领域进步的关键力量。这一趋势的形成有着深厚的技术演进背景和迫切的产业需求驱动。AI大模型以强大的学习与推理能力,为机器人赋予多模态感知、复杂决策的“智慧内核”,推动其应用场景从工业制造向医疗康养、家庭服务等领域加速拓展。
今天我们有幸邀请了几位业内知名企业家共同探讨 AI 大模型与具身智能的技术融合路径及产业应用等前沿话题。
首先我想有请各位嘉宾用一分钟左右做个简短介绍,介绍一下公司的发展方向包括对于行业的看法。
钱程:大家好,我是钱程,来自澳鹏数据科技有限公司,主要负责产品研发。澳鹏成立于1996年,到目前为止有将近30年的历史,这个过程中我们一直专注在人工智能训练数据这个领域。我也很高兴看到今天在座的很多同仁分享的过程中都反复的提到了数据这样一个事情,非常高兴在这个领域里有持续多年的深耕,希望在后面可以有更多的支持,为具身智能这个行业提供更多高质量的数据产品。
澳鹏创始人开始是个语言学家,我们从语音数据开始起家,到后面的自动驾驶、图像数据、大模型文本和语料数据到具身智能的多模态数据都有非常多的深耕工作。
现在整个团队里开发的产品有针对数据采集、数据标注、模型评估等一些平台工作类的产品,同时有大量的数据集的产品。整体有四千人以上的人员规模,帮助我们在全国各地包括东南亚有自己的交付中心,帮助我们的客户生产各种高质量的数据集,针对具身智能帮客户做了机械臂的数据采集工作,扫地机器人等等应用场景的数据采集和标注工作。
张怀东:我是来自深圳赛博格的张怀东,我在公司里担任CTO,主要是负责公司大模型和多模态感知的开发,我们公司的产品主要面向的是高危、高负荷、重载的工业机器人的产品定位,所以组建了一个软硬协同的团队,我们有一个放在西安总部的硬件团队,也有一个放在深圳总部的软件团队一起努力打造一款我们觉得是真正能做到高危、高负荷的机器人产品。
面对这个目标,我们现在已经研发了三款主力产品。一个是全尺寸的人形机器人赛博格R01,它像人一样,有1.78米的身高,负载做到20公斤,还做了一款成本更低一些的,但是相对来说可以在平坦地面作为轮式机器人。而且我们还做了一个自研的绳驱的灵巧手,可以通过6个电机驱动16个自由度。
我们所做的产品目标都是针对工业场景做的,前几天上海的WAIC展示了一个电网拉电闸高危的操作,今天在北京展台上也展示了高负荷、重载的工作,机器人可以做到单手拎着4公斤的哑铃,全天不停机的运行。欢迎大家去我们展台看看,谢谢!
葛永乐:我是来自杭州云深处科技的葛永乐,主要是负责机器人在具体场景的应用以及市场工作。云深处大家可能不陌生,是依托于浙江大学控制学院成立,我们这个团队做四足机器人和人形机器人的历史比较长了,接近20年。
云深处一直致力于做具身智能创新,更重要的是应用场景的引领者,所以我们公司旗下的四足和山猫产品广泛应用在工业、电力、能源以及应急消防等等这些场景,应该也是国内在这个行业应用做的最多的。
季超(主持):我这里也介绍一下我们公司,安徽聆动通用机器人科技有限公司是一家行业领先的具身通用机器人公司,是安徽省首家“大脑-小脑-本体”全链路自主可控的具身智能机器人大脑及本体的讯飞系硬科技初创企业。自成立以来公司持续致力于将技术领先的具身大模型和机器人本体深度耦合,构建软硬件一体化行业级解决方案和标准产品。通过具身智能赋能传统制造业升级,助力真实场景实现劳动力升级,打造新一代高端制造柔性生产力。聆动通用在本次世界机器人大会期间发布具身智能采训推一体机LDT-01,其采用消费级与工规级融合方案自主研发,国产化率高,供应链安全可控,全栈数据链打通,数据安全可靠。经过大量实践验证,实现客观有效的数据采集闭环,具有数据质量高、操作舒适度好、场景应用范围广、采集训练推理一站式整合等显著优势特点。
接下来,将进行嘉宾集体讨论环节,我今天听了一下午的报告,知识密度是非常大的,在接下来的讨论环节就是把整个议题凝练了一下,围绕着一个话题来做一个相应的报告,也是今天时间限制。
针对多模态感知与具身智能的协同优化,在视觉、语言与行动的深度融合方面,咱们在各家公司有做过一些相应的核心技术开发,包括应用尝试的分享,首先有请钱总谈谈具身智能能否展现大模型的Scaling Law,以及如何解决高质量训练数据集稀缺的问题?
钱程:关于Scaling Law这个词大家可能并不陌生,特别在近年来大语言模型快速发展过程中,随着算力的爆增,训练数据的爆增以及参数量的爆增,带来了一个非常显著的模型性能的提升。
在数据量这个领域,当前比较好的大模型或者大语言模型甚至是具身智能大模型所需要的训练数据量级在百万亿token以上,针对另外一个场景比如说自动驾驶,它的数据量级也是非常大的,以特斯拉为例,每天可能都能采集到真实世界的场景,在百万英里以上。大家在路上也会看到很多采集车安装了激光雷达或者摄像头,只要在路上开,会源源不断的获取数据,有不同数据的输入,问题可能不在于数据量的获取,更多是在corner case里怎么挖掘,怎么优化它的算法。
早年AI项目李飞飞所发布的ImageNet量级也在千万级以上,回到具身智能,大家可能会发现它的数据好像有点稀缺,训练的数据量级可能没有那么大,OpenVLA所用到的OpenX embodiment所整合的多个机器人的训练数据有百万级的数据量级。为什么会有这样一个问题?我觉得本身跟具身智能要解决的问题,它的难度是有关的,另外跟它的数据采集和获取的方法也是息息相关的。大多数情况下需要构建一个数据生成的工厂,去配备大量的机器人在里面,同时要搭建不同的场景,购置不同的道具,需要配备不同的人员进行数据生产,可能需要通过遥控操作机械臂等不同的方式去生产这样的数据。
可想而知,这个生产过程并不是能够非常大的量产数据。我们怎么去解决这样一个问题,并不是降本增效或者是扩展工厂规模,应该是以更加开放和包容的心态希望推动具身智能机器人能够更快的量产,更快的落地我们本身的生产生活当中去。
假设具身智能机器人的应用场景是平时在商店里是一个机器人帮我们做商品结算,路上有机器人打扫卫生,家里有机器人做家务,工厂里有机器人巡检,做搬运货物,大量真实的数据源源不断的产生,这样的数据并不是一定要搭建场景去操控它,刚刚过去的上海WAIC会议,强化学习之父理查德·萨顿提出一个概念“经验数据”,为什么提这个概念?当前的大模型已经耗尽了互联网上的静态数据,未来AI的发展该怎么去获取更多的信息,更多的数据来提升它的能力。有一个观点就是在干中学,在实践的过程中积累新的数据、新的经验。具身智能是非常适合在这样的情况下做这件事情的。有几个原因。
第一个原因,其实AI的发展在学习人类的学习经验和学习过程,人类也是在从小到大家里的家长或者老师都会告诫一个非常锋利的刀片,可能会产生一个伤害或者划破皮肤,但是人并不会马上就会去意识到这个问题,大家都会遇到还是会被刀片划伤的情况。我们其实在整个划伤的过程中感知到了这个问题,然后通过这样的经验刺激自己学习这样一个过程,具身智能同样需要在真实的物理世界里做更多的交互,产生这样一些经验知识的输入,提升本身的能力。
第二个原因,对比自动驾驶的领域,具身智能的应用场景大多数情况下是相对安全的,容忍度是比较高的,不像自动驾驶在飞速行驶的道路上,假设模型有微小的误判,可能会产生生命安全的问题,但具身智能的问题没有那么大,特别是用机器人制作一杯咖啡。比如说服务员需要1-3分钟完成这样一件事情,但是机器人一开始需要5分钟、10分钟甚至更多时间。大家只要包容缓慢的过程,很快就可以训练好或者加快速度的。再比如一个炒菜机器人可能会发生物体的泼洒或者说炒菜的口味并不好,那也并不是一个非常大的问题。
具身智能的算法和模型所需要的训练数据的Scaling Law也会很快到来,只要大家更快的拥抱它,更多的应用在平时的生产生活中,我们作为一个数据生产的厂商,希望更快的拥抱这样一个变化,生产更多的训练数据,让具身智能的发展有更多的训练数据养料。
季超(主持):有请张总针对多模态感知和具身智能的融合,现在在视觉、语言、动作,也就是基于模型控制变成了VLA(端到端),请您这边谈一下自身公司的相关发展以及自己对这个行业的看法。
张怀东:VLA大模型从去年OpenVLA开始受到大家的关注。最近发布的开源模型大体上都是三阶段模型,先做一个感知,然后做一个决策,最后做一个动作。现在的做法普遍是做一个端到端的训练,然后做一个联合优化。
我们可以看到现在各大公司放出来的演示来看,这样子得到的模型的确可以做到比较好的专用任务的优化。我们现在的超市、零售或者搬箱子在这些场景里可以看到机器人做之的很不错,就是我们用特定的数据微调了端到端的模型。
这样做的话我个人觉得联合优化不一定是个好事,因为这样子可能会导致我们的模型丢失通用性,可能变成专用了,而不是通用了。这可能会阻碍我们往AI方向的发展。三阶段感知、决策、动作。感知就像我们的眼睛和嘴巴,视觉听到图像是通过眼睛吸收的。聊天跟别人做交互是通过嘴巴和耳朵完成的,这个是我们一个器官。得到的这些外部的感知信息再转化为电信号,传回到我们的大脑再做处理,处理完之后才得到决策的信号,最终反馈到末端信号,指挥我们的手和脚做行走和运动。
其实VLA的大体模型跟我们人的仿生来说是很像的,我们可以想象一下我们会考虑让嘴巴或者说眼睛、耳朵做思考吗?好像不是这样的,应该是单纯的做感知,最终所有信息汇聚和处理、计算还是在大脑这部分完成的。
我们走的优化的思路可能会有一点问题,会比较容易实现专用,但是我个人觉得如果真的想要迈向通用智能的话,可能我们还是需要考虑怎么样更好地用现在已经可以得到的训好的像DeepSeekR、Chat GPT5等等通用视觉和语言的大模型,帮助我们提供更好的更通用的Token,而不是说尝试做联合优化。
如果我们后面不是基于业务的数据做,而是我们每一次都是把所有的做尝试的话,这个做联合优化肯定是有意义的,这个是帮助我们迈向AGI,这个是我个人的看法。
我觉得目前的联合优化可能是暂时的,但是我们下一阶段要迈向AGI肯定还是要走一下别的路子。
季超(主持):其实就是分层是中间的阶段,今天也有联合创始人说了一个观点,类比了NLP和Transformer的区别,其实就是分层和完全端到端往AGI方向发展。
张怀东:我们可以想像假设如果我们不是有一个任务,而是每天都有一个新增的业务虚实学习的话,我们怎么样做垂学习的操作。目前有一些方案就是moe混合专家模型,我们在每一次学一个新业务的时候都去找一个专家,但是这个方向终究还是需要想办法解决大量性遗忘的问题。
季超(主持):谢谢,下面有请葛总这边针对大模型引领下的机器人智能化浪潮,因为刚才也提到了VLA的发展目前是渗透到了千行百业,包括去年能够看到机器人的火爆,包括今年我们真实从行业里面看到的体感是,去年机器人很多还是挂在绳子上的,今天有很多可以下地走,包括有很多可以开始干活,是不是机器人离真实的未来生活已经越来越近了,想请葛总这边分享一下自己的观点。
葛永乐:我的观点是这样的,先总结来说一下,我认为多模态大语言模型出现是极大地拓展了机器人应用场景和机器人应用边界。我们云深处这几年更多做的是把四足机器人在具体的场景,让机器人真的能够替代人类完成一些简单的重复性劳动比较强的,以及场景比较危险的。
给大家分享两个四足机器人应用比较多的场景,一是机器人在便利店站的巡检和操作,其实我们云深处到目前为止更多的专注于解决机器人的本体,解决四足机器人的小脑以及感知的能力。
为什么分享便利店巡检的场景,其实我们在解决这个的时候就已经花了非常多的时间,因为便利店站场景是非常固定的,但是我们把机器人应用在南方天气就会发现,它在不同的环境下,对于机器人的考验是比较大的。
比如说正常晴天的时候,地面是干燥的,但是在梅雨天气的时候地面上会起大量的水,对于机器人运动能力的考验是非常大的。我们尝试用强化学习解决,也尝试了基于传统的运动控制方式+三维感知的方式解决,到现在更多的是用端到端的多传感器融合的方式在解决这个问题。但是这个是解决机器人在具体场景的适应性。
但是真正的说机器人能够帮助客户解决问题,其实光有机器人本体是不够的,更是需要面向具体应用场景、应用对象的一些识别、分析和处置工作。比如说在便利店场景下,光线的影响也会影响机器人对于便利店站设备一些电器状态,以及相关仪器仪表识别的结果。
我们去年也联合了一些合作伙伴发现,我们是用视觉大语言模型,用正负样本的手段多角度地识别结果的准确性,其实是比用传统的方式有很大的提高。我们终端客户也对我们的工作有非常大的认可。
第二个我想方向两个大的场景,在这个和平年代消防人员牺牲是最多的。我们云深处更多的是在应急消防这个领域把四足机器人当成消防里面的侦察员的角色。
为什么刚才说和平年代消防员牺牲是比较多的,不是因为被物理受伤,更多的是移动大楼发生着火之后,这个里面环境比较恶劣,比如说有浓烟,甚至有高温情况。因为消防员背着空呼在这个场景中就只能支撑30分钟,但是他要进入到大范围的尤其是室内或者有限空间里面,把被困人员找到发现着火点在哪,这个对于机器人来说是挑战非常大的。
我们在这个场景应用过程中,客户给我们提了非常刚需的点,你们的机器人能不能在这个场景里面别的活不要干,就是能够记忆机器人走过的路径,并且知道安全出口在哪里。当消防员身上背着氧气快要耗尽之后,机器人能够自动算出当前机器人的位置和最近的出口距离,保证消防员能够出去。
在大语言模型没有出来之后我们认为这几乎是不太可能的事,今年开始我们也采用在机器人身上装了视觉、激光雷达、毫米波传感器,用这种综合的手段发现在一些稍微不那么复杂的场景下,刚需的需求开始慢慢地变得可能了。
为什么举这两个场景呢?还是和我们云深处的风格有关,我们希望这个机器人在具体的场景中帮助我们的人类解决一些危险复杂的工作,让人类避免受伤,最后机器人要科技向善的思维。所以我认为尤其是大语言模型的出现,未来肯定能够在更多的应用场景和行业,能够越用越好,能够让我们人类避免受到上海。
季超(主持):谢谢葛总,刚才葛总也提到了在实验室里面机器调得非常好,还是需要通过真实的任务场景去面向实地做打磨,这个也是和现在具身智能遵循的两条技术路线都非常像。
因为具身智能现在也是遵循数字金字塔的结构,所以我们数据量规模最大的反而质量精度并不是特别高,比如说在合成数据、仿真数据包括互联网数据基座训练,对于机器人来说会有泛化性的普遍提升,但是可能如果要到真实场景里面应用,可能真实的数据包括真实的场景打磨,我们认为还是必不可少的,也再次谢谢各位专家的发言。
刚才的分享也是可以认识到通用大模型和具身智能为机器人技术带来了无限的可能,不仅提升了机器人的智能化水平,也拓宽了整个应用场景,在大模型具身智能出来之前,很多场景其实是想都不敢想的,也是让机器人更加贴近我们的工作和生活,未来更期待看到更多跨学科场景融合,国家也会出台更多的政策予以支持和引导,共同推动机器人技术的持续进步和发展。
时间有限,本场圆桌到此结束,有请各位嘉宾移步嘉宾席就坐。
接下来有请国地共建人形机器人创新中心首席科学家 江磊 先生 登台主持第二场圆桌对话,大家掌声有请。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
转载请注明来自夏犹清建筑装饰工程有限公司,本文标题:《专家共议“AI大模型赋能具身智能创新革命”》
还没有评论,来说两句吧...