人形机器人真要落地了：“赛博保姆”开年震圈，创企融资订单拿到手软

您现在的位置：首页 > 产业新闻 > 机床及机器人 > 文字新闻

发布时间：2024-01-23　　来源：澎湃新闻　　

　　2024年刚过去三周，AI+机器人赛道就迎来爆发式开局！

　　前有斯坦福机器人大秀厨艺烹饪“满汉全席”，后有特斯拉擎天柱化身保姆将T恤叠成“豆腐块”，还有两家创企的机器人比赛起了煮咖啡。这边OpenAI支持的机器人企业1X刚宣布5亿美元融资，那边创企Figure就宣布旗下机器人入驻宝马汽车工厂。

　　这似乎印证了英伟达高级科学家Jim Fan去年年末的一条预测：2024年将成为机器人爆发的一年，其重要程度仅次于大型语言模型（LLM），“我们距离物理AI智能体的ChatGPT时刻还有3年。”

　　然而，机器人企业“狂欢”之下，其宣传视频的真实性、机器人产品的实用性等也引发了争议。不少网友指出，这些演示似乎存在剪辑等方面的误导性工作。

　　那么具体来看，AI机器人现在都能做些什么？五花八门的行为背后究竟是自主执行，还是人为操控？AI机器人赛道目前的发展处于什么阶段？在落地层面还面临哪些痛点？智东西与开普勒探索机器人首席执行官胡德波，优必选联合创始人、首席技术官兼执行董事熊友军等从业者进行了深入交流，寻找这些问题的答案。

　　胡德波谈道，AI机器人最可能先落地的场景主要集中在简单重复的、相对可控的任务上，包括工业制造场景、仓储物流场景以及一些危险性的场景等。他认为调用云端大模型所带来的实时性问题，是落地层面目前最大的痛点。

　　谈到AI机器人落地的痛点，熊友军从数据、场景、安全性以及迁移成本等方面进行了分析。例如现有的训练数据大多基于桌面，与实际场景中的应用有很大差距，大模型的不可解释性可能导致类似于语言模型中的“幻觉”等问题。

　　如果说在去年年末，预告2024年将成为“机器人之年”还只是空喊口号，那么今年以来，斯坦福、谷歌、Figure、特斯拉在不到一个月的时间内接连发布了6项以上的新演示或新进展，则为这一观点提供了有力的论据。

　　先是1月4日凌晨，来自斯坦福大学的三人团队放出了基于Mobile ALOHA系统的机器人演示视频，展示了机器人如何完成复杂的移动操控任务，无论是烹饪、清洁桌面，还是按电梯按钮并乘坐电梯，都不在话下。

　　团队开源了Mobile ALOHA系统的全部软件、硬件和数据，从材料清单来看，硬件成本共约3.18万美元，折合人民币约22.8万元。

　　据介绍，Mobile ALOHA是一种用于数据收集的低成本全身远程操作系统，在训练过程中，每项任务只进行了50次演示，其中的关键在于使用Mobile ALOHA收集的数据执行监督行为，与静态的ALOHA数据协同训练，可将成功率提高90%。

　　ALOHA则是一个用于双手远程操作的低成本开源硬件系统，由来自斯坦福、UC伯克利、Meta等机构的团队发布于去年3月，Mobile ALOHA是在其基础上的迭代。

　　Mobile ALOHA一经发布便火爆全网，而不到24小时之后，谷歌DeepMind就在1月4日深夜连发三项新进展AutoRT、SARA-RT和RT-Trajectory，用于提升机器人的速度、数据收集以及泛化能力。

　　这三项新进展都基于DeepMind的RT-2模型（Robotics Transformers），这是一种视觉-语言-动作（VLA）模型，可以从网络和机器人数据中学习，并将学到的知识转化为机器人控制的通用指令。

　　AutoRT是一种用于机器人智能体（Agent）大规模编排的具身基础模型系统。

　　机器人首先利用视觉语言模型（VLM）进行场景理解，将描述输入至大型语言模型（LLM）以得到自然语言指令；随后在另一个名为“机器人宪法”（Robot Constitution）的LLM的指导下，完善指令以实现更安全的行为。

　　其中，机器人宪法包含三类规则，分别是基本规则，机器人不得伤害人类；安全规则，机器人不得尝试涉及人类、动物或生物的任务，机器人不得与锋利的物体（例如刀）互动；具身规则，如机器人只有一只手臂，则无法执行需要两只手臂的任务。

　　据介绍，在7个多月的实地评估中，AutoRT系统可同时安全地协调至多20个机器人，收集了包括6650个独特任务的7.7万次机器人试验。

　　SARA-RT提出一种自适应鲁棒注意力机制，在不损失质量的前提下将RT模型改进为更高效的版本。在提供简短的图像历史记录后，最好的SARA-RT-2模型比RT-2模型准确率高10.6%，速度快14%。

　　RT-Trajectory是一种通过事后轨迹草图概括机器人任务的模型，用于提升机器人的泛化能力。它获取训练数据集中的每个视频，并在执行任务时将其与机器人手臂夹具的2D轨迹草图叠加，从而提供实用的视觉提示。

　　在对训练数据中未见过的41个任务进行测试时，由RT-Trajectory控制的机械臂任务成功率达到63％，而RT-2仅为29％。

　　1月7日，创企Figure发布了一则机器人Figure 01煮咖啡的视频，并强调该机器人使用端到端的AI系统，仅通过观察人类煮咖啡，即可在10小时内完成训练。

　　据称，Figure 01的神经网络接收视频训练，输出运动轨迹。它还学会了自我修正，如当浓缩咖啡没有摆正时，它会将其调整到正确的位置。

　　融资方面的进展也没落下，1月11日，OpenAI支持的AI和机器人公司1X宣布完成1亿美元B轮融资，投资方包括三星NEXT基金、瑞典私募股权基金EQT等。

　　资金将主要用于将其第二代双足人形机器人Android NEO推向市场，以及对现有企业客户在物流和保安方面的支持。NEO专为日常家庭协助而设计，为消费市场中的各种家务任务提供多功能支持。

　　没过几天，人形机器人界的“顶流”擎天柱（Optimus）也来凑热闹。1月16日，马斯克发布了一则擎天柱叠衣服的视频，瞬间点燃了社交网络，浏览量超过7100万次。

　　视频中，擎天柱从身边的筐中取出一件T恤，两三下就把它叠成了“豆腐块”。

　　1月18日，Figure宣布与宝马签署商业协议，机器人Figure 01将进入宝马工厂，在汽车制造过程中“自动执行困难、不安全且乏味的任务”。

　　1月20日，一家来自中国的创业公司MagicLab发布了一个人形机器人空翻的视频，据称是电驱动的人形机器人首次实现空翻。除此之外，MagicLab还展示了这款机器人煮咖啡、做拉花的过程。

　　不得不说，开年三个星期，产学研界都在“狂卷”AI机器人。然而，这些新成果在爆火刷屏的同时也引发了一些争议，如演示是否真实、机器人系统是否真的实用等。

　　在Mobile ALOHA演示视频发布后，除了赞许外，评论区也有不少质疑的声音。

　　专栏作家Karl Smith评价道：“抱歉，我不认为这些虾被完全煮熟了。这又是一场Gemini Ultra式的演示。”

　　说句题外话，看来谷歌在Gemini演示视频中靠剪辑“造假”的行为确实令人印象深刻，“Gemini式演示”俨然成了一个新的形容词。

　　“但是，它（做的菜）味道如何？”开发者Nick Dobos说。

　　网友Sarah Roark质疑它是由人类远程操控的：“需要明确的是——这确定不是远程操控吗？”

　　面对这些质疑，尤其是对自主模式和远程操控的争议，Mobile ALOHA团队很快在1月6日发布了一个机器人“翻车”合集进行澄清。

　　实际上，斯坦福同时发布了多个Mobile ALOHA演示视频，其中作者之一Zipeng Fu发布的视频为自主模式下的操控。

　　而另一作者Tony Z. Zhao发布的做“满汉全席”的演示视频，则是在混合模式下由人类远程操作完成，但有很多人误以为全部的演示都是在自主模式下完成的。

　　在澄清视频中，团队展示了自主模式下，机器人犯过的一些“愚蠢的错误”。

　　能自主做饭清洁叠衣服的机器人固然吸引眼球，不过冷静下来再看，我们会发现这些机器人仍需要人类远程操控，在完全自主的模式下则表现得“笨手笨脚”，离真正的智能还有一定距离。

　　数据、场景、安全性等问题仍是机器人的“致命弱点”，欣慰的是，我们已经看到DeepMind等机构在这些方面取得了更多进展。

　　无论如何，企业和机构的“卷”是件好事，我们期待在2024年看到AI机器人学会更多技能，在进入工业、家庭等场景的路上走得更远。

上一条：大模型，还是救不了困境中的AI企业

下一条：今年国务院将为企业减负超万亿元降费占六成