最近爆火的低成本机器人系统Mobile ALOHA火出了圈,再次刷新了对机器人的关注,也让市场对于机器人有了更多的预期。
机器人是一项综合性很强的领域,它涵盖了机械、电子、计算机、感知等多个学科。这种跨学科的特点使得机器人技术的发展需要多个领域的技术共同进步,才能实现整体上的突破。因此,机器人技术的发展可能会受到其中某个领域技术瓶颈的制约。
不过近年来,随着信息技术的发展,机器人跨学科导入的速度越来越快。比如图像识别,视觉处理,语音识别等技术,都已经被机器人行业快速采用。
2023年,大语言模型(LLM)无疑是最耀眼的一项技术,将LLM从云移植到边缘的进程也在加速中,AIPC,AI手机都已经出现。而现在,嵌入式行业也正在迎来AI的新时代。
NVIDIA 嵌入式和边缘计算副总裁 Deepu Talla日前在CES上,发表了关于融合 AI 与机器人技术的演讲。
Talla 预测,生成式 AI 的影响将超越文本和图像生成,进入到家庭和办公室、农场和工厂、医院和实验室中。其关键在于,类似于人类大脑语言中心的大语言模型(LLM),使机器人能够更自然地理解和响应人类指令。
“人工智能驱动的自主机器人越来越多地用于提高效率、降低成本和解决劳动力短缺问题。”Talla说道。
NVIDIA 嵌入式和边缘计算副总裁 Deepu Talla
生成式AI能为机器人行业带来什么
生成式AI对于机器人行业带来的将是天翻地覆的改变,这种自然的交互会让机器人变得更易用,更高效以及更可信赖。
波士顿动力把ChatGPT装在了机器狗上面,支持各类人机交互,充当起导游并引领客人参观公司各种设施。
波士顿动力的机器狗
Collaborative Robotics正开发一种协作机器人,这种机器人设计用于在人类周围进行操作。该公司表示,其系统旨在自动执行在仓库等场所移动物品的任务,能够搬运箱子、提包和手推车。许多公司已经在其物流设施内采用了机器人来自动移动货物。然而,任务的更复杂部分仍然需要人工介入。Collaborative Robotics表示,他们正在设计的协作机器人,能够“端到端”地完成这类搬运任务,无需人工干预。这其中一项关键指标就是能够利用LLM实现语义理解。
人工智能拣选机器人Covariant公司创始人Peter Chen去年就发表了“AI机器人的GPT时刻即将到来”的文章,Chen指出“使 GPT 能够看到、思考甚至说话的核心技术也使机器能够看到、思考和行动。由基础模型驱动的机器人可以了解其物理环境,做出明智的决策,并根据不断变化的环境调整其行为。”
“机器人 GPT”的构建方式与 GPT 相同——为一场革命奠定基础,这场革命将再次重新定义我们所知道的人工智能。
Sanctuary Cognitive公司开发的Phoenix人形机器人,其特别之处不仅在于它的能力,更在于它的认知能力。这款机器人配备了专为类人动物设计的综合认知架构和软件,能够理解自然语言命令并根据指令执行操作,类似于人类员工遵循口头指示的方式。Phoenix 的认知架构包括推理、任务和行动,可以确保决策过程的完全透明和问责制。它结合了符号和逻辑推理,并采用了大型语言模型,包括 OpenAI LP 的 ChatGPT,以提供广泛的通用知识和特定领域的知识。依靠深度学习和强化学习技术,Phoenix 可以表现出自主的行为和目标寻求行为。深度学习使得机器人能够从数据中提取模式,而强化学习则让机器人可以通过反复试验学习执行不同任务的最佳策略。
宇树科技也于去年推出基于大模型GPT赋能的全新四足机器人新品Unitree Go2。
Agility Robotics、NTT 和其他公司正在将生成式 AI 整合到他们的机器人中,以帮助理解文本或语音命令。追觅科技的机器人吸尘器,正在由生成式 AI 模型创建的模拟生活空间中接受训练。Electric Sheep则正在开发一种利用生成式AI的自动割草机。
这些公司都是NVIDIA的合作伙伴,Talla表示:“这一切都是水到渠成,有越来越多的合作伙伴正在使用由 GPU 加速的大语言模型,为各类机器带来前所未有的智能和适应能力。”
NVIDIA加速机器人行业利用生成式AI
NVIDIA Isaac 和 Jetson 平台等 NVIDIA 技术能够为 AI 机器人的开发和部署提供助力,已经被超过 120 万名开发人员和 10,000 名客户和合作伙伴所使用。
其中的许多企业都参加了本周的 CES,包括ADI、Aurora Labs、Canonical、追觅创新科技、DriveU、e-con Systems 、Ecotron、Enchanted Tools、GlüxKind、禾赛科技、Leopard Imaging、九号公司(未岚大陆(北京)科技有限公司)、Nodar、奥比中光、QT Group、速腾聚创、Spartan Radar、TDK、Telit、宇树科技、Voyant Photonics 和一径科技等。
Talla 在演讲中展示了将 AI 部署到机器人技术中所必需的双计算机模型(如下),展现出 NVIDIA 在 AI 开发和应用方面的全面性。
第一台计算机被称为“AI 工厂”,是创建和不断改进 AI 模型的核心。
AI 工厂使用了 NVIDIA 数据中心计算基础设施以及 NVIDIA AI 和 NVIDIA Omniverse 平台,可以仿真和训练 AI 模型。
第二台计算机代表机器人的运行环境。
运行环境根据应用的不同而有所变化,比如可以是云或数据中心;对于半导体制造中的缺陷检测等任务则是本地服务器;配备多个传感器和摄像头的自主机器也可能成为运行环境。
Talla 还重点介绍了 LLM 在打破技术壁垒方面的作用。LLM 可以将普通用户变成技术艺术家,能够创建复杂机器人工作单元或整个仓库仿真。
借助 NVIDIA Picasso 等生成式 AI 工具,用户可以根据简单的文字提示来生成逼真的 3D 资产,并将其添加到数字场景中,以实现动态、全面的机器人训练环境。
这一功能还可扩展到在 Omniverse 中创建多样化且符合物理学的场景,从而加强机器人的测试和训练,保证机器人在现实世界中的适用性。
这与生成式 AI 在重新构建机器人部署方式上的变革潜力不谋而合。
以前的机器人是为特定任务而专门制造的,而根据不同任务来修改机器人十分耗时。
Talla 还解释道,LLM 和视觉语言模型领域的进步正在消除这一瓶颈,使我们能够通过自然语言与机器人进行更直观的交互。这种适应性强、能感知周围环境的机器将很快遍布世界各地。
“在测试或训练机器人时,环境的多样性对于确保机器人能够推广到现实世界至关重要,类似 ChatGPT 的工具允许用户在几分钟而不是几天内创建数千个准确的机器人场景。”
写在最后
去年十月,NVIDIA公布了一个名为 Eureka 的 AI 系统,该系统以 OpenAI 的 GPT-4 为基础,能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。据报道,Eureka的奖励计划促进了机器人的试错学习,在80%以上的任务中超过了人类编写的奖励计划。英伟达团队表示,这使机器人的性能提高了50%以上。这些结果是由于人工智能代理利用OpenAI的GPT-4和生成式人工智能来编写软件代码,在强化学习过程中奖励机器人。
ChatGPT证明,大模型是能够让计算机理解并表现出人类的思维及判断力,也正如此大模型可以变革机器人行业,包括开发及用户体验等全方位的提升。
在今年CES上,我们也看到诸多生成式AI与机器人融合的案例,机器人的“iPhone”时代或许正是此时。
“这种适应性强、能感知周围环境的机器将很快遍布世界各地。”Talla说道。
相关文章