解决机器人“叠被子困境”,杭州六小龙群核科技开源空间理解模型

解决机器人“叠被子困境”,杭州六小龙群核科技开源空间理解模型

夏星泽 2025-03-19 百科 1 次浏览 0个评论

澎湃新闻记者 李晶昀 AI 创意

“杭州六小龙”企业之一群核科技3月19日宣布,公司自主研发的空间理解模型SpatialLM正式开源。该模型能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息,并将它以脚本语言的形式呈现出来。

“就像我们环顾四周环境便可以理解背后的空间结构一样。”群核科技如此比喻。具体运行中,可以简单理解,给SpatialLM“刷”一段视频,它便能生成物理正确的3D场景布局。

据介绍,该模型特点之一是更通用的数据输入模式。SpatialLM无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源,大大降低了开发者的数据采集门槛。

其次是物理正确的场景创建能力。空间场景是否符合物理正确原则,是影响机器人空间理解效果的关键。

SpatialLM 基于视频重建的3D结构化场景

群核科技称,这得益于公司在过去十余年中积累了海量的3D数据和空间认知数据。该公司由黄晓煌、陈航、朱皓于2011年联合创办,主要以空间设计软件市场为目标。旗下产品包含空间设计软件酷家乐、海外版产品Coohom,以及为AIGC、具身人工智能、AR/VR、机器人等提供虚拟环境训练的群核空间智能平台SpatialVerse。

根据弗若斯特沙利文的资料,按2023年的平均月活跃用户(MAU)数目计量,群核科技是全球最大的空间设计平台;按2023年的收入计量,公司亦是中国最大的空间设计软件提供商,约占22.2%的市场份额。2024年,群核科技的平均月活跃访客数为8630万名。

群核科技方面表示,SpatialLM突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。

值得一提的是,群核科技去年已发布群核空间智能解决方案(下称“SpatialVerse”),SpatialVerse主要通过合成数据方案为机器人搭建起接近物理真实的“数字道场”,帮助它们在仿真环境下完成例如叠被子、递送水杯、开关冰箱门等行动的交互训练。

群核科技称,有了SpatialLM模型和SpatialVerse,机器人将获得从认知理解到行动交互的完整闭环训练,也就是既能“看懂”世界,又能学会行动决策,进而在真实世界里顺利“上岗”。

实际上,去年12月,群核科技联合创始人兼董事长黄晓煌在一次公开演讲中即提到,当我们谈到具身智能或者机器人的时候,“叠被子困境”是一个非常典型的场景。

“目前的 ChatGPT 大语言模型,可以很容易地让机器人理解人类的指令,‘给我叠一个被子’,它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好,但它很难执行。或者当它学会叠一床被子后,换个形状可能就又不会了。”黄晓煌指出,“机器人的大脑在数字世界里,但身体却在物理世界中。”

而如何让机器人正确理解物理世界,黄晓煌认为关键是要有海量可交互的三维数据。

群核科技最新也提及,开源仅仅是一个起点。“具身智能正处在爆发式发展的新阶段,我们希望以空间模型和数据开源为契机,让更多具身智能从业者有机会参与二次创新,共同推动产业技术底座持续进化。”

此外值得关注的是,今年的2月14日,群核科技已正式向港交所递交上市申请,也是“杭州六小龙”中首家启动IPO进程的公司。

成立至今,该公司已获得包括IDG资本、纪源资本、顺为资本、云启资本、经纬创投、线性资本、Hearst、Pavillion、高瓴创投、Coatue等多家机构投资。IPO前,IDG资本、纪源资本、高瓴创投均持有群核科技超10%的股份。

转载请注明来自亚星官方网-亚星开户-亚星代理,本文标题:《解决机器人“叠被子困境”,杭州六小龙群核科技开源空间理解模型》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,1人围观)参与讨论

还没有评论,来说两句吧...

Top
网站统计代码