达闼与中山大学合作论文被AI顶刊IEEE TPAMI录用,科研实力再获权威肯定!
转载 2024-06-05 11:03 达闼 来源:达闼近日,达闼机器人与中山大学合作的研究论文成功被计算机视觉和人工智能领域的顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用。
该论文题为《通过大模型进行可纠正地标发现的视觉语言导航》(Correctable Landmark Discovery via Large Models for Vision-Language Navigation),提出了一种名为CONSOLE的新框架,利用大语言模型ChatGPT和视觉模型CLIP解决视觉语言导航中的地标发现问题,通过动态调整地标重要性实现精准导航,并在多个基准测试中显著超越现有技术。
IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶尖期刊,是目前影响因子最高的CCF A类期刊,JCR 1区Top期刊。该期刊谷歌指数(H-Index)在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程、深刻的理论分析著称,每年收录的论文数量有限,在计算机科学与人工智能领域具有权威影响力。
01
突破性研究:从有限数据到开放世界
视觉语言导航(VLN)要求代理遵循语言指令到达目标位置。传统的VLN方法常常受限于有限的数据集和场景,难以在未知环境中实现准确导航。此次发表的论文提出了一种全新的VLN范式——“通过大模型进行可纠正地标发现”(CONSOLE),旨在解决这一难题。
02
创新方法:融合ChatGPT与CLIP的大模型策略
CONSOLE将VLN视为一个开放世界中的序列地标发现问题,通过引入ChatGPT和CLIP两大模型,实现了前所未有的突破。具体来说,该方法利用ChatGPT提供丰富的开放世界地标共现常识,并基于此进行CLIP驱动的地标发现。这种创新性的组合,不仅提升了模态对齐能力,还有效应对了先验噪声的问题。
为了进一步提高精度,研究团队还设计了一种可学习的共现评分模块,根据实际观测结果校正每个共现的重要性,从而实现更精确的地标发现。此外,他们还提出了一种观察增强策略,将校正后的地标特征融入不同类型VLN代理,以增强其观察特征并优化行动决策。
03
实验验证:多项基准测试创下新纪录
在R2R、REVERIE、R4R、RxR等多个主流VLN基准测试中,CONSOLE展现出了压倒性的性能优势,不仅在未见场景下刷新了R2R和R4R的最前沿成果,而且整体成功率远超当前最强基线。这一系列实验结果有力证明了CONSOLE框架的有效性与普适性,为未来智能导航系统的研发指明了方向。
04
行业影响:推动AI技术新高度
IEEE TPAMI作为人工智能、模式识别及计算机视觉等领域最具权威性的期刊之一,其严苛审稿过程和深刻理论分析使得每篇录用论文都具有极高学术价值。本次达闼与中山大学合作成果能获此殊荣,不仅是对其科研实力的一次重要认可,更是对整个行业的一次激励。
未来,随着更多类似创新成果不断涌现,我们有理由相信,在不久之后,人类将迎来更加智能、高效、安全的人机交互新时代。而这篇论文无疑将在这一进程中扮演重要角色,为全球AI技术发展贡献力量。
网友评论0条评论
相关资讯
更多- 一起来看优艾智合2024年度关键词!
- UQI优奇无人叉车与人形机器人协作实现物流无人化 助力领克汽车工厂智能化升级
- 科里科气,发展新质生产力的“安徽样本” | 埃夫特:智能工业机器人赋能“中国智造”
- 大吨位牵引,厂区互联,SP系列劢微机器人无人牵引车解决方案
- 林德共享叉车批量入驻山西农谷智慧冷链物流园,创新模式助力园区发展
- 人工叉车数字化升级:迈尔微视实时RTLS与库位识别协同方案介绍
- 《创新担当访名企》聚焦机器人行业,埃夫特力争实现国产机器人新突破
- 千巡科技携手优锘科技,强化智能巡检巡防新业态
- 正式启用!闵行这里将打造机器人产业集群
- 镭神智能:引领智能制造新时代,荣获2024年度深圳机器人应用典型案例奖