关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元1023人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 5983

阿里超预期:紧迫、敏捷、强韧、有理想地把信心传递给更多人

秦朔朋友圈 浏览 14788

七月开始!穿上最好看的衣服享受风景

LinkFashion 浏览 16115

伊姐十一热推:电视剧《沉默的荣耀》;电视剧《是风动、是心动》......

伊周潮流 浏览 1065

你奔赴热爱的样子,才是生活最好的样子

LinkFashion 浏览 12679

所以《All Her Fault》,其实都是“他的错”?

时尚COSMO 浏览 277

零跑汽车10月销量破7万台

三言科技 浏览 813

胡可晒迪士尼照沙溢被嘲邋遢 网友:把老公处成爹

娱絮 浏览 18983

西热:大家现在对脏活累活不重视 都想去进攻去得分 谁都赢不了球

直播吧 浏览 19161

日本排放核污水,没人管得了吗?

澎湃新闻 浏览 14822

拆解助贷“六小强”三季报

北京商报 浏览 341

未准确完整揭示参与抖音超市业务导致股价大幅波动,思美传媒及时任董秘遭深交所公开谴责

界面新闻 浏览 13193

岳云鹏高考祝福翻车,微博改三次文案,暴露自己的文化水平

趣看热点 浏览 28058

再冷的天也拆不散我和九分裤组CP

Yuki女人故事 浏览 1075

辽京:当一个妈妈开始写作

时尚COSMO 浏览 176

亲巴勒斯坦组织策划袭击伦敦证交所 6人被捕

环球网资讯 浏览 12733

欧洲颤抖沙特王储:希望世界最优秀的300名球员在阿拉伯踢球

直播吧 浏览 16212

格威:没有哪两队比他们更值得 很幸运能成为这两队的一员

直播吧 浏览 10757

防晒品穿"马甲"进药店 企业钻医保漏洞拿下9000万大单

央视财经 浏览 5404

夏天穿裙子气质会更好,尤其是这几款

虎哥说衣不二 浏览 18973

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 759
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1