关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者811人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

环球:《华尔街日报》造谣中国成惯犯 曾造出国际大谣

环球网资讯 浏览 89071

比亚迪:2024年及之后还将推出多款高端豪华车型

智车情报局 浏览 12391

多队渴望挖角祖巴茨 快艇沉没散场时间或提前到来

体坛周报 浏览 124

微软秘密武器亮相,英伟达CUDA护城河遭遇直接冲击

IT之家 浏览 681

盘点未夺大满贯的最强选手,谁是你心中的意难平?

网球之家 浏览 708

董宇辉回应“企业家组团找自己学习”:像过年在长辈面前表演一样,已当面催他们补货

每日经济新闻 浏览 12338

Rain东京塔被偶遇,又高又壮又拉风

缘木不求娱 浏览 12535

关晓彤马尔代夫度假,满屏大长腿超抢镜

扒虾侃娱 浏览 967

大车要做大,小车更加要——工信部第399批新车热评

吴佩频道 浏览 1619

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 966

AI深度伪造引发担忧!大选临近美FBI、NSA正严阵以待

财联社 浏览 12504

明星家暴致电视剧无法播出 上市公司大晟文化起诉被驳回

证券时报 浏览 12635

低价"银行直供房"激增 有房产价格低于市价25%

第一财经资讯 浏览 5121

年底结束疫情不现实,全球仅10%人口具有新冠病毒抗体

趣看热点 浏览 327826

全网围观,这年度夫妻撕叉大戏来了

独立鱼 浏览 858

起底Plaud不融资却卖100万台的秘密

虎嗅APP 浏览 691

“金九”上海房价走势分化:新房领涨全国,二手房5连跌,专家预计跌幅有望趋于稳定

时代周报 浏览 927

美军新锐舰队为应对中国大举集结 集结地却远在夏威夷

枢密院十号 浏览 5394

曝王灿兮杜淳分房睡!女方深夜发声否认:谁说的?我咋不知道?

扒虾侃娱 浏览 823

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 774

“蔚小理”一季报出炉:业绩分化明显,决战下半年?

每日经济新闻 浏览 16174
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1