关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者666人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

HuggingChat Omni 集成式 AI 平台发布

IT之家 浏览 1029

微软官方确认:Windows 11任务管理器出问题了!

快科技 浏览 760

想要裙子穿得好看 从了解自己的需求开始

虎哥说衣不二 浏览 16044

2024年第一颗大雷爆了?富人收割机,终于割不动了

象视汽车 浏览 12732

周鸿祎参加全球数字经济大会:“小规模”的大模型是未来发展趋势

证券市场红周刊 浏览 15372

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 688

单刀打空门!47岁德罗巴再现经典:滑跪庆祝 三道杠只剩两条

叶青足球世界 浏览 1074

群兴玩具实控人配合公安协助调查,公司或因民事纠纷易主

览富财经网 浏览 11134

74岁刘晓庆近况!生图皮肤白皙状态回春

艳儿说电影 浏览 965

安理会就卡霍夫卡大坝遭破坏举行紧急会议中方表态

央视新闻客户端 浏览 16573

委内瑞拉:逮捕一批"掌握美情报机构直接信息"的雇佣兵

红星新闻 浏览 10203

河南省网络社会组织联合会AI人工智能专业委员会成立

大象新闻 浏览 121

专家:网攻武汉地震监测中心黑手具有明显军事目的

环球网资讯 浏览 14772

东体:申花充分利用体能优势,亚冠失利对蓉城士气的打击或许更大

直播吧 浏览 1695

安切洛蒂:后卫失误导致失利 我们必须要吸取教训

体坛周报 浏览 985

具俊晔去画廊被喊艺术家,被女友人靠肩很享受

文艺圈娱乐号 浏览 12900

周销量出炉后,理想、特斯拉接连降价,新一轮价格战已经爆发?

车市红点 浏览 12663

年度最嚣张女配:只给自己磨皮,却被观众偏爱

Yuki女人故事 浏览 433

女子连续偷吃5个蛋挞 转身大摇大摆走掉

极目新闻 浏览 18748

美迪西子公司遭客户索赔1.59亿元,因新药项目安评报告交付滞后

红星资本局 浏览 1696

中航大学:AI聊天机器人的"假身份证"攻击如何骗过智能助手

科技行者 浏览 947
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1