华为提出全新压缩算法:节省70%内存占用

广众网1月24日消息,华为AI算法团队在人工智能领域取得了显著突破,他们研究并发表了一种创新的大模型KV Cache压缩算法,名为“RazorAttention”。

这一算法具有卓越的性能,能够有效节省高达70%的大模型推理内存占用,为AI大模型的高效运行提供了有力支持。

其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》已被深度学习领域国际顶级会议ICLR 2025收录。

华为表示,此算法为业界首个基于Attention可解释性的离线静态KV Cache压缩算法,打破了过去AI大模型长序列KV Cache压缩不理想的现状。

该算法通过检索头的设置,确保上下文中重要且主要的信息不丢失,在保持高精度(误差小于1%)的情况下,静态有效压缩了最大到70%的KV Cache内存占用,可以为用户大大节约AI大模型推理的成本。

目前RazorAttention算法已产品化集成在昇腾MindIE/MindStudio,支持主流8K~1M长序列KV Cache压缩,32K以上场景增量吞吐提升20%+。

华为提出全新压缩算法:节省70%内存占用

【本文结束】如需转载请务必注明出处:广众网

责任编辑:随心

主题测试文章,只做测试使用。发布者:广众网,转转请注明出处:https://www.zmdnky.org.cn/article/6558.html

(0)
广众网的头像广众网
上一篇 2025年1月24日 下午9:45
下一篇 2025年1月24日 下午10:17

相关推荐

  • 春节申遗后首届!2025央视《春晚》顺利完成第四次彩排

    广众网1月22日消息,今日,中央广播电视总台《2025年春节联欢晚会》顺利完成第四次彩排,有歌曲、舞蹈、戏曲、小品等多种节目。 官方目前透露的节目单有歌曲《伟业》《青春奔赴》《世界赠予我的》;戏曲节目《声动梨园》;武术《笔走龙蛇》;芭蕾舞《伊人》等。 值得一提的是,今年也是春节申遗成功后的首届总台春晚,主题为“巳巳如意,生生不息”,巳象征着阳气巳出,阴气巳藏…

    2025年1月22日
    6700
  • 为拍视频送了命 印度男子跳24米高瀑布后溺亡:5天后才被找到

    广众网1月22日消息,短视频横行,很多人为了博出位、博眼球,甚至会做出一些匪夷所思的举动,近日在印度,一男子就因此而送了命。 据悉,此事发生在本月15日,印度恰蒂斯加尔邦一男子野餐时从24米高的悬崖上跳入水中,直接拍晕在水面上。 朋友起初以为男子在演戏,但男子很快就沉入水中,他们这才意识到情况不对,遂展开搜救。 然而由于地势险峻,直到五天后,男子的遗体才被打…

    2025年1月22日
    5200
  • 神奇的物种生殖隔离 正在发生!

    下面两只鸟现在是同一物种——Pseudeos fuscata,它们是一种生活在新几内亚的烟色吸蜜鹦鹉属鹦鹉。 但是,用不了多少年,它们就会变成两个亚种,因为找对象时橙色条纹的看不上黄色条纹的,黄色条纹的也看不上橙色条纹的。 这种因为身上一些颜色不同产生了一定生殖隔离,并最终创造出不同物种,在鸟类世界非常普遍。 比如上面这个,它们是黑喉草雀的两个亚种,黄色喙和…

    2025年1月20日
    6800
  • 新年必备礼盒装:德芙心语巧克力29粒礼盒29元

    京东德芙旗舰店,新年必囤好物,德芙心语巧克力29粒国风礼盒报价59.9元,限时限量30元券,实付29.9元包邮。 购买链接:京东(29.9元) 丝滑牛奶巧克力,天然可可,入口丝滑。 高颜值浪漫包装,幸福滋味融入心。 此外还有以下几款可选: 购买链接:京东(19.9元) 购买链接:京东(33.9元) 购买链接:京东(29.9元) 购买链接:京东(49.9元) …

    2025年1月24日
    7300
  • 日本1月扑杀近700万只鸡 蛋价大涨

    1月22日消息,日本农林水产省发布的数据显示,截至1月20日中午,本次日本禽流感流行季(通常为当年秋冬至次年春)已有14个都道府县出现禽流感疫情,约有693万只禽类(主要是鸡)被扑杀或即将被扑杀。 仅在本月,日本已发生23起禽流感疫情,导致约418万只禽类被扑杀,超过2022年至2023年禽流感流行季1月报告的19起疫情,后者是日本历史上最严重的禽流感流行季…

    2025年1月22日
    5900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信