okooo澳客app NVIDIA发明重磅新技巧KVTC: 让内存使用量缩减20倍

发布日期:2026-03-23 07:57    点击次数:139


okooo澳客app NVIDIA发明重磅新技巧KVTC: 让内存使用量缩减20倍

NVIDIA商讨东说念主员推出一项全新技巧KVTC(KV快取调养编码),能把大型谈话模子(LLM)跟踪对话历史的内存用量,最高缩减20倍,况且无须修改模子自身。

这一冲突有望治理大型谈话模子长对话推理时的内存不够用问题,大大裁汰企业使用AI的硬件资本,同期还能把模子初次生成修起的时候,最高提速8倍。

大要来说,KVTC技巧的中枢即是压缩大型谈话模子背后的KV缓存——它尽头于AI模子的“短期挂牵”。咱们不错把KV缓存连络成学生记札记:模子处理对话时,会把重要信息(也即是Key和Value)记下来,下次生成修起时,无须重新再行计较整段对话,反应速率就能大幅升迁。

但问题是,对话越长,这份“札记”就越大,致使会推广到几个GB,占用大批GPU内存,反而拖慢模子启动、放荡其处理才气。

NVIDIA资深深度学习工程师Adrian Lancucki暗示:“大型谈话模子进行本质时,性能瓶颈往往不在运算才气,而在GPU内存。”那些暂时无须的KV缓存,会一直占用贵重的GPU资源,逼得系统只可把它们回荡到CPU内存或硬盘里,这么不仅会增多数据传输的背负,还可能出现新的卡顿问题,这些非常资本最终也会体当今企业的使用用度中。

和现存压缩技巧比较,KVTC莫得那些彰着的局限,它模仿了咱们闇练的JPEG图片压缩想路,通过“主要素分析、自顺应量化、熵编码”三个大要智商,就能杀青高效压缩。

更浅薄的是,okoooapp这项技巧无须蜕变模子的中枢拓荒和代码,属于“非侵入式”联想,企业拿来就能快速部署。它的中枢上风是,能收拢KV缓存“数据高度关系”的特质,在保留重要信息的同期,去掉冗尾数据,况且解压时不错分块、逐层进行,不会影响模子及时修起。

多轮测试线路,KVTC的发扬远超现存主流依次。在参数目从15亿到700亿的多种模子(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模子准确率也确实不受影响,亏损不到1%,与未压缩时收支无几;而传统压缩依次仅压缩5倍,就会出现彰着的准确率下跌。

另外,在H100 GPU上处理8000个Token的辅导时,不使用KVTC需要3秒才能生成第一个修起,使用后仅需380毫秒,提速整整8倍。

需要介怀的是,KVTC更合适长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难阐扬其压缩价值。

刻下,NVIDIA正筹算将这项技巧整合进Dynamo框架的KV块不竭器,使其能与vLLM等主流开源本质引擎兼容。

业内东说念主士以为,跟着大型谈话模子可处理的对话长度连接增多,KVTC这类程序化压缩技巧,往日可能会像视频压缩相同普及,助力AI更宽泛地落地期骗。

okooo澳客app

幸运飞艇APP官网下载




Copyright © 1998-2026 okooo澳客APP官方网站™版权所有

xlhpjxc.com 备案号 备案号: 鄂ICP备2021008034号-2

技术支持:®澳客app  RSS地图 HTML地图

okooo澳客APP官方网站

热点资讯

推荐资讯