当前位置: 首页 > 新闻动态 > 软件办公

通过KV Cache卸载与存算协同,破解长上下文推理存储瓶颈!超云最新产品方案亮相GTC 2026大会、NV亚太区AI存储研讨会!

作者:网络 浏览: 发布日期:2025-03-03
[导读]:通过KV Cache卸载与存算协同,破解长上下文推理存储瓶颈!超云最新产品方案亮相GTC 2026大会、NV亚太区AI存储研讨会!随着大模型应用从“能用”迈向“
通过KV Cache卸载与存算协同,破解长上下文推理存储瓶颈!超云最新产品方案亮相GTC 2026大会、NV亚太区AI存储研讨会!

随着大模型应用从“能用”迈向“高效规模化”,智能体与代|码|生成等场景的爆发,使得Token消耗量激增。长上下文与多轮对话成为核心诉求,传统的“存算一体”数据通路面临严峻挑战。在此背景下,KV Cache Offloading(卸载)、Prefill/Decode(PD)分离架构,以及面向高并发的新一代G3.5存储技术,正成为突破性能瓶颈的关键。

日前,2026年NVIDIA亚太区AI存储研讨会在英伟达总部举行。超云数据与存储研发负责人伍瑞受邀出席,与来自NVIDIA、ODCC、三星、Solidigm、DaoCloud等国内外知名企业及顶尖技术组织的专家齐聚一堂,深入探讨了长上下文推理的存储挑战、缓存体系演进及高性能数据通路设计等议题在同期举办的GTC 2026大会上,超云展示了面向AI负载的新一代低延迟高性能分布式存储,其针对长上下文推理场景的优化方案引发了行业广泛关注。

在AI存储研讨会上,超云重点分享了基于CS13000-S存储系统的“KV Cache Offloading与PD分离”全栈系统化验证成果,展示了在重构AI推理架构方面的技术实力。

该项技术主要面向长上下文和高并发推理场景,重点评估基于超云CS13000-S 高性能分布式存储的KVCache Offloading方案对长上下文推理延迟、吞吐以及资源利用率的影响。相关测试结果更清晰地反映了各个环节对整体性能的实际影响,为大模型推理系统在架构设计和部署选择上提供了清晰的参考依据。

通过对验证测试的数据进行全面、深入的分析伍瑞总结了本次技术验证工作的三个核心成果:

01

核心成果一

系统性验证超低延迟全闪文件系统作为G3.5缓存层,用于大规模长上下文推理KVCache Offloading的工程可行性

CS13000-S作为超云面向AI研发的新一代高性能分布式全闪文件存储,针对大规模AI负载进行了软硬件全栈优化,实现了端到端超低I/O延迟与高吞吐能力。在本次测试中,CS13000-S结合GDS及Spectrum-X / BF3 / DOCA,作为G3.5缓存层,为GPU推理提供接近本地内存/NVMe级别的访问性能。
超云在GTC 2026大会正式展示
面向AI负载的新一代低延迟高性能分布式存储
(如需了解技术细节与架构图解,可点击“阅读原文”获取高清原图)

DeepSeek-R1-0528的长上下文推理场景中,系统表现出优异的低延迟能力:高并发下,10K上下文首字延迟低于1秒,100K上下文首字延迟也仅8秒,充分验证了在不依赖G2本地内存及G3本地NVMe的情况下,具备超低延迟特性的G3.5缓存层仍可显著提升GPU推理性能。

更重要的是,通过GDS实现GPU直通存储访问,将KVCache从HBM直接卸载至存储侧,相比多层级KVCache缓存架构,整体链路更加简洁,系统复杂度更低,同时具备更的成本结构与工程可落地性,在稳定性与成熟度方面也更优势。

02

核心成果二

面向工程落地的系统级协同优化与GPUDirect Storage应用最佳实践

在本次中,超云联合 DaoCloud 等合作伙伴,围绕软硬件全栈开展系统级协同优化,覆盖从底层硬件到上层应用的完整链路,包括 GPU 与存储节点的硬件调优、操作系统参数优化、分布式存储参数调优、GDS 访问与调度优化,以及 vLLM、LMCache 的代|码|与参数优化,并结合 ARCC 实现网络层面的针对性优化。

在关键的 GDS 优化环节,针对 AI 推理负载特征,设计并实现了基于硬件拓扑的自适应最优路径选择机制,有效降低数据访问路径开销;同时对 LMCache 中 KVCache 的调度策略与 I/O 模式进行了优化,进一步提升整体数据访问效率。

测试结果表明,经过上述系统级协同优化,在 100K 长上下文场景下,首字延迟降低约 85%,整体吞吐提升接近6倍(相较非GDS模式),充分验证了端到端协同优化在AI推理性能提升中的关键价值。

03

核心成果三

高性能网络与存储协同的PD分离解决方案验证实践

最后,则是将PD分离架构与KVCache Offloading深度协同的基础性验证测试结果表明,基于高性能网络与高性能存储构建的PD分离方案具备良好的工程可行性,并能够带来显著的推理性能收益。在长上下文场景TPOT最高可降低约98%。

同时,验证过程中也识别出若干关键技术挑战,主要集中在Prefill/Decode调度机制以及KVCache元数据同步等方面。针对这些问题,超云进一步探索了结合ARCC进行网络层优化,以提升KVCache元数据同步效率的技术路径,为后续方案优化与产品化落地奠定了基础。

本次研讨会,超云系统展示了在AI存储领域的最新研发和实践成果,相关实践表明,围绕KVCache Offloading、PD分离以及G3.5缓存层构建的新型数据通路,通过系统级协同优化与GPUDirect Storage等技术的深度应用,能够在长上下文与高并发场景下显著提升推理效率,同时兼顾工程可行性与成本可控。

整体来看,AI基础设施正从单点性能提升转向全栈协同与体系化优化,通过打通计算、网络与存储之间的数据路径,构建更低时延、更高吞吐且更易落地的推理架构。随着相关技术路径逐步成熟,大模型推理系统将具备更强的规模化支撑能力,为智能体与复杂交互类应用的广泛落地提供更加稳固的基础。

点击「阅读原文」获取高清原图

长按识别二维|码| 关注超云

免责声明:转载请注明出处:http://m.jing-feng.com.cn/news/4270.html

扫一扫高效沟通

多一份参考总有益处

免费领取网站策划SEO优化策划方案

请填写下方表单,我们会尽快与您联系
感谢您的咨询,我们会尽快给您回复!