📰 工商银行×华为:金融行业首个分布式KV Cache多级缓存推理加速技术正式落地_中华网

工商银行与华为联合创新,成功落地基于昇腾硬件与 openYuanrong 的分布式KV Cache多级缓存推理加速方案,覆盖HBM、DRAM的异构统一内存资源池,并对数据传输路径进行硬件亲和优化,实现高效数据调度与缓存管理。在GLM-5等模型的实测中,该方案在长序列推理场景下实现Prefill提升70%以上、吞吐提升约40%,显著降低TTFT并提升用户体验,支撑银行规模化应用。随着 Agentic 应用在金融场景落地,长上下文理解与多步推理的低时延需求日益突出,推理系统需实现百万级Token处理与实时交互的协同优化。工行以工银智涌为核心企业级大模型体系,将大模型应用扩展至手机银行、智能客服、理财咨询、风险控制等500+场景,并在 GLM、DeepSeek 等 MoE 模型中逐步推广,针对多轮对话中的KV缓存显存压力,提出异构内存管理与多级缓存方案,有效缓解负载不均与时延波动。未来将继续深化技术,推动在更多金融场景的广泛落地与规模化应用。

🏷️ #分布式缓存 #异构内存 #长序列推理 #大模型金融 #低时延

🔗 原文链接
 
 
Back to Top