kaiyun(开云中国)官方网站

“全球大模型第一股”重大发布—kaiyun开云-登录网址

“全球大模型第一股”重大发布

2026-04-30 21:56:31
浏览次数:
返回列表

  宣布,其GLM-5大模型的底层基础设施取得重大工程进展。公司设计并实现了名为“LayerSplit”的模型记忆缓存分层存储方案,使系统处理速度最高提升132%,实现了在相同硬件条件下的服务能力显著扩容。

  可以理解为,LayerSplit让一个团队分工背一本厚书,而不是每人背整本。这大大减轻了每个人(每张显卡)的记忆负担,从而在相同硬件下,让模型处理长任务的速度提升,同时还更省“内存”。

  对于供给高度紧张的存储芯片而言,这种旨在“减负”而非“堆料”的技术突破,会否扰动市场对存储需求的长期预期,有待观望。

  此次发布的背景是,模型参数与数据规模的不断突破,也在不断逼近模型基础设施工程的极限。

  称,公司的推理基础设施迎来了前所未有的压力,每天承受着数亿次Coding Agent调用。过去几周,部分用户在使用GLM-5系列模型执行复杂Coding Agent任务时,遭遇了多种异常:乱码、复读,以及偶现的生僻字。

  经过多次排查后,团队发现,Coding Agent负载通常呈现出上下文长度较长、Prefix Cache命中率较高的特征。在这一场景下,Prefill阶段往往成为系统的主要性能瓶颈,因此Context Parallel(CP)成为线上Prefill节点的主要并行策略。

  通俗来讲,代码任务就像一场超长的连续对话,模型在每次回应前都需要花大量时间“回忆”之前的全部内容(即准备阶段),这里成了最慢的环节。

  原有的技术架构存在“数据重复存储”的问题,导致宝贵的显卡内存被低效占用,限制了整体性能。技术博客显示,现有的SGLang开源实现存在KV Cache冗余存储的问题,导致有限的KV Cache容量成为GPU计算资源利用率的限制因素。

  新方案不再让每个“成员”(GPU)记住所有事情,而是让他们各自记住一部分,工作时通过快速“交头接耳”来协同完成任务。

  在该方案中,每张GPU不再保存全部层的KV Cache,而是仅持有部分层的KV Cache,从而显著降低单卡的显存占用。在计算过程中,整个流程中仅引入了Indexer Cache广播的额外开销,其规模约为KV Cache的1/8,因此整体通信成本较低。

  实验结果表明,系统吞吐量提升幅度在10%至132%之间,且随着上下文长度的增加,收益kaiyun手机网 开云登录网址更加显著。整体来看,该优化显著提升了系统在Coding Agent场景下的处理能力

  目前,智谱提出的KV cache修复方案已获SGLang开源社区采纳。公司推理优化还在进一步加速,大幅提升单位算力token吞吐效率,降低推理成本。

  智谱展望称,当智能真正进入高并发、长上下文的Coding Agent场景后,推理基础设施的挑战已经不只是吞吐、延迟和可用性,维护它的输出质量变得至关重要。每一次对Scaling Law的追求,都必须有同等强度的系统工程作为支撑。智谱希望通过分析经验,帮助社区少走一些弯路,共同打磨出能够承载AGI未来的推理基础设施。

搜索