“全球大模型第一股”重大发布

新闻kaiyun News

你的位置：首页 > 新闻kaiyun > 行业新闻

新闻kaiyun

“全球大模型第一股”重大发布

2026-04-30 21:56:31

浏览次数：次

返回列表

　　宣布，其GLM-5大模型的底层基础设施取得重大工程进展。公司设计并实现了名为“LayerSplit”的模型记忆缓存分层存储方案，使系统处理速度最高提升132%，实现了在相同硬件条件下的服务能力显著扩容。

　　可以理解为，LayerSplit让一个团队分工背一本厚书，而不是每人背整本。这大大减轻了每个人（每张显卡）的记忆负担，从而在相同硬件下，让模型处理长任务的速度提升，同时还更省“内存”。

　　对于供给高度紧张的存储芯片而言，这种旨在“减负”而非“堆料”的技术突破，会否扰动市场对存储需求的长期预期，有待观望。

　　此次发布的背景是，模型参数与数据规模的不断突破，也在不断逼近模型基础设施工程的极限。

　　称，公司的推理基础设施迎来了前所未有的压力，每天承受着数亿次Coding Agent调用。过去几周，部分用户在使用GLM-5系列模型执行复杂Coding Agent任务时，遭遇了多种异常：乱码、复读，以及偶现的生僻字。

　　经过多次排查后，团队发现，Coding Agent负载通常呈现出上下文长度较长、Prefix Cache命中率较高的特征。在这一场景下，Prefill阶段往往成为系统的主要性能瓶颈，因此Context Parallel（CP）成为线上Prefill节点的主要并行策略。

　　通俗来讲，代码任务就像一场超长的连续对话，模型在每次回应前都需要花大量时间“回忆”之前的全部内容（即准备阶段），这里成了最慢的环节。

　　原有的技术架构存在“数据重复存储”的问题，导致宝贵的显卡内存被低效占用，限制了整体性能。技术博客显示，现有的SGLang开源实现存在KV Cache冗余存储的问题，导致有限的KV Cache容量成为GPU计算资源利用率的限制因素。

　　新方案不再让每个“成员”（GPU）记住所有事情，而是让他们各自记住一部分，工作时通过快速“交头接耳”来协同完成任务。

　　在该方案中，每张GPU不再保存全部层的KV Cache，而是仅持有部分层的KV Cache，从而显著降低单卡的显存占用。在计算过程中，整个流程中仅引入了Indexer Cache广播的额外开销，其规模约为KV Cache的1/8，因此整体通信成本较低。

　　实验结果表明，系统吞吐量提升幅度在10%至132%之间，且随着上下文长度的增加，收益kaiyun手机网开云登录网址更加显著。整体来看，该优化显著提升了系统在Coding Agent场景下的处理能力

　　目前，智谱提出的KV cache修复方案已获SGLang开源社区采纳。公司推理优化还在进一步加速，大幅提升单位算力token吞吐效率，降低推理成本。

　　智谱展望称，当智能真正进入高并发、长上下文的Coding Agent场景后，推理基础设施的挑战已经不只是吞吐、延迟和可用性，维护它的输出质量变得至关重要。每一次对Scaling Law的追求，都必须有同等强度的系统工程作为支撑。智谱希望通过分析经验，帮助社区少走一些弯路，共同打磨出能够承载AGI未来的推理基础设施。

上一篇：江西行业经济_区域行业经济信息_中国地区_区域-前瞻网

下一篇：暂无

kaiyun（开云中国）官方网站

开云网站首页

关于开云

新闻kaiyun

花卉展示

在线留言

花卉常识

联系我们

新闻kaiyun

“全球大模型第一股”重大发布

kaiyun（开云中国）官方网站