英伟达宣布,其Blackwell平台通过全栈推理软件优化,已将DeepSeek V4模型的单Token成本在一个月内最高压缩至原先的五分之一。
随着行业从AI试点阶段转向生产型AI工厂,基础设施选型的核心标准,已从单纯的芯片峰值规格,转向单位成本、单位功耗、指定延迟下能输出的有效Token数量。

英伟达通过三层架构实现Token成本的大幅压降:生产运营层负责分布式服务编排与自动扩缩容,应用加速层通过计算通信重叠、内核融合完成运行时优化,基础设施访问层直接调用GPU、网络与系统底层能力。
叠加分离式服务、NVLink大规模专家并行、NVFP4精度、多Token预测等技术后,Blackwell平台单GPU的Token吞吐量最高可提升20倍,英伟达也将单Token成本列为AI总拥有成本的核心指标,目前该平台已将这项指标降至行业最低水平。

多家推理服务商已落地相关优化:Baseten依托TensorRT-LLM开源库在Blackwell上部署DeepSeek V4 Pro,每秒Token输出量最高提升50%;Cognition借助Dynamo推理框架管理GPU,无需从零搭建即可扩展强化学习工作负载;Together AI用TensorRT-LLM大幅缩短Cursor从模型优化到生产终端的落地路径。

开源生态进一步放大了全栈优势,PyTorch等主流框架原生基于CUDA搭建,新研究成果可直接在NVIDIA GPU上运行。DeepSeek V4发布后,vLLM、SGLang等框架快速适配Blackwell部署方案,一个月内就实现了最高5倍的性能提升。

英伟达优化太牛了!DeepSeek V4单Token成本狂降80%
曝入门款14英寸MacBook Pro将在2027上半年升级M7芯片