当前位置:首页软件资讯 → 英伟达优化太牛了!DeepSeek V4单Token成本狂降80%

英伟达优化太牛了!DeepSeek V4单Token成本狂降80%

时间:2026-07-02 20:43:30 作者:小爱

  英伟达宣布,其Blackwell平台通过全栈推理软件优化,已将DeepSeek V4模型的单Token成本在一个月内最高压缩至原先的五分之一。

  随着行业从AI试点阶段转向生产型AI工厂,基础设施选型的核心标准,已从单纯的芯片峰值规格,转向单位成本、单位功耗、指定延迟下能输出的有效Token数量。

  英伟达通过三层架构实现Token成本的大幅压降:生产运营层负责分布式服务编排与自动扩缩容,应用加速层通过计算通信重叠、内核融合完成运行时优化,基础设施访问层直接调用GPU、网络与系统底层能力。

  叠加分离式服务、NVLink大规模专家并行、NVFP4精度、多Token预测等技术后,Blackwell平台单GPU的Token吞吐量最高可提升20倍,英伟达也将单Token成本列为AI总拥有成本的核心指标,目前该平台已将这项指标降至行业最低水平。

  多家推理服务商已落地相关优化:Baseten依托TensorRT-LLM开源库在Blackwell上部署DeepSeek V4 Pro,每秒Token输出量最高提升50%;Cognition借助Dynamo推理框架管理GPU,无需从零搭建即可扩展强化学习工作负载;Together AI用TensorRT-LLM大幅缩短Cursor从模型优化到生产终端的落地路径。

  开源生态进一步放大了全栈优势,PyTorch等主流框架原生基于CUDA搭建,新研究成果可直接在NVIDIA GPU上运行。DeepSeek V4发布后,vLLM、SGLang等框架快速适配Blackwell部署方案,一个月内就实现了最高5倍的性能提升。

相关文章

  • 英伟达优化太牛了!DeepSeek V4单Token成本狂降80%

      英伟达宣布,其Blackwell平台通过全栈推理软件优化,已将DeepSeek V4模型的单Token成本在一个月内最高压缩至原先的五分之一。  随着行业从AI试点阶段转向生产型AI工厂,基础设施选型的核心标准,已从单纯的芯片峰值规格,
  • 曝入门款14英寸MacBook Pro将在2027上半年升级M7芯片

      据报道,苹果正大幅提速Mac产品路线图,入门款14英寸MacBook Pro将于2027年上半年升级M7芯片,同步采用MacBook Ultra的设计语言,无需顶配就能获得更轻薄现代的机身。  按当前规划,入门款14英寸MacBook

关于本站 | 联系方式 | 版权声明 | 下载帮助(?) | 网站地图

备案编号:闽ICP备2021013604号-1

Copyright 2018-2026 eiruan.com 【A软下载网】 版权所有

本站所有数据来自互联网,版权归原著所有。如有侵权,敬请来信告知,我们将及时撤销。