DeepSeek 转投华为芯片
4 月 18 日消息,DeepSeek 创始人梁文锋启动公司创立以来首轮融资。这家此前坚持不融资的头部大模型企业,计划以不低于 100 亿美元估值,
募资至少 3 亿美元,为持续激烈的 AI 赛道长期竞争储备资金。
募资至少 3 亿美元,为持续激烈的 AI 赛道长期竞争储备资金。
AI 大模型研发耗资巨大,资金储备直接决定技术研发上限。同时 DeepSeek 将于本月底正式发布全新 V4 大模型。该版本虽历经多次延期,
但其搭载的万亿参数 MoE 架构依旧备受业界期待。
但其搭载的万亿参数 MoE 架构依旧备受业界期待。
V4 延续品牌高效轻量化研发思路,整体参数规模达 1 万亿,单 Token 仅激活 370 亿参数,可将推理成本维持在 V3 前代水平,高性价比依旧是其核心优势。
据内部消息,版本延期并非模型技术问题,而是底层硬件全栈迁移。DeepSeek 过往模型均基于英伟达芯片训练,此次 V4 将全面切换至华为最新昇腾芯片。
研发团队完成了底层架构重构,重写核心代码,实现从英伟达 CUDA 生态向华为 CANN 架构的完整迁移。本次 DeepSeek 未对英伟达、
AMD 开放先期适配权限,优先独家适配国产芯片,战略转向意义重大。
AMD 开放先期适配权限,优先独家适配国产芯片,战略转向意义重大。
若 V4 在国产芯片上实现高性能稳定运行,将成为全球首款脱离英伟达硬件生态的前沿大模型,实现 AI 软硬件自主闭环,推动国产 AI 产业链实现关键突破。
英伟达 CEO 黄仁勋对此表达担忧,其公开表示,顶尖大模型适配国产芯片或将带来不利影响,一旦模型在国产硬件上性能领先,
英伟达长期构筑的生态壁垒将受到严重冲击。
英伟达长期构筑的生态壁垒将受到严重冲击。
