在 2025 年 2 月的最后一周,中国人工智能初创团队 DeepSeek 搞了一场为期六天的开源活动,向全球 AI 社区贡献了六项关键的技术项目。这场技术盛宴几乎覆盖了 AI 技术链条上的每一个重要环节,从大模型推理加速、分布式训练优化,到高效存储和系统架构,一应俱全。简单来说,这次活动就是 DeepSeek 在秀肌肉,但同时也在用一种非常开放、透明的方式推动整个行业往前迈了一大步。

通过这篇综述,我想带你一起深入了解这些技术的背景、原理,以及它们到底能给普通用户和行业带来哪些实际的好处。别担心,即使你是刚入门的小白,我也会用轻松的方式和你聊聊这些「看起来很复杂」的技术。

开源的文化基础:从理念到行动

提到 DeepSeek,你可能第一个想到的就是他们火遍全球的大语言模型 R1。这个模型不仅性能堪比西方最顶尖的系统,而且训练成本还更低。当时连外媒 Reuters 都惊叹,直接用了「震动全球 AI 行业」来形容它的出现。DeepSeek 的创始人梁文峰在采访中坦言,他们并没有急着把这些技术换成钱,而是更看重通过开源获得的影响力。他的原话是这样:「被别人追随我们的创新,是一件让人很有成就感的事。开源更像是一种文化行为,通过贡献开源,我们能赢得尊重。」正是因为这种「透明至上」的开源理念,DeepSeek 在 2 月 21 日宣布启动了「开源周」活动。他们承诺一周内每天都公开一个代码库,用他们自己的话说,是用「小而真诚的进步」回馈社区。

要知道,很多中美 AI 公司习惯于对核心技术严格保密,而 DeepSeek 偏偏反其道而行之,把推理加速、分布式通信、矩阵运算、并行策略、文件系统,甚至大规模推理架构这些「压箱底」的技术全都毫无保留地拿出来分享了。

也许你会问,这些技术跟普通人有啥关系呢?其实关系还挺大的,比如更快的推理系统能让你的聊天机器人回复消息变得「秒回」,高效的存储方案则能帮助企业降低成本,最终让你用 AI 服务的价格也跟着下降。更重要的是,全球开发者现在都可以免费获取这些开源的「技术积木」,自己搭建 AI 系统。这就像乐高积木一样,更多人参与进来,整个行业的创新速度就能大大加快。

FlashMLA:大模型推理的高效突破

开源周的第一天,DeepSeek 发布了一个让很多开发者激动的项目:FlashMLA。它是专为 NVIDIA Hopper 架构的 GPU 设计的高效解码内核,核心技术叫做「多潜注意力」(Multi-head Latent Attention,简称 MLA)。

简单来说,FlashMLA 就是为了让大模型在生成文字时速度更快。你用过 ChatGPT 吧?当你输入问题后,模型逐字逐句地给你回复,这种「逐字生成」的过程学名叫做「自回归解码」。而 FlashMLA 就能让这个过程变得更快,几乎能做到实时响应。

那么,FlashMLA 是怎么做到这一点的呢?我们一步一步来看:

大语言模型背后通常都有一个叫「Transformer」的架构,它用「多头注意力」(Multi-Head Attention,简称 MHA)机制,让模型在理解句子时更全面。然而随着处理文本越来越长,模型需要储存大量的键值缓存(K/V cache),这样模型才能记住上下文信息。问题来了:缓存太大会拖慢速度。

过去研究者提出了一些方法,比如「多查询注意力」(MQA),让所有注意力头共享一组键值缓存,这样虽然性能会略微下降,但好处是节省了不少内存空间。

而 DeepSeek 的 MLA 采用了另一种更高级的方法。他们把键值信息压缩成更紧凑的「潜在」向量,大幅减少了缓存体积。FlashMLA 更是在 MLA 的基础上进一步优化,专门针对 Hopper 架构 GPU,使用了定制的 CUDA 内核,把计算效率提升到了极致。比如它支持半精度 BF16 运算,采用分页缓存技术,能够完美利用 GPU 显存,在 H800 GPU 上甚至能实现每秒 3000GB 的内存带宽和 580 TFLOPS 的计算速度。

对你来说,这意味着什么呢?举个例子,当你用聊天机器人、翻译软件时,如果背后的模型用了 FlashMLA,回复速度就会大幅提升,体验会顺滑许多。不信你想想,每次提问都能迅速得到回复,是不是感觉特别爽?

对企业开发者来说,开源 FlashMLA 等于帮他们省了不少事。不用再从头开发底层的加速代码,可以直接使用 DeepSeek 已经优化好的工具,更专注于创新应用。

而对整个社区来说,FlashMLA 开源带来的透明度也树立了新标杆。不少公司像 Meta、xAI 也开始开源类似工具,整个行业的技术标准和效率都会因此受益。

总的来说,FlashMLA 给我们展示了 AI 优化的新思路:通过共享和压缩注意力信息,不仅让模型效果保持优秀,更让处理速度有了突破性的提升。这就是技术的魅力所在:一小步的优化,也许就能给你的生活带来巨大的改变。

DeepEP:专家模型的高效通信框架

第二天,DeepSeek 推出了一个名为 DeepEP 的项目。这可是全球首个专门针对「混合专家(Mixture-of-Experts,简称 MoE)」模型的开源专家并行通信库。 你可能好奇什么是 MoE 模型,其实很简单:就像一家公司里,每个员工各有所长,MoE 模型也是把任务分配给不同「专家」子模型来分别处理不同类型的任务。这样做的好处,就是模型虽然规模巨大,但每次只需要用到一小部分专家,既精准高效,又省资源。

不过,这样的设计也有个麻烦,就是专家之间需要频繁沟通、交换数据。想象一下,你的公司里每个人坐在不同的办公室里,每次任务来了,还得跨办公室传送文件,这个过程不仅麻烦,而且很耗时间,尤其是在多个 GPU 之间来回通信,数据交换很快就成了整个系统的瓶颈。谷歌的 GShard 和 Switch Transformer 已经证明 MoE 模型非常强大,但也明确提出,要提升效率,必须先解决通信成本和专家负载不均衡这两个大问题。

DeepEP 就是为了解决这些麻烦而诞生的。它提供了一系列高度优化的 GPU 通信内核,目标就是让专家之间沟通得更顺畅、更高效。具体来说,它针对 GPU 内部的高速通信(通过 NVLink)以及跨节点通信(通过 RDMA 网络)分别做了精细的优化。举个实际例子吧,在 H800 GPU 集群上,DeepEP 可以充分利用 NVLink 的 160 GB/s 带宽和 RDMA 网络的 50 GB/s 带宽,这相当于让专家之间从「发邮件」变成了「直接打电话」,沟通效率大幅提升。

更有趣的是,DeepEP 还支持一种超低精度通信格式 FP8,这有点像把文件压缩后再传输,数据量大幅缩减,传输自然就更快了。而且,为了满足不同场景的需求,DeepEP 提供了两套内核:一种追求高吞吐量,适合训练和推理初始阶段;另一种强调低延迟,适合推理解码阶段的快速响应。它还能边通信边计算,让 GPU 的资源利用率达到最佳状态。

DeepEP 还特别针对 DeepSeek 自己的 MoE 算法进行了优化,尤其是在数据传输的非对称场景,比如从高速 NVLink 到较慢的 RDMA 网络时,它会自动使用特别定制的内核进行调整,确保效率最大化。

对做大模型开发的企业来说,DeepEP 的开源意义重大。以往你要构建一个高效的 MoE 系统,除了需要顶级工程师,还得投入巨大的成本;而现在有了 DeepEP,门槛大幅降低。研究人员可以轻松地在多机多卡的环境里训练数千亿参数的模型,甚至扩展到几百个 GPU 都不会出现效率瓶颈。

而对普通用户而言,你可能感受到的变化是:将来聊天机器人、推荐系统等 AI 应用的响应速度会更快、更平滑,因为后台专家之间的沟通不再拖后腿。DeepEP 的开源,就好比在 AI 世界修了一条快速通道,让更多企业和开发者轻松上路。这不仅让更多团队可以尝试开发大规模稀疏模型,更可能推动整个行业走向模型更大、计算资源消耗却更低的时代。

就在 DeepEP 发布当天,已经有不少公司按捺不住,纷纷宣布了自己的大模型开发计划,这足以说明 DeepEP 带来的震动效应。未来,像 DeepEP 这样的工具可能会逐渐成为标准配置,推动更多 MoE 模型进入主流应用。

DeepGEMM:矩阵运算的性能突破

第三天,DeepSeek 又带来了一个新宝贝:DeepGEMM,一个高度优化的矩阵乘法库。你可能还不知道,矩阵乘法(General Matrix Multiplication,简称 GEMM)可以说是 AI 计算中最基础也最重要的操作,大部分的模型训练和推理都离不开它。

你或许会问,为什么矩阵乘法这么重要?其实,像 Transformer 模型里那些关键的「全连接层」和「注意力机制」投影层,背后全靠大量的矩阵运算支撑着。

过去,英伟达开发了 cuBLAS,Google 为 TPU 打造了专用矩阵单元,还有学术界的 GotoBLAS 等项目,大家都想方设法加速这个基础运算。最近几年,GPU 硬件升级带来了张量核心(Tensor Core),利用 FP16、BF16,甚至 FP8 这种低精度运算,速度有了明显提升。不过,市面上的通用库有时候并不够灵活,没办法完美匹配特定模型的需求,于是 DeepSeek 自己出手了,针对自家 V3 和 R1 模型的常见矩阵规模量身定制了 DeepGEMM。

DeepGEMM 最值得一提的是它在 FP8 精度下的超高性能。比如在英伟达 Hopper 系列芯片(比如 H100 和 H800)上,它每秒可以执行超过 1350 万亿次 FP8 运算(TFLOPS),比常规 FP16 快了好几倍,轻松实现性能飞跃。你可能想不到,它最核心的逻辑代码只有短短约 300 行,简洁到极致,同时又高效到极致,很方便开发者阅读和修改。

而且,它还支持即时编译(JIT),也就是说,不需要提前编译,根据实际的矩阵尺寸,随时动态生成最适合的代码。此外,DeepGEMM 除了支持常规密集矩阵布局外,还特别支持两种 MoE 专用的矩阵布局方式,能直接加速专家模型的计算。在大部分情况下,它甚至比专业优化过的 cuBLAS 更快,堪称免费的顶级替代方案。

那么具体到你我身边的应用,DeepGEMM 能带来什么呢?比如,你在开发 AI 模型训练时,用 PyTorch 或 TensorFlow 时换用 DeepGEMM,就能显著缩短训练时间,特别是在资源有限的环境下也能跑得更快。

推理阶段,它能让你的服务器同时处理更多请求,实时翻译、对话系统等场景的用户体验会更加顺畅、丝滑。甚至科学计算、图像处理领域也能搭便车,矩阵分解、物理仿真都能因此加速不少。

DeepGEMM 的开源不仅意味着开发者再也不用花钱购买昂贵的商业库,甚至小团队也能用上世界一流的矩阵优化工具,平等地享受高性能计算的便利。而且,社区可以继续在这个基础上优化,比如扩展到其他硬件平台、增加稀疏矩阵支持等等,推动整个 AI 基础设施不断进步。低精度运算,如 FP8,也可能逐渐成为未来训练推理的主流,带动行业降低资源消耗,提高效率。

所以说,DeepGEMM 的出现,不仅是 DeepSeek 自己的一次技术飞跃,也给全行业带来了低成本、高性能计算的福音。

DualPipe 与 EPLB:并行训练的系统优化

第四天,DeepSeek 一口气发布了两个很实用的并行优化工具:「DualPipe」和「EPLB」。虽然名字看起来有点技术范儿,但其实都是 DeepSeek 在超大模型训练过程中踩坑无数后,精心打磨出来的实战工具,一个针对流水线并行的效率,另一个解决专家并行的负载均衡问题。

我们先来看 DualPipe 。当模型的参数规模大到单个 GPU 装不下的时候,就需要用「流水线并行」技术,把模型切成几个阶段,每个阶段分给不同的 GPU,就像工厂里的流水线,每个环节做自己的工作。但流水线并行有个天然缺陷,就是经常会出现「等待现象」:比如前一个阶段还没做完,后面的阶段只能闲着干等,尤其在反向传播的时候特别明显,GPU 就白白浪费了不少时间。

DualPipe 就是专门为解决这个问题而设计的。它的核心思想很聪明:在 GPU 做反向计算的同时,提前启动下一个批次的前向计算,这样前后两个过程就可以并行起来,不再「排队等候」。举个简单例子,就像你在洗衣服时,晾晒一批衣服的同时,下一批衣服也已经放进洗衣机开始清洗了,整个流程效率一下提高不少。DualPipe 还能做到计算与数据通信同步执行,大幅减少等待时间,实测 GPU 的利用率能提升 30% 以上。

再说说另一个工具 EPLB 。它专注于专家并行场景的负载均衡问题。我们前面说过,在 MoE 架构中,每个 GPU 上运行多个专家模型。但专家之间的工作量往往不均衡,就像公司里有些部门总是加班忙到飞起,另一些部门却轻松得多,这就浪费了整体资源。

EPLB 就好比一个智能的任务分配经理,当它发现某个专家「加班严重」时,就会快速复制一个这个专家的副本到其他 GPU 上,分担压力。这种做法相当于突然调动更多人力去支援最忙碌的部门。同时,EPLB 还会聪明地选择专家副本的部署位置,尽量把相关的专家放到同一节点上,减少跨节点的数据通信成本。值得一提的是,EPLB 核心算法文件 eplb.py 已经开源出来,开发者只需要输入专家负载的信息,它就能自动输出一个最优的负载分配方案,简单好用又透明。

对开发者来说,这两个工具的开源意味着你再也不用从零开始设计复杂的调度机制了。尤其是中小型团队,之前不敢碰超大规模模型,现在有了 DualPipe 和 EPLB,可以放心大胆地尝试了。

未来,这些工具或许会成为主流 AI 框架的一部分,甚至可能演变为云服务中的调度功能,成为开发者标准的工具箱。

对普通用户而言,这些优化带来的直接感受,就是训练速度和效率的大幅提升,AI 应用迭代更快,服务响应更流畅。节省下来的资源还可以用在其他创新上,最终你享受到的服务性价比也会更高。

DeepSeek 这次提供的 DualPipe 和 EPLB,就像是一次大模型训练技术的经验公开课,帮助全行业一起提高效率,真正把大规模 AI 训练的门槛降了下来。

3FS:AI 专用高性能存储系统

第五天,DeepSeek 又拿出了一个实打实的技术:「3FS(Fire-Flyer File System)」,一个专门针对 AI 工作负载设计的高性能分布式文件系统。同时,他们还额外提供了一个轻量级的数据处理框架,叫做 Smallpond。

你可能会觉得,文件系统这种东西听起来离你很遥远。但其实,它就像 AI 模型训练背后的「数据高速公路」。在训练大模型的时候,数据的读写速度往往容易被忽视,可它却非常关键。比如,你手头有上百个 GPU,但如果你的存储系统不给力,数据喂不够快,GPU 就只能干等着浪费算力,这就像赛车手遇到堵车一样,无论技术多好也跑不起来。

传统的分布式文件系统,像 HDFS 和 Ceph,在一般的大数据场景中表现不错,但 AI 场景对文件系统有着更高、更特别的要求,比如超高的吞吐量、小文件随机读取,以及多个 GPU 并发访问等特殊需求。3FS 就是专门为这些需求量身定制的。

我们来看几个具体的数据表现:在一个由 180 个节点组成的集群上,3FS 可以达到每秒 6.6 TiB 的读取吞吐量,这个速度相当于每秒能读取几千部高清电影,真正的速度怪兽。而在单个节点上,它进行 KV 缓存查找的速度峰值也能超过 40 GiB/s,这意味着它不仅能高速「跑大路」,还能在复杂数据中快速找到你想要的信息。

在传统的数据任务基准测试 GraySort 中,3FS 仅用了 25 个节点就实现了每分钟 3.66 TiB 的排序速度,说明即使在传统场景,它也能大展身手。此外,3FS 的架构采用去中心化设计,没有单点故障风险,并且还能保证强一致性。换句话说,就是它又快又稳定,关键时刻还能扛得住压力。

DeepSeek 在开发他们的 V3 和 R1 模型时,全程都用了这个 3FS 文件系统,从数据预处理到训练,再到推理缓存,整个流程下来非常顺畅。而搭配它的 Smallpond 框架更是提供了 PB 级数据的高效处理能力,简单易用,特别适合大量数据的快速处理任务。

对开发者和企业来说,3FS 的开源意味着什么呢?意味着你不用再花重金去买商业存储设备了,直接用 3FS 就能搭建出一个媲美甚至超越商业系统的高性能基础设施。

而对普通用户来说,这带来的好处就是 AI 产品的迭代速度更快,搜索系统、聊天机器人等服务几乎能做到实时响应。

3FS 的出现,不仅让行业注意到数据存储对 AI 性能的重要性,也鼓励更多公司去做端到端的优化,把整个 AI 系统的瓶颈彻底解决掉。这次 DeepSeek 的开源,不仅是一次技术共享,更是给行业树立了一个新的标准,推动 AI 专用基础软件的发展。

DeepSeek-V3/R1 推理系统:技术与商业价值的结合

到了第六天,也就是活动的最后一天,DeepSeek 并没有像前几天一样发布新的代码库,而是为大家带来了一个特殊的「压轴环节」。他们详细介绍了自己用于 DeepSeek-V3 和 R1 大模型的高性能推理系统架构,并首次公开了一些具体的运营数据。

你可能会问,推理系统到底是什么?简单来说,训练好的模型要为用户提供服务,比如聊天机器人回答你的问题,这个过程就叫推理。推理系统的好坏决定了 AI 服务的响应速度和稳定性。这次 DeepSeek 展示的系统专门针对超大规模的 MoE 模型设计,目标就是高吞吐量和低延迟。

在架构设计方面,他们采用了跨节点的专家并行方式,把模型的参数分布到多个节点上。举个例子,当模型刚接收数据(预填充阶段)时,使用 4 个节点进行专家并行(EP32),但到了解码阶段(逐字生成内容)时,就扩展到 18 个节点(EP144),随着节点数增加,吞吐量几乎线性地增长。

为了进一步提高效率,这个系统还用了一个特别的技巧叫「双批次重叠」。具体来说,就是两个批次的数据计算和传输交替进行,避免了数据通信给整体带来的延迟。再加上精妙的负载均衡设计,数百个 GPU 可以无缝协同工作,整体性能表现非常稳定。

性能方面的数据也很直观:每个配备英伟达 H800 GPU 的节点,每秒可以处理 73,700 个输入 token,并生成 14,800 个输出 token。这意味着每天能处理数百亿个字词,服务百万级用户。

更直观一点,DeepSeek 还公布了一些商业数据。比如,按照他们 R1 模型的标准计费方式计算,这套系统每天的理论收入可以达到 56.2 万美元,而成本只有 8.7 万美元,算下来毛利率高达 545%。当然实际运营会有折扣,真实收入可能没那么夸张,但依然非常具有商业吸引力。

这些数据的公开,其实给整个行业带来了两个重要信号:第一,证明了开源的大模型架构,也能实现高效的商业落地,甚至比闭源服务更具性价比;第二,表明了优秀的架构设计对 AI 服务成本和收益的巨大影响。这很可能在业界掀起一股系统优化的浪潮。

对于普通用户来说,这种高效的推理架构带来的直接体验就是服务更加流畅、反应更迅速;而对于开发者和企业来说,这种架构意味着低成本、高性能的规模化运营变得更容易实现。

总的来说,这个压轴环节不仅仅是 DeepSeek 的一次技术秀,更是通过真实的数据告诉大家,开放透明的 AI 技术生态,不仅可行而且能带来实实在在的好处。这种开放的理念,也可能在未来催生出更多创新的商业模式,甚至推动整个 AI 行业的技术变革和标准化发展。

开源驱动创新:技术共享带来的多重价值

回顾一下 DeepSeek 这六天的开源技术周,他们一次性公开了六个重量级的核心技术,几乎覆盖了 AI 技术全链条的每个关键环节。这些技术的开源,对于你这样的普通用户而言,最直观的好处就是使用 AI 服务时能体验到更快的响应速度、更流畅的交互体验,同时还能享受更低的费用。

如果你是一名开发者,这些开源项目对你来说就是现成的「乐高积木」,你可以快速利用这些技术组件进行自己的产品创新和迭代。你再也不用重复造轮子,从头设计底层技术架构,而是能站在巨人的肩膀上迅速出成果。

对整个 AI 行业来说,DeepSeek 的开源举措意义更大。他们不仅带来了先进的技术,也在鼓励其他公司效仿,形成一种开放技术生态的氛围。想象一下,这就像一次「开源军备竞赛」,每家公司都愿意把自家压箱底的技术共享出来,全行业的创新速度就会大大提高。

当然,这并不是说未来没有挑战。技术开源会带来更多竞争、也可能带来更多问题。但毫无疑问的是,这场技术的盛宴已经为 2025 年的人工智能发展注入了新的活力和方向。我们完全有理由期待,接下来几年会出现更多高性能、低成本、更加亲民的 AI 模型,真正进入到每个人的日常生活中去。

可以说,这不仅仅是 DeepSeek 自己的一场技术盛宴,而是整个人工智能行业共同的胜利。他们通过实际行动告诉我们:开放协作、共享成果,才是推动科技持续进步最好的方式。

如果你觉得本文有用,请充电

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。

点击这个链接加入少数派会员,立享 9 折优惠!获得专属会员内容、会员播客以及会员定制周边。在更多的领域和方向帮你打开脑洞,找到新的兴趣点。与少数派一起洞悉当下,探索新知。

延伸阅读