在中国的 DeepSeek 详细介绍了一种生成式 AI 方法几天后,该方法只需要用于构建著名美国工具的计算能力的一小部分,围绕 AI 和国家安全的全球对话——从五角大楼如何购买和使用人工智能,到外国势力如何破坏美国人的生活,包括隐私——正在发生变化。
DeepSeek 的声明引起了白宫、华尔街和硅谷的集体哀嚎。在华盛顿特区,特朗普总统称这是“我们行业的警钟,我们需要专注于与中国的竞争”。白宫新闻秘书卡罗琳·莱维特 (Karoline Leavitt) 表示,国家安全委员会目前正在审查该应用程序。海军已经禁止了它。在华尔街,芯片制造商英伟达(Nvidia)的股价暴跌。DeepSeek 最接近的美国竞争对手 OpenAI 大喊大叫,声称该应用本质上是他们自己的模型。
如果你认为美国“必须赢得与中国战略竞争加剧的人工智能竞争”,就像谷歌前董事长埃里克·施密特(Eric Schmidt)和前国防部副部长罗伯特·沃克(Robert Work)在 2021 年所写的那样,那么 DeepSeek 是一件大事。
为什么 DeepSeek 如此重要?首先,它比其他模型更加开源。但决定性的技术创新在于该模型能够将高级推理能力从大型模型提炼成更小、更高效的对应模型。一个 DeepSeek 模型的性能通常优于更大的开源替代方案,为紧凑的 AI 性能设定了新标准(或至少是一个非常公开的标准)。
DeepSeek 严重依赖强化学习来培养推理技能,避开了 OpenAI 等竞争对手通常在初始阶段使用的监督微调。这种方法与美国 AI 巨头采用的混合训练策略有意背道而驰。
论文中描述的基准测试结果表明,DeepSeek 的模型在推理密集型任务中具有很强的竞争力,在数学和编码等领域始终保持顶级性能。然而,该研究也强调了一些漏洞,特别是在非推理任务和事实查询准确性方面,它无法与 OpenAI 最先进的产品相提并论。
没有人独立验证 DeepSeek 没有使用大量计算资源来实现其基准测试结果(或者基本上没有复制 OpenAI),但美国对高度先进的微芯片的控制将限制中国可用的资源。
Scale AI 的首席执行官 Alex Wang 在接受 CNBC 采访时将 DeepSeek 描述为 OpenAI 相当。他还表示,尽管有出口管制,中国还是获得了大约 50000 块 Nvidia 的 H100 芯片。
Nvidia 发言人没有直接回应这一说法。他告诉 Defense One:“DeepSeek 是一项出色的 AI 进步,也是 Test Time Scaling 的完美示例,”当模型接收数据以产生新结果时,该技术可以提高计算能力。额外的计算能力使模型能够探索不同的选项并改进其答案,从而以更少的训练(更少的计算)获得更好的答案。然后,该模型可以更有效地集中其计算能量。这有点像锻炼:起初,锻炼会消耗能量,但从长远来看,它有助于身体建立储存和更有效地使用能量的能力。
“DeepSeek 的工作说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制标准的计算。推理需要大量的 NVIDIA GPU 和高性能网络。我们现在有三条缩放法则:训练前和训练后,它们仍在继续,以及新的测试时缩放,“英伟达发言人说。
这一发展代表了关于如何建立 AI 主导地位的讨论的根本转变。虽然像 OpenAI 这样的公司基于庞大的数据集、超大型模型和不断扩展的计算机资源取得了成果,但 AI 的下一阶段可能会迎来需要更少计算资源的小型模型。
这对大型企业云提供商来说可能是个坏兆头,包括许多领导人参加特朗普就职典礼的科技巨头。许多公司都指望对资源匮乏的生成式 AI 产品的巨大需求,并正在寻求替代方法。但是,围绕如何构建 AI 的讨论发生变化,对于那些希望在电力和大型云资源的连接不完整的地方利用最强大的工具的部队来说可能是个好消息。对于负责捕获最佳 AI 功能同时控制支出的国防部来说,它也可能有所帮助。
人工智能的全新、更小的未来
试图规划一条与 OpenAI 和大型企业云提供商截然不同的道路的 AI 研究人员,他们对 DeepSeek 的突破并不感到惊讶。
数据科学家 Drew Breunig 告诉 Defense One,“如果说 DeepSeek 的胜利有什么教训,那就是:当进步的途径只是花更多的钱时,要保持警惕。这条路不会促进创新,而你较贫穷的竞争对手将被迫发挥创造力,在他们的限制下工作,最终......他们会赢的。支出不是创新。(永远不要低估中国科研人员的聪明才智。)
在最近的一篇博文中,他描述了合成数据如何减少生成高性能模型所需的原始数据量和计算能力。“这种策略使小型模型受益,其速度与大型模型相同,”他说。
AI 初创公司 Useful Sensors 的首席执行官 Pete Warden 告诉 Defense One,“DeepSeek 表明,在越来越大的模型上花费越来越多的资金并不是改进 AI 的唯一方法。TinyML 基于这样一种理念,即使用训练成本更低的较小模型,我们可以构建具有重大影响的应用程序,尽管它们的大小很大。
但是,伯克利 AI 博士生 Ritwik Gupta 与几位同事一起撰写了一篇关于构建更小的 AI 模型以产生大结果的开创性论文,他警告说,围绕 DeepSeek 的大部分炒作都表明了对它的误读,他将其描述为“仍然是一个大模型”,拥有 6710 亿个参数。
“然而,非常值得注意的是,DeepSeek-R1 团队提供了他们模型的第一方'蒸馏'版本,”Gupta 告诉 Defense One。“DeepSeek 所做的是获取 1.5-700 亿个参数的较小版本的 Llama 和 Qwen,并根据 DeepSeek-R1 的输出对其进行训练。这使得'类似 R1'的模型可以在较小的设备上运行,例如笔记本电脑或手机。
DeepSeek 的性能(只要它展示了什么是可能的)将使国防部在与行业讨论时有更多筹码,并使国防部能够找到更多的竞争对手。
“如果看到国防部接受 DeepSeek 和 Qwen 的开源美国复制品,我不会感到惊讶,”Gupta 说。“国防部一直热衷于为原本仅限云的服务产品提供特殊的本地版本。如果他们向 OpenAI 和 Claude 提出这个要求,我不会感到惊讶。
AI Now Institute 的首席 AI 科学家 Heidy Khlaaf 的研究重点是武器系统和国家安全中的 AI 安全。她告诉 Defense One,如果这一突破是真的,可能会为较小的参与者(包括潜在的小型制造商)打开生成式 AI 的使用。但她说,这种模式永远不适合战斗,尽管人们渴望在这种环境中使用它们。
“一般来说,LLM 或基础模型不适合安全关键任务,因为它们在需要可靠性和精度的应用中很容易出错。然而,DeepSeek 的规模和功能确实为以前可能无法访问的小型参与者开放了基础模型的使用,这可能包括可能有兴趣以非安全关键方式使用基础模型的汽车制造商,“Khlaaf 说。
伯克利风险与安全实验室的 Andrew Reddie 告诉 Defense One,“对于我们这些一直在跟踪 AI 研究人员如何能够开发计算量减少的模型的人来说,DeepSeek 的性能完全不足为奇。
他说,美国公司应该将这一突破视为向不同方向追求创新的机会。“有趣的是,鉴于美国对 NVIDIA GPU 的出口管制,中国研究人员面临的计算挑战与美国学术界面临的挑战并无不同,因为与私营企业相比,我们的计算限制越来越严重。”
美国军方已经在边缘功能上投入了大量资金,以使计算能力尽可能接近作战人员。Reddie 说,较小的模型性能突破表明,这些边缘计算投资的价值有所增加。
“还有一个非常有趣的问题,即在军事环境中使用开放式模型而不是封闭模型,”他说。“前者的优势在于,它们很容易在政府网络内部移动以利用政府/军事数据,但存在明显的风险,即敌对国家获得训练数据、模型权重等。”
但也许 DeepSeek 的声明最重要的收获不是它对美国和中国之间的竞争意味着什么,而是对个人、公共机构以及任何对越来越小的科技参与者日益增长的影响力持怀疑态度的人。如果您想使用您控制的数据构建自己的生成式 AI 工具,而不是依赖可能或可能不将您的最大利益放在心上的大公司的工具,那么这是个好消息。
“互联网历来作为一组去中心化的服务而蓬勃发展,”Gupta 说。如果目标是让每个人都拥有自己的“个人 AI”,那么小型模型就有必要在人们的个人设备上运行。我希望像 Apple 这样拥有隐私优先模式的公司继续推动离线、断开连接的算法。
但 Khlaaf 警告说,用大型模型代替精炼模型会带来个人隐私风险,这种风险也适用于部队,因为个人数据泄露对他们的影响就像对平民的影响一样,使他们容易受到对抗性目标、胁迫等的影响。
正如军方领导人所指出的那样,美国人个人数据的广泛暴露本身就是敌人在发生冲突时可能利用的国家漏洞。如果不进行全面改革来帮助个人更好地保护自己的数据,像 DeepSeek 这样强大的小型模型的激增可能会使不良趋势变得更糟。
Khlaaf 说:“DeepSeek 挑战了更大规模模型总是更具性能的想法,考虑到大规模构建 AI 模型所带来的安全和隐私漏洞,这具有重要意义。
对于个人隐私,“蒸馏技术允许将较大的模型压缩成较小的模型,同时保留较大模型的许多属性。对于使用基础模型使用其数据进行训练的公民,所有相同的隐私问题都将延续到 DeepSeek 的提炼模型中,只是现在不受美国管辖。这就是为什么我们警告说,在敏感数据上训练 AI 模型会带来国家安全风险。
来源:君工小参;作者:Mekin68