从 DeepSeek R1 论文深入理解推理型大模型

wuxinyun 2025-03-05 热点新闻 9 次浏览 0个评论

作者：Sebastian Raschka｜编译：段小草

原文：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

本文将介绍构建推理型模型的四种主要方法，以及如何增强大语言模型的推理能力。希望这篇文章能为您提供有价值的见解，帮助您更好地了解和应对关于这一主题的快速发展的论文和炒作。

在2024年，大语言模型领域出现了越来越多的专业化趋势。除了预训练和微调之外，我们还见证了诸如 RAG（生成增强检索）和代码助手等专用应用的兴起。我预计这一趋势将在 2025 年进一步加速，届时将更加注重针对特定领域和应用的优化（即「专业化」）。

第 1-3 阶段是开发 LLMs 的常见步骤。第 4 阶段是用于特定用例的专业 LLMs

推理型模型的开发正是这些专业化的一部分。这意味着我们将大语言模型进一步优化，使其能够在需要通过中间步骤解决的复杂任务中表现出色，比如解谜、复杂数学运算和编程挑战。然而，这种专业化并不会取代其他大语言模型应用。因为将大语言模型转化为推理型模型也会带来一些弊端，稍后我会详细讨论这些问题。

为了简要概述本文内容，接下来我将：

? 解释「推理型模型」的含义
? 讨论推理型模型的优缺点
? 概述 DeepSeek R1 的开发方法
? 描述构建和改进推理型模型的四种主要方法
? 分享 DeepSeek V3 和 R1 发布后对大语言模型领域的看法
? 提供在预算有限的情况下开发推理型模型的建议

希望这篇文章对您有所帮助，特别是在AI快速发展的今年！

如果你从事人工智能或机器学习工作，可能会对那些模糊且争议不断的定义有所了解?！?#25512;理型模型」这一术语也不例外。最终，某人会在论文中正式定义它，但很快就会在下一篇文章中重新定义，如此循环。

在本文中，我将「推理」定义为回答那些需要复杂、多步骤生成并包含中间步骤的问题的过程。例如，像「法国的首都是哪里？」这样的事实性问题不涉及推理。相比之下，像「如果一列火车以 60 英里每小时的速度行驶，行驶 3 小时，它能走多远？」这样的问题则需要一些简单的推理。比如，它需要认识到距离、速度和时间之间的关系，然后得出答案。

常规LLM通常只会提供简短的答案（如左侧所示），而推理模型则通常包括一些中间步骤，这些步骤可以揭示思考过程的一部分。（需要注意的是，很多没有专门为推理任务开发的LLM，也可以在回答中提供一些中间的推理步骤。）

大多数现代大语言模型（LLMs）都能够进行基本的推理，能回答像「如果一列火车以 60 英里每小时的速度行驶，行驶 3 小时，它能走多远？」这样的问题。因此，今天当我们提到推理型模型时，通常指的是那些在更复杂的推理任务中表现出色的大语言模型，例如解谜、猜谜和数学证明等。

此外，今天大多数被标榜为推理型模型的大语言模型在其回答中通常会包含「思考」或「思维」过程。至于大语言模型是否以及如何「思考」，这是一个独立的讨论话题。

推理型模型中的中间步骤有两种表现方式。首先，它们可能会显式地包含在答案中，如前面所示的图示。其次，一些推理型大语言模型，例如 OpenAI 的 o1，会进行多次迭代，每次迭代包含中间步骤，但这些步骤并不会显示给用户。

「推理」可以在两个层面上使用：1) 处理输入并通过多个中间步骤生成结果。2) 将某种推理作为回应的一部分提供给用户。

在我们定义了推理型模型后，接下来可以进入更有趣的部分：如何构建和改进大语言模型以应对推理任务。然而，在深入技术细节之前，重要的是要考虑在什么情况下实际上需要推理型模型。

我们什么时候需要推理型模型？?推理型模型的设计目的是擅长解决一些复杂任务，如解谜、进阶数学问题和具有挑战性的编程任务。然而，对于像总结、翻译或基于知识的问题回答这些简单任务，它们并不是必需的。实际上，使用推理型模型处理所有任务可能会导致低效且成本较高。例如，推理型模型通常使用成本较高，生成的回答更冗长，并且有时由于“过度思考”而更容易出错。在这里，有一个简单的原则：根据任务选择合适的工具（或大语言模型类型）。

推理型模型的主要优势和局限性总结如下图所示。

推理模型的关键优势和劣势

在下一部分讨论构建和改进推理型模型的四种主要方法之前，我想简要介绍一下 DeepSeek R1 的训练流程，这一流程在?DeepSeek R1 技术报告[1]中有详细描述。该报告不仅是一个有趣的案例研究，也为开发推理型大语言模型提供了蓝图。

需要注意的是，DeepSeek 并没有发布单一的 R1 推理型模型，而是推出了三个不同的变体：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告中的描述，我总结了这些模型的开发过程，具体见下图。

DeepSeek 的开发过程，在 DeepSeek R1 技术报告中讨论了三种不同的推理模型

接下来，让我们简要回顾一下上图所示的流程。更多的细节将在下一部分讨论，其中我们将介绍构建和改进推理型模型的四种主要方法。

(1)?DeepSeek-R1-Zero：这个模型基于 2024 年 12 月发布的671B 预训练 DeepSeek-V3 基础模型。研究团队使用强化学习（RL）进行训练，并采用了两种类型的奖励。由于没有包含监督微调（SFT）步骤，这种训练方法被称为「冷启动」训练，而通常强化学习与人类反馈（RLHF）会包括这一微调步骤。

(2)?DeepSeek-R1：这是 DeepSeek 的旗舰推理型模型，建立在 DeepSeek-R1-Zero 的基础上。团队在此模型的基础上，进一步通过添加额外的 SFT 阶段和强化学习训练，改进了「冷启动」后的 R1-Zero 模型。

(3)?DeepSeek-R1-Distill*：在前面的步骤中生成的 SFT 数据的基础上，DeepSeek 团队对 Qwen 和 Llama 模型进行了微调，以提升它们的推理能力。虽然这并不是传统意义上的蒸馏（distillation），但该过程涉及对较小的模型（如Llama 8B和70B、Qwen 1.5B–30B）进行训练，使用的是来自较大 DeepSeek-R1 671B 模型的输出。

在这一部分，我将概述目前用来增强大语言模型推理能力的关键技术，以及如何构建像 DeepSeek-R1、OpenAI 的 o1 和 o3 等专用推理型模型。

注意：OpenAI的o1和o3的具体工作原理仍然未知，但据传它们结合了推理和训练技术。

1、推理时扩展（Inference-time Scaling）

提升大语言模型推理能力（或任何能力）的一个方法是推理时扩展。这个术语可以有多种含义，但在这个语境下，它指的是在推理阶段增加计算资源，以提高输出质量。

一个粗略的类比是，人类在面对复杂问题时，通常会在给定更多时间思考的情况下产生更好的回应。类似地，我们可以应用一些技术，鼓励大语言模型在生成答案时「思考」得更多。（当然，LLM 是否真的「思考」是另一个讨论话题。）

推理时扩展的一个简单方法是巧妙的提示工程。一个经典的例子是链式思维（Chain-of-Thought, CoT）提示，其中包括「Step-by-step 逐步思考」等短语。这可以鼓励模型生成中间的推理步骤，而不是直接跳到最终答案，这通常（但不总是）能在更复杂的问题上得出更准确的结果。（需要注意的是，对于像「法国的首都是哪里？」这样的简单知识性问题，采用这种策略是没有意义的，这也是判断推理型模型是否适用于给定查询的一个好规则。）

2022年《大型语言模型是 0-shot 推理器》论文（https://arxiv.org/abs/2205.11916）中的经典 CoT（Chain-of-Thought）提示示例

上述的CoT方法可以看作是推理时扩展，因为它通过生成更多的输出令牌，增加了推理的成本。

另一种推理时扩展的方法是使用投票和搜索策略。一个简单的例子是多数投票，我们让LLM生成多个答案，并通过多数票选出正确答案。类似地，我们也可以使用束搜索（beam search）和其他搜索算法来生成更好的答案。

我强烈推荐我在之前的《2024年值得关注的AI研究论文（第二部分）[2]》文章中提到的《Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters[3]》论文，它详细介绍了这些不同的策略。

不同的基于搜索的方法依赖于一个过程-奖励模型来选择最佳答案。来自《LLM测试时计算》论文的注释图，见：https://arxiv.org/abs/2408.03314

DeepSeek R1 技术报告指出，其模型不使用推理时扩展。然而，这种技术通常在应用层面上实现，即在 LLM 之上进行扩展，因此 DeepSeek 很可能在其应用中使用了推理时扩展。

我怀疑 OpenAI 的 o1 和 o3 模型使用了推理时扩展，这也能解释为什么它们相比 GPT-4o 等模型相对较为昂贵。除了推理时扩展，o1 和 o3 可能还使用类似于 DeepSeek R1 的强化学习（RL）训练管线。有关强化学习的更多内容将在接下来的两部分中讨论。

2、纯强化学习（RL）

DeepSeek R1 论文中我个人最为关注的亮点之一是他们发现推理行为可以通过纯强化学习（RL）表现出来。让我们更详细地探讨这一发现的含义。

正如之前所提到的，DeepSeek 开发了三种类型的 R1 模型。第一种是 DeepSeek-R1-Zero，它基于 DeepSeek-V3 基础模型，这是他们在 2024 年 12 月发布的标准预训练大语言模型。与典型的强化学习管道不同，通常会在RL之前进行监督微调（SFT），但 DeepSeek-R1-Zero 是完全通过强化学习进行训练的，并没有经过初步的 SFT 阶段，正如下图所示。

DeepSeek-R1-Zero 模型的开发过程

尽管如此，这种 RL 过程与常用的 RLHF（基于人类反馈的强化学习）方法相似，RLHF 通常用于偏好调整大语言模型。（我在之前的文章《LLM 训练：RLHF 及其替代方案[4]》中详细讨论了 RLHF。）然而，如上所述，DeepSeek-R1-Zero 的关键区别在于，它跳过了用于指令调整的监督微调（SFT）阶段，这也是为什么他们称其为「纯 RL」。（虽然，在大语言模型中使用的 RL 与传统 RL 有显著不同，这个话题可以另开篇讨论。）

在奖励机制上，DeepSeek 并没有使用基于人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确性奖励和格式奖励。

??准确性奖励：通过使用 LeetCode 编译器验证编程答案，利用确定性系统来评估数学回应。
??格式奖励：依赖一个大语言模型评审者来确保回答遵循预期的格式，比如将推理步骤放在标签内。

令人惊讶的是，这种方法足以让大语言模型发展出基本的推理能力。研究人员观察到一个「aha moment」（恍然大悟时刻），模型开始生成推理轨迹作为其回应的一部分，尽管并未明确训练它这么做，如下图所示。

来自DeepSeek R1技术报告（https://arxiv.org/abs/2501.12948）的图，展示了「Aha moment」的出现。

虽然 R1-Zero 不是顶级推理模型，但它通过生成中间的「思考」步骤展现了推理能力，正如上图所示。这证明了使用纯强化学习开发推理模型是可行的，而且 DeepSeek 团队是第一个展示（或者至少发布）这种方法的团队。

3、监督微调与强化学习（SFT + RL）

接下来，我们来看 DeepSeek-R1 的发展，这是 DeepSeek 的旗舰推理型模型，也是构建推理型模型的蓝图。这个模型通过结合额外的监督微调（SFT）和强化学习（RL），改进了DeepSeek-R1-Zero，进一步提升了其推理表现。

需要注意的是，实际上在 RL 之前加入 SFT 阶段是很常见的，这也是标准 RLHF 管线中的做法。OpenAI 的 o1 模型很可能也采用了类似的方法。

DeepSeek-R1模型的开发过程

如上图所示，DeepSeek 团队利用 DeepSeek-R1-Zero 生成了所谓的「冷启动」SFT数据。这里的「冷启动」指的是这些数据是通过 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身并没有经过任何监督微调（SFT）的训练。

使用这些冷启动的SFT数据，DeepSeek 进一步通过指令微调（instruction fine-tuning）训练了该模型，之后进行了另一个强化学习阶段。这个 RL 阶段保留了与 DeepSeek-R1-Zero 的 RL 过程相同的准确度和格式奖励。然而，他们还加入了一种一致性奖励，用于防止语言混杂问题，即当模型在响应中切换多个语言时发生的现象。

RL 阶段结束后，接着进行了另一轮 SFT 数据收集。在这一阶段，使用最新的模型检查点生成了 60 万个链式思维（CoT） SFT 示例，并利用 DeepSeek-V3 基础模型创建了另外 20 万个基于知识的 SFT 示例。

这 60 万个和 20 万个 SFT 样本随后被用于另一轮强化学习。在这一阶段，他们再次使用基于规则的方法来对数学和编程问题进行准确度奖励，同时使用人类偏好标签来处理其他问题类型。

最终模型 DeepSeek-R1 相较于 DeepSeek-R1-Zero 在性能上得到了显著提升，这得益于额外的 SFT 和 RL 阶段，如下表所示。

OpenAI A1与DeepSeek R1模型的基准比较。来自DeepSeek-R1技术报告（https://arxiv.org/abs/2501.12948）的注释图

4、纯监督微调（SFT）与蒸馏

到目前为止，我们已经讨论了构建和改进推理型模型的三种关键方法：

??推理时扩展，一种无需训练或修改底层模型就能提升推理能力的技术。
??纯强化学习（RL），如 DeepSeek-R1-Zero 所展示的，它表明推理可以作为一种学习行为出现，而无需监督微调（SFT）。
??监督微调（SFT）+强化学习（RL），这导致了 DeepSeek 的旗舰推理型模型 DeepSeek-R1 的诞生。
那么，剩下的是什么呢？那就是模型的「蒸馏」过程。

令人惊讶的是，DeepSeek 还发布了通过他们称之为「蒸馏」过程训练的小型模型。然而，在大语言模型的背景下，蒸馏并不一定遵循传统的深度学习知识蒸馏方法。传统的知识蒸馏（如在我的《机器学习问答》书中第六章中简要描述的那样）是通过训练一个较小的学生模型来学习一个较大教师模型的logits（即预测结果的分布），并在目标数据集上进行训练。

然而，在这里，蒸馏指的是对小型大语言模型（如 Llama 8B 和 70B，0.5B 至 32B 的 Qwen 2.5 模型）进行指令微调（SFT），这些微调数据集是由更大的大语言模型生成的。具体来说，这些更大的大语言模型包括 DeepSeek-V3 和 DeepSeek-R1 的中间检查点。实际上，用于蒸馏过程的 SFT 数据集与训练 DeepSeek-R1 时使用的数据集相同，如前面所述。

为了更清楚地说明这一过程，我在下图中突出显示了蒸馏部分。

DeepSeek-R1-Distill模型的开发过程

为什么要开发这些蒸馏模型？

在我看来，主要有两个关键原因：

??小型模型更高效。这意味着它们运行成本更低，但它们也可以在低端硬件上运行，这对许多研究人员和像我这样的爱好者来说尤其有吸引力。
??纯SFT的案例研究。这些蒸馏模型作为一个有趣的基准，展示了纯监督微调（SFT）能将一个模型推向多远，而无需强化学习。

下表比较了这些蒸馏模型与其他流行模型的性能，以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的表现。

蒸馏模型与非蒸馏模型的基准比较。来自DeepSeek-R1技术报告（https://arxiv.org/abs/2501.12948）的注释图。

如我们所见，蒸馏模型的表现明显弱于 DeepSeek-R1，但相对于 DeepSeek-R1-Zero 来说，它们在性能上却表现得相当出色，尽管它们的规模要小几个数量级。更有趣的是，它们与 o1 mini 的对比也表现得相当不错（我怀疑 o1-mini 本身可能也是 o1 的蒸馏版本）。

在总结这一部分之前，还有一个有趣的比较值得提及。DeepSeek 团队测试了 DeepSeek-R1-Zero 中所观察到的推理行为是否也可以出现在较小的模型中。为了验证这一点，他们直接将 DeepSeek-R1-Zero 的纯 RL 方法应用于 Qwen-32B。

以下表格总结了这一实验的结果，其中 QwQ-32B-Preview 作为参考推理模型，是基于 Qwen 2.5 32B 开发的（我认为训练细节没有公开）。这个对比提供了一些额外的见解，帮助我们了解纯 RL 是否能够在比 DeepSeek-R1-Zero 更小的模型中诱发推理能力。

在一个较小的32B模型上进行蒸馏与强化学习（RL）的基准比较。来自 DeepSeek-R1 技术报告（https://arxiv.org/abs/2501.12948）的注释图

有趣的是，结果表明，对于较小的模型，蒸馏比纯 RL 要有效得多。这与单独使用 RL 无法有效地在这种小规模的模型中引发强大推理能力的观点一致，而高质量推理数据上的 SFT（监督微调）则在小型模型中更为有效。

为了完整起见，表格中如果能够增加以下对比会更有帮助：

??Qwen-32B 通过 SFT + RL 训练，类似于 DeepSeek-R1 的开发方式。这有助于确定当 RL 与 SFT 结合时，相较于纯 RL 和纯 SFT，能带来多少改进。
??DeepSeek-V3 通过纯 SFT 训练，类似于蒸馏模型的创建方式。这样可以直接对比 RL + SFT 与纯 SFT 的效果。

在这一节中，我们探讨了构建和改进推理型模型的四种不同策略：

??推理时扩展：无需额外训练，但增加了推理成本，随着用户数或查询量的增加，大规模部署变得更昂贵。然而，它依然是提升已有强大模型性能的有效方法。我强烈怀疑 o1 在使用推理时扩展，这有助于解释为什么 o1 每个 token 的成本较高。
??纯强化学习（RL）：对于研究目的来说，纯 RL 提供了关于推理作为一种新兴行为的有趣见解。然而，在实际的模型开发中，RL + SFT 是首选方法，因为它能产生更强大的推理模型。我强烈怀疑 o1 也是通过 RL + SFT 训练的。更准确地说，我认为 o1 是从一个比 DeepSeek-R1 较弱的小模型开始，通过 RL + SFT 和推理时扩展来弥补不足。
??RL + SFT：正如前面所提到的，这是构建高性能推理型模型的关键方法。DeepSeek-R1 是一个很好的蓝图，展示了- 如何做到这一点。
??蒸馏：对于创建较小、更高效的模型来说，蒸馏是一种很有吸引力的方法。然而，它的局限性在于，蒸馏并不会推动创新或产生下一代推理型模型。例如，蒸馏总是依赖于已有的、更强大的模型来生成监督微调（SFT）数据。

我预期接下来会看到将 RL + SFT（第 3 种方法）与推理时扩展（第 1 种方法）相结合的尝试。这很可能是 OpenAI o1 所采用的方式，除了它基于一个比 DeepSeek-R1 弱的基础模型，这也解释了为什么 DeepSeek-R1 在推理时更高效，且相对便宜。

最近，有很多人问我对 DeepSeek-R1 模型的看法。简而言之，我认为它们是一个了不起的成就。作为一名研究工程师，我特别欣赏他们的技术报告，它提供了他们方法论的深入见解，是我可以学习的宝贵资源。

其中最有趣的收获之一是推理行为如何从纯 RL 中作为一种新兴行为出现。并且令人印象深刻的是，DeepSeek 已经将他们的模型开源，并采用了 MIT 许可证，这比 Meta 的 Llama 模型的许可限制还要少。

DeepSeek-R1 比 o1 更好吗？我认为它们大致在同一个水平。然而，DeepSeek-R1 在推理时的高效性是一个突出的特点。这表明 DeepSeek 可能在训练过程中投入了更多精力，而 OpenAI 可能更多依赖于 o1 的推理时扩展。

不过，直接对比 o1 和 DeepSeek-R1 是很困难的，因为 OpenAI 没有公开太多关于o1的信息。例如，我们不知道：

? o1 是否也采用了专家混合（Mixture of Experts, MoE）？
? o1 的规模是多少？
? o1 是否只是 GPT-4o 的一个稍微改进版，通过最小化的 RL + SFT 和广泛的推理时扩展来提升性能？

在没有这些细节的情况下，直接比较仍然是「苹果与橙子」的对比。

关于 DeepSeek-R1 的开发成本也有一些讨论。有些人提到训练成本大约为 600 万美元，但他们可能把 DeepSeek-V3（去年 12 月发布的基础模型）和 DeepSeek-R1 混淆了。

600 万美元的估算基于每小时 GPU 费用约为 2 美元以及 DeepSeek-V3 最终训练所需的 GPU 小时数，这一数字最初是在 2024 年 12 月讨论的。

然而，DeepSeek 团队从未公开 DeepSeek-R1 的确切 GPU 小时数或开发成本，因此任何成本估算都仅为纯粹的推测。

无论如何，DeepSeek-R1 无疑是开放权重推理模型的一个重要里程碑，其推理时的高效性使它成为 OpenAI o1 的有趣替代方案。

开发像 DeepSeek-R1 这样水平的推理模型，可能需要数十万到数百万美元的投入，即使从开源基础模型（如DeepSeek-V3）开始，这个成本依然相当庞大。这对于预算有限的研究人员或工程师来说，可能会让人感到沮丧。

幸运的是，模型蒸馏提供了一个更具成本效益的替代方案。DeepSeek 团队通过他们的 R1-distilled 蒸馏模型展示了这一点，尽管这些模型比 DeepSeek-R1 小得多，但仍能获得出乎意料的强大推理性能。然而，即便是这种方法，也并非完全便宜。它们的蒸馏过程使用了 80 万个 SFT 样本，这需要相当大的计算资源。

有趣的是，就在DeepSeek-R1发布的几天前，我发现了关于 Sky-T1 的文章，这是一个令人着迷的项目，一个小团队仅使用 17K SFT 样本训练了一个开源 32B 模型。总费用仅为 450 美元，比大多数 AI 会议的注册费还要低。

这个例子强调了，尽管大规模训练仍然昂贵，但较小、针对性的微调工作依然能够以极低的成本取得令人印象深刻的成果。根据他们的基准测试，Sky-T1 的表现与 o1 大致相当，这在低训练成本的情况下尤为引人注目。

来自《Sky-T1：在 450 美元内训练你自己的 o1 preview 模型》文章的图（https://novasky-ai.github.io/posts/sky-t1/）

虽然 Sky-T1 专注于模型蒸馏，我还看到了一些关于「纯 RL」领域的有趣工作。一个值得注意的例子是?TinyZero[5]，这是一个 3B 参数的模型，复制了 DeepSeek-R1-Zero 的方法（顺便提一下，它的训练成本不到 30 美元）。

令人惊讶的是，即便只有 3B 参数，TinyZero 也展现了一些新兴的自我验证能力，这支持了推理可以通过纯 RL 在小模型中显现出来的观点。

TinyZero 的代码库提到，研究报告仍在进行中，我肯定会持续关注后续的详细内容。

来自TinyZero仓库（https://github.com/Jiayi-Pan/TinyZero）的图，展示了该模型能够进行自我验证。（如果能看到基础模型的对比响应，可能会更有趣）

去年我看到的一个特别有趣的方法，出现在论文《O1 Replication Journey: A Strategic Progress Report – Part 1[6]》中。尽管标题中提到是 o1 的复现，但论文实际上并没有复现 o1。相反，它介绍了一种改进蒸馏（纯 SFT）过程的不同方法。

论文中的关键概念是「journey learning」作为「shortcut learning」的替代方法。

? Shortcut learning 指的是传统的指令微调方法，模型只通过正确的解决路径进行训练。
? 而 journey learning 则包括了不正确的解决路径，让模型从错误中学习。

这种方法与 TinyZero 的纯 RL 训练中观察到的自我验证能力有些相似，但它完全通过 SFT 来改进模型。通过暴露模型于不正确的推理路径及其修正，journey learning 可能也会加强自我修正能力，从而使推理模型变得更可靠。

「旅程学习」（Journey Learning），与传统的捷径学习（Shortcut Learning）不同，包括了错误解法路径在 SFT 数据中。来自《o1复制旅程：战略进展报告 - 第1部分》（https://arxiv.org/abs/2410.18982）的注释图

这可能是未来低预算推理模型开发的一个激动人心的方向，尤其是当基于 RL 的方法可能在计算上不切实际时。

总之，当前在推理模型领域有很多有趣的工作，我相信我们将在接下来的几个月里看到更多令人激动的进展！

引用链接

?DeepSeek R1 技术报告:https://arxiv.org/abs/2501.12948
2024年值得关注的AI研究论文（第二部分）:https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2
Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters:https://arxiv.org/abs/2408.03314
LLM 训练：RLHF 及其替代方案:https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives
TinyZero:https://github.com/Jiayi-Pan/TinyZero/
O1 Replication Journey: A Strategic Progress Report – Part 1:https://arxiv.org/abs/2410.18982

转载请注明来自金华市宝吉环境技术有限公司 ，本文标题：《从 DeepSeek R1 论文深入理解推理型大模型》

wuxinyun 737篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

发表评论取消回复

评论列表（暂无评论，9人围观）参与讨论

校园嗯啊强行啪啪小说推荐,日韩欧美 a级,13萝自慰喷白浆,亚洲日韩一级a片视频

super_admin管理员

最近发表

网站收藏