LLM开发必懂：预训练、微调与推理全流程详解

刚接触大模型开发的同学很容易混淆预训练、微调与推理三者的定位，经常会分不清什么时候需要训练模型，什么时候只需要调用API，甚至在项目中错误地投入大量算力进行不必要的微调或训练，导致成本浪费但效果提升却不明显。

实际上，大模型的整个生命周期是一个高度工程化的系统，而不是单纯的模型能力问题。如果从系统视角来看，预训练、微调和推理分别对应的是“知识构建 → 能力对齐 → 线上服务”的三个阶段，每一层都有明确职责，不能混用。

在多模型线上推理部署场景中，通常还需要引入统一的流量调度机制，将不同复杂度任务分配给不同模型，例如简单问题走轻量模型，复杂推理任务走高能力模型，从而在延迟与成本之间取得平衡。这类能力在工程实践中往往通过统一路由层实现，使得模型调用更加稳定可控。

一、通俗类比：把LLM比作篮球运动员

为了帮助理解，我们可以将LLM的三个阶段类比为篮球运动员的成长路径，这种方式可以快速建立直观认知：

阶段	篮球运动员类比	核心目标
预训练	练习运球、传球、投篮等基础动作	学习语言规律与世界知识
微调	战术训练与专项位置强化	适配特定业务任务
推理	正式比赛中的实时决策	处理用户输入并生成输出

从这个角度来看，大模型并不是“一次训练完成”，而是一个持续进化的系统，从基础能力到专项能力再到线上服务能力逐层构建。

二、预训练（Pre-training）：构建通用知识底座

预训练是整个大模型生命周期中成本最高、规模最大的一步，其核心目标是通过自监督学习让模型掌握语言结构与世界知识。

核心技术参数

数据规模：通常达到数万亿级token，来源包括网页、书籍、代码仓库、百科数据等
训练方式：完全自监督学习，通过预测下一个token进行训练
算力成本：需要数千GPU持续训练数周至数月，成本可达百万美元级别
输出结果：生成基础模型（Base Model），如Llama原生模型或基础GLM模型

阶段特点

预训练模型的特点是“会说话但不会听指令”，它可以流畅生成文本，但并不理解人类任务逻辑，因此无法直接用于生产环境。

可以理解为：它只是掌握了语言能力，但还没有形成“任务意识”。

三、微调（Fine-tuning）：让模型适配具体任务

微调是在预训练模型基础上的二次训练过程，其核心目标是将通用能力转化为业务能力，使模型能够更好地执行特定任务。

基础数据规模

微调数据通常只有数万到数百万条标注数据，相比预训练减少数个数量级，训练成本也显著降低，一般只需少量GPU即可完成。

四种主流微调方式

类型	作用	典型应用
指令微调（SFT）	学习人类指令执行能力	文本生成、JSON输出
领域微调	适配垂直行业	医疗、金融、代码
对话微调	增强多轮对话能力	AI助手、聊天系统
RLHF / DPO	对齐人类偏好	安全性与回答质量优化

本质理解

微调的本质是“让模型学会做题”，而不是重新学习语言，因此它更像是专项训练，而不是基础能力训练。

四、推理（Inference）：模型线上服务阶段

推理是模型真正对外提供服务的阶段，此时模型参数已经完全固定，不再发生训练，而是通过前向计算生成输出。

自回归生成机制

用户输入："人工智能的未来是"
模型预测：
P("光明") = 0.35  
P("充满") = 0.28  
P("未知") = 0.20  

选择最高概率："光明"

继续生成下一token：
P("的") → P("挑战") → P("与机遇")
直到句子结束

推理关键参数

Temperature：控制随机性
Top-p：控制采样范围
Max tokens：限制输出长度

工程成本特点

推理阶段的成本按调用计费，是线上系统中持续消耗算力的核心环节，因此也是最需要优化的部分。

五、三阶段对比（核心理解表）

维度	预训练	微调	推理
目标	学习语言与知识	适配业务能力	提供线上服务
数据	海量无标注	小规模标注	用户输入
计算方式	反向传播	反向传播	前向传播
成本	极高	中等	按调用计费
频率	很低	周期性	高频实时

六、LLM完整生命周期流程

预训练（Pre-training）
        ↓
基础模型（Base Model）
        ↓
微调阶段（SFT / RLHF / DPO）
        ↓
对齐后的商用模型（Chat Model）
        ↓
线上推理服务（Inference API）
        ↓
用户实际调用

七、工程化部署：模型如何真正上线

在实际工程系统中，大模型不会单独运行，而是作为“服务节点”存在，需要结合调度层进行管理。

例如在多模型架构中，通常会采用统一路由机制，将不同请求分发到不同模型：

简单问答 → 轻量模型
复杂推理 → 高能力模型
长文本分析 → 专用模型

在一些工程实现中，会使用类似 TreeRouter 这样的统一调度层，将模型调用统一成标准接口，实现请求分发、模型切换与成本控制，从而避免直接依赖单一模型造成性能瓶颈。

八、开发者常见误区

很多初学者常见误区包括：

认为必须自己训练大模型
误以为微调可以替代预训练
忽略推理成本
没有做模型路由设计

实际上，大多数工程系统只需要：

✔ 使用成熟预训练模型 + 少量微调 + 优化推理层

九、总结

大模型的完整生命周期并不是三个独立阶段，而是一个连续的工程系统：

预训练决定“知识上限”
微调决定“任务能力”
推理决定“真实表现”

对于开发者来说，真正重要的不是参与训练，而是理解每一层的工程定位，并在系统设计中合理使用。

LLM开发必懂：预训练、微调与推理全流程详解

一、通俗类比：把LLM比作篮球运动员

二、预训练（Pre-training）：构建通用知识底座

核心技术参数

阶段特点

三、微调（Fine-tuning）：让模型适配具体任务

基础数据规模

四种主流微调方式

本质理解

四、推理（Inference）：模型线上服务阶段

自回归生成机制

推理关键参数

工程成本特点

五、三阶段对比（核心理解表）

六、LLM完整生命周期流程

七、工程化部署：模型如何真正上线

八、开发者常见误区

九、总结

聚合 40+ 顶尖厂商，稳定调度 300+ 核心模型

OpenAI Codex源码深度解析：Agent工程化核心架构揭秘

AI工具开发者必须懂的API入口

3个大模型联手，把数据分析效率提升10倍的方法

/compact揭秘：AI如何解决长对话爆炸

一、通俗类比：把LLM比作篮球运动员

二、预训练（Pre-training）：构建通用知识底座

核心技术参数

阶段特点

三、微调（Fine-tuning）：让模型适配具体任务

基础数据规模

四种主流微调方式

本质理解

四、推理（Inference）：模型线上服务阶段

自回归生成机制

推理关键参数

工程成本特点

五、三阶段对比（核心理解表）

六、LLM完整生命周期流程

七、工程化部署：模型如何真正上线

八、开发者常见误区

九、总结

聚合 40+ 顶尖厂商，稳定调度 300+ 核心模型

延伸阅读

OpenAI Codex源码深度解析：Agent工程化核心架构揭秘

AI工具开发者必须懂的API入口

3个大模型联手，把数据分析效率提升10倍的方法

/compact揭秘：AI如何解决长对话爆炸