大语言模型是怎么工作的？一篇讲清 ChatGPT 背后的原理

当你在 ChatGPT 的输入框里敲下一个问题，几秒钟后屏幕上就一个字一个字地”吐”出一段流畅、像模像样、甚至带点幽默感的回答。很多人第一反应是：它是不是在某个巨大的数据库里”查”到了答案？又或者，它是不是真的”懂”我在说什么？这两个直觉其实都不太准确。要真正理解大语言模型(Large Language Model，简称 LLM)，我们需要把它从神坛上请下来，看清楚它最朴素的本质——它只是一台被训练得极其精巧的”猜下一个词”的机器。

这篇文章不会扔给你一堆公式，而是用尽量生活化的类比，把 ChatGPT 背后那套原理一层层剥开：什么是语言模型，token 是什么，让一切成为可能的 Transformer 和”注意力机制”到底在干嘛，训练一个大模型要经历哪三个阶段，参数和规模意味着什么，为什么它会”接龙式”地生成文字，温度和采样如何决定它的”性格”，上下文窗口又是什么。读完之后，你会对那个聊天框里的 AI 既少几分神秘，也多几分掌控感。

一、语言模型的本质：一台超级”词语接龙”机器

我们先从最核心的一句话说起：语言模型做的事情，本质上就是预测”下一个词最可能是什么”。听起来是不是有点反高潮？但事实就是这么朴素。给它一句话的开头，比如”今天天气真”，它会在内部算出各种可能的下一个词的概率：”好”也许 60%，”热”也许 20%，”糟糕”也许 5%，”香蕉”也许 0.0001%。然后它挑一个高概率的词接上去，变成”今天天气真好”，再把这整句话当成新的输入，继续猜下一个词……如此循环，一句话、一段话就这样被”接龙”出来了。

这其实是我们每个人都玩过的游戏。你给朋友发”在吗”，对方多半回”在”；你说”谢谢”，对方大概率说”不客气”。人类大脑里也有一套对语言的”概率直觉”，只不过我们说不清这个概率是多少。语言模型把这件事做到了极致：它读过的文本数量是任何人一辈子都读不完的，所以它对”什么词后面接什么词”的统计感觉，精细得惊人。

所以，请记住第一个关键认知：大语言模型不是在”理解”问题然后”查找”答案，它是在根据它见过的海量文字，计算出”在这个语境下，接下来最合理的文字是什么”。它擅长的是”接得像人话”，而不是”保证说的是真话”——这一点会在后面解释它为什么会犯错时反复出现。

二、token：模型眼里的”文字积木”

人类阅读时，看到的是字和词。但模型并不直接处理”字符”，它处理的是 token(可以理解为”词元”或”文字积木”)。token 是介于”字母”和”单词”之间的一种切分单位。比如英文里 “unbelievable” 可能被切成 “un””believ””able” 三块；中文里一个常用字往往就是一个 token，而生僻字或表情符号可能被拆成好几块。模型先用一个叫”分词器(tokenizer)”的工具把你输入的文字切成一串 token，再把每个 token 转换成一串数字(向量)，因为计算机只会算数字，不会算汉字。

为什么不直接按字或按词来切？因为按单个字母切，序列太长、效率太低；按完整单词切，词表又会爆炸式增长(光英文就有几十万个词，还不算各种变体)。token 是一个折中：常见的词整块保留，罕见的词拆成更小的常见片段。这样几万个 token 就能拼出几乎所有文字，就像用有限的乐高积木能搭出无穷的造型。

理解 token 还有一个非常实际的好处：你用 AI 时听到的”上下文长度””收费按 token 算””字数限制”，单位都是 token，而不是字。一个粗略的经验是，英文里 1 个 token 约等于 0.75 个单词，中文里 1 个汉字大约对应 1 到 2 个 token。所以当你把一篇上万字的长文喂给模型时，它实际”看到”的是上万甚至几万个 token——这也是为什么超长文档有时会超出模型能承受的范围。

三、Transformer 与注意力机制：让模型学会”抓重点”

2017 年，谷歌的一篇论文《Attention Is All You Need》提出了 Transformer 架构，这是今天几乎所有大模型的共同地基。Transformer 的名字听起来很玄，但它最核心的创新——”注意力机制(Attention)”——可以用一个很生活化的比喻讲清楚。

想象你在读这样一句话：”小明把书放在桌子上，因为它太重了。”请问”它”指的是什么？是书还是桌子？你几乎不假思索就知道是”书”，因为”太重”这个描述和”书”更搭。你的大脑在理解”它”这个字时，自动把注意力”分配”给了句子中相关的词——”书”那里多看一眼，”桌子”那里少看一眼，”小明”几乎忽略。这种”在理解某个词时，自动判断该词和句中其他哪些词关系最大，并据此分配关注度”的能力，就是注意力机制要做的事。

在 Transformer 里，处理每一个 token 时，模型都会同时”环顾”上下文中所有其他 token，给每个词算一个”相关度权重”：关系越紧密，权重越高，对当前理解的影响就越大。这就是所谓的”自注意力(self-attention)”。它的革命性在于，模型不再像老式方法那样只能从左到右一个词一个词地传递信息(那样容易”读到后面忘了前面”),而是可以一步到位地把整句话里任意两个词直接联系起来，无论它们隔多远。这让模型对长距离的语义依赖、指代关系、上下文呼应都把握得更好。

而且模型不是只有”一双眼睛”，它有很多个”注意力头(attention heads)”在并行工作，就像一个委员会：有的头专门盯着语法搭配，有的头关注指代关系，有的头琢磨情感色彩……它们各看各的角度，最后把结论汇总。把许多这样的注意力层一层层堆叠起来，再配上一些做”信息加工”的前馈网络，就构成了一个深度的 Transformer。模型越深、参数越多，能捕捉的语言规律就越细腻复杂。

四、训练三阶段：从”读万卷书”到”懂事”再到”会说话”

一个能聊天的大模型不是一次训练成的，它要经历三个性质完全不同的阶段。理解这三步，你就能明白为什么同样底子的模型，调教出来”脾气”差别这么大。

第一阶段：预训练(Pre-training)——读万卷书。这是最烧钱、最耗时的一步。工程师把互联网上能找到的海量文本(网页、书籍、百科、代码、论坛等)喂给模型，让它做一件单调却极其有效的事：反复地”猜下一个词”。猜错了就微调内部参数，猜对了就强化。经过在天文数字级别的文本上、用成千上万块 GPU 跑上几个月，模型逐渐”内化”了语言的语法、常识、事实、写作风格乃至一定的推理模式。这一步结束时，模型像个读书破万卷却不太会聊天的”书呆子”——你问它问题，它可能不直接回答，而是接着你的话往下编，因为它学到的只是”补全文本”。

第二阶段：指令微调(Instruction Fine-tuning)——学会”听懂人话办事”。研究者准备大量”指令—优质回答”的范例(比如”请把这段话翻译成英文”配上标准译文),用这些数据继续训练模型，教它：”当人类下达指令时，你应该给出有用的、切题的回应，而不是继续补全。”经过这一步，书呆子开始变成一个懂得”你问我答”的助手。

第三阶段：基于人类反馈的强化学习(RLHF)——学会”说得让人满意”。这一步是 ChatGPT 当年惊艳世界的关键。它的做法是：让模型对同一个问题生成多个回答，请人类标注员根据”哪个更有用、更安全、更礼貌”来排序，再用这些偏好数据训练一个”奖励模型”,最后用强化学习的方法引导大模型去生成”人类更喜欢”的回答。打个比方：预训练是让孩子博览群书，指令微调是教他规矩，RLHF 则像一位耐心的家长不断点头或摇头，把孩子的表达打磨得既得体又贴心。正是这一步，让模型从”能答”进化到”答得让人舒服”，也让它学会拒绝有害请求。

五、参数、规模与”涌现能力”

你经常听到”百亿参数””千亿参数”的说法。参数是什么？你可以把它想象成模型内部成千上万个可调节的”旋钮”,训练的过程就是不断微调这些旋钮，直到模型预测得足够准。一个有 700 亿参数的模型，就是有 700 亿个这样的旋钮。参数越多，模型的”容量”越大，能记住和拟合的语言规律就越丰富，但训练和运行的成本也水涨船高。

更有意思的是”涌现能力(emergent abilities)”这个现象：当模型规模跨过某个门槛后，会突然冒出一些小模型完全不具备的能力，比如多步推理、做算术、理解隐喻、跟随复杂指令。这有点像水加热：从 10 度升到 90 度，它一直是液态，变化是渐进的；可一旦到 100 度，它会突然变成水蒸气，发生质变。规模带来的能力跃迁，也常常是这种”量变到质变”的惊喜——这也是过去几年大家拼命”把模型做大”的原因之一。当然，规模不是万能的，数据质量、训练方法、对齐技巧同样关键，近年的趋势也开始转向”更聪明地训练”而非一味”更大”。

六、为什么是”接龙式”逐字生成

用过 ChatGPT 的人都注意到一个现象：它的回答是一个字一个字”流”出来的，而不是一下子整段蹦出来。这正是它工作方式的直接体现——它本质上是”自回归(autoregressive)”生成：先根据你的问题预测出第一个 token，把这个 token 拼到已有文字后面，再以”问题 + 已生成的部分”为新输入预测第二个 token，如此一个接一个，直到它预测出一个”结束”信号或达到长度上限。

这就像多米诺骨牌：每一块的倒下，都依赖于前面所有已经倒下的牌。这个机制带来两个重要后果。其一，模型生成时会参考它自己刚刚写过的内容，所以一段话内部通常前后连贯。其二，如果它在前面”开了个错误的头”(比如编造了一个错误前提),后面的内容很可能将错就错、越编越离谱，因为它在努力让文字”自洽”，而不是回头检查事实。这也是为什么有时它的回答听起来逻辑严密，内容却完全是错的。

七、温度与采样：模型的”性格旋钮”

既然模型每一步都算出了一堆候选词的概率，它到底怎么”挑”出那一个词呢？这里有一个非常关键的参数叫”温度(temperature)”。它控制的是模型选词时的”冒险程度”。

温度低(比如 0 或 0.2)时，模型几乎总是选概率最高的那个词，输出会非常确定、保守、稳定，适合需要准确性的场景，比如代码、数学、事实问答。但缺点是可能显得刻板、千篇一律。温度高(比如 0.9 或 1.2)时，模型会更愿意从概率较低的候选里挑词，输出更多样、更有创意、更出人意料，适合写诗、头脑风暴、起名字。但温度太高，它就可能开始”胡言乱语”，逻辑也容易跑偏。

打个比方：温度就像调节一个人喝了多少酒。滴酒不沾时(低温)思路严谨但有点无趣；微醺时(中温)妙语连珠、放得开；喝高了(高温)就开始天马行空、不知所云。除了温度，还有 top-k(只在概率最高的 k 个词里挑)和 top-p(只在累积概率达到 p 的那批词里挑)等采样策略，它们和温度配合，共同决定了模型回答的随机性和风格。这也解释了一个常见疑惑：为什么同样的问题，问两次得到的答案不完全一样？因为只要不是温度为 0，每一次”掷骰子”挑词的结果都可能不同。

八、上下文窗口：模型的”工作记忆”有多大

上下文窗口(context window)指的是模型在一次对话中能够”同时看到”的 token 总量，包括你输入的所有内容加上它已经生成的回答。你可以把它理解成模型的”短期工作记忆”或者一张有限大小的”书桌”：桌子上能摊开的纸张是有限的，超出范围的内容就只能被挤下桌、被”遗忘”。

早期模型的上下文窗口只有几千 token，相当于几页纸；而如今主流模型动辄支持十几万甚至上百万 token 的上下文，相当于能一口气”读完”一整本书甚至几本书。窗口越大，模型越能处理长文档、保持长对话的连贯、记住你前面提过的细节。但要注意两点：第一，上下文不是越长越好用，内容太长太杂时，模型有时会”读到中间走神”，对开头和结尾记得清、对中段印象模糊(业界称为”中间迷失”现象)；第二，上下文窗口是”临时记忆”,对话一旦超出窗口或开启新会话，之前的内容就不在它眼前了——它并不会把你说的话永久”记”进自己的大脑里。

九、最重要的一点：它”不是数据库”，而是”概率模型”

现在我们回到开头那个最常见的误解。很多人把大模型当成一个无所不知的”超级搜索引擎”或”百科数据库”,以为它在某个地方存着所有答案，需要时精确调取。这是理解 AI 时最该纠正的观念。

数据库的特点是”精确存储、精确检索”:你存进去一条记录,日后一字不差地取出来。而大模型完全不是这样。训练时，它并没有把那些文本逐字背下来存进去，而是把文字中蕴含的统计规律”揉”进了它那几百亿个参数里。当你提问时，它不是去”查”,而是基于这些规律实时”算”出一段最可能的回答。这就像一个读过几万本书的人——他记得很多知识的大概,谈吐间能旁征博引,但你让他逐字背出某本书第 87 页第 3 段,他多半会”凭印象”编一段听起来很对、实则张冠李戴的内容。

这个本质带来一个无法回避的副作用：幻觉(hallucination)。因为模型的目标是”生成最像样的文字”,而不是”保证每个事实都正确”,所以当它对某个问题”印象模糊”时，它不会说”我不知道”,而是会自信满满地编造一个看起来合理的答案——比如杜撰一篇不存在的论文、一个无效的网址、一段错误的历史。理解了”它是概率模型而非数据库”,你就明白了为什么不能盲信它的输出：它的强项是组织语言、归纳表达、辅助思考，而不是充当权威事实源。重要信息一定要交叉核实。

十、常见误解快问快答(FAQ)

问：模型会”记住”我和它说过的话吗？答：在同一段对话、且没超出上下文窗口的范围内，它”看得到”你之前说的话。但这只是临时的”工作记忆”,换个新会话它就”失忆”了。除非产品专门做了长期记忆功能，否则它不会把你的内容学进自己的”大脑”。

问：它真的”理解”我说的意思吗？答：这是个哲学味很浓的问题。从效果上看，它能极其熟练地处理语义、把握语境、给出贴切回应，表现得”像懂”；但从机制上看，它做的是基于统计规律的模式匹配与预测，与人类那种带着身体经验、情感和意图的”理解”并不相同。把它当成一个极其博学、语言能力超群的助手，但记得它没有真正的信念和意识，是比较稳妥的心态。

问：为什么它有时算错简单的数学题？答：因为它本质上是在”预测文字”而非”执行计算”。算术对它来说是”猜一个看起来对的数字”,而不是真的做运算。这也是为什么很多 AI 产品会给它接上计算器、代码执行器等外部工具——让真正擅长算数的程序去算，模型只负责组织语言。

十一、结语：祛魅之后，更好地驾驭它

把大语言模型拆开看，它其实并不神秘：一台用 Transformer 搭建、靠注意力机制抓重点、经过预训练加指令微调加 RLHF 三步调教、最终学会”逐字接龙猜下一个词”的概率机器。它的流畅源自海量文本的统计规律，它的创意源自采样的随机性，它的局限也恰恰源自”它在生成最像样的文字，而不是最真实的事实”。

理解了这套原理，你就能更聪明地使用它：用它来起草、润色、头脑风暴、归纳长文、写代码框架、当陪练，这些是它的主场；而涉及关键事实、专业决策、精确数据时，把它当作高效的”初稿生成器”和”思路启发者”,再用可靠来源去核实它的输出。祛魅不是为了贬低它，而是为了让我们既不盲目崇拜、也不一味恐惧，真正把这件强大的工具用在刀刃上。

延伸阅读：《Transformers 快速入门：注意力机制》、《大语言模型 LLM：涌现、RLHF、预训练、token 与温度详解》、《斯坦福笔记：彻底搞懂 Transformer 与大语言模型》。

# 人工智能 # AI原理 # ChatGPT # Transformer # 大语言模型 # 科普

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...