
当你在 ChatGPT 的输入框里敲下一个问题,几秒钟后屏幕上就一个字一个字地”吐”出一段流畅、像模像样、甚至带点幽默感的回答。很多人第一反应是:它是不是在某个巨大的数据库里”查”到了答案?又或者,它是不是真的”懂”我在说什么?这两个直觉其实都不太准确。要真正理解大语言模型(Large Language Model,简称 LLM),我们需要把它从神坛上请下来,看清楚它最朴素的本质——它只是一台被训练得极其精巧的”猜下一个词”的机器。
这篇文章不会扔给你一堆公式,而是用尽量生活化的类比,把 ChatGPT 背后那套原理一层层剥开:什么是语言模型,token 是什么,让一切成为可能的 Transformer 和”注意力机制”到底在干嘛,训练一个大模型要经历哪三个阶段,参数和规模意味着什么,为什么它会”接龙式”地生成文字,温度和采样如何决定它的”性格”,上下文窗口又是什么。读完之后,你会对那个聊天框里的 AI 既少几分神秘,也多几分掌控感。
一、语言模型的本质:一台超级”词语接龙”机器
我们先从最核心的一句话说起:语言模型做的事情,本质上就是预测”下一个词最可能是什么”。听起来是不是有点反高潮?但事实就是这么朴素。给它一句话的开头,比如”今天天气真”,它会在内部算出各种可能的下一个词的概率:”好”也许 60%,”热”也许 20%,”糟糕”也许 5%,”香蕉”也许 0.0001%。然后它挑一个高概率的词接上去,变成”今天天气真好”,再把这整句话当成新的输入,继续猜下一个词……如此循环,一句话、一段话就这样被”接龙”出来了。
这其实是我们每个人都玩过的游戏。你给朋友发”在吗”,对方多半回”在”;你说”谢谢”,对方大概率说”不客气”。人类大脑里也有一套对语言的”概率直觉”,只不过我们说不清这个概率是多少。语言模型把这件事做到了极致:它读过的文本数量是任何人一辈子都读不完的,所以它对”什么词后面接什么词”的统计感觉,精细得惊人。
所以,请记住第一个关键认知:大语言模型不是在”理解”问题然后”查找”答案,它是在根据它见过的海量文字,计算出”在这个语境下,接下来最合理的文字是什么”。它擅长的是”接得像人话”,而不是”保证说的是真话”——这一点会在后面解释它为什么会犯错时反复出现。
二、token:模型眼里的”文字积木”
人类阅读时,看到的是字和词。但模型并不直接处理”字符”,它处理的是 token(可以理解为”词元”或”文字积木”)。token 是介于”字母”和”单词”之间的一种切分单位。比如英文里 “unbelievable” 可能被切成 “un””believ””able” 三块;中文里一个常用字往往就是一个 token,而生僻字或表情符号可能被拆成好几块。模型先用一个叫”分词器(tokenizer)”的工具把你输入的文字切成一串 token,再把每个 token 转换成一串数字(向量),因为计算机只会算数字,不会算汉字。
为什么不直接按字或按词来切?因为按单个字母切,序列太长、效率太低;按完整单词切,词表又会爆炸式增长(光英文就有几十万个词,还不算各种变体)。token 是一个折中:常见的词整块保留,罕见的词拆成更小的常见片段。这样几万个 token 就能拼出几乎所有文字,就像用有限的乐高积木能搭出无穷的造型。
理解 token 还有一个非常实际的好处:你用 AI 时听到的”上下文长度””收费按 token 算””字数限制”,单位都是 token,而不是字。一个粗略的经验是,英文里 1 个 token 约等于 0.75 个单词,中文里 1 个汉字大约对应 1 到 2 个 token。所以当你把一篇上万字的长文喂给模型时,它实际”看到”的是上万甚至几万个 token——这也是为什么超长文档有时会超出模型能承受的范围。
三、Transformer 与注意力机制:让模型学会”抓重点”
2017 年,谷歌的一篇论文《Attention Is All You Need》提出了 Transformer 架构,这是今天几乎所有大模型的共同地基。Transformer 的名字听起来很玄,但它最核心的创新——”注意力机制(Attention)”——可以用一个很生活化的比喻讲清楚。
想象你在读这样一句话:”小明把书放在桌子上,因为它太重了。”请问”它”指的是什么?是书还是桌子?你几乎不假思索就知道是”书”,因为”太重”这个描述和”书”更搭。你的大脑在理解”它”这个字时,自动把注意力”分配”给了句子中相关的词——”书”那里多看一眼,”桌子”那里少看一眼,”小明”几乎忽略。这种”在理解某个词时,自动判断该词和句中其他哪些词关系最大,并据此分配关注度”的能力,就是注意力机制要做的事。
在 Transformer 里,处理每一个 token 时,模型都会同时”环顾”上下文中所有其他 token,给每个词算一个”相关度权重”:关系越紧密,权重越高,对当前理解的影响就越大。这就是所谓的”自注意力(self-attention)”。它的革命性在于,模型不再像老式方法那样只能从左到右一个词一个词地传递信息(那样容易”读到后面忘了前面”),而是可以一步到位地把整句话里任意两个词直接联系起来,无论它们隔多远。这让模型对长距离的语义依赖、指代关系、上下文呼应都把握得更好。
而且模型不是只有”一双眼睛”,它有很多个”注意力头(attention heads)”在并行工作,就像一个委员会:有的头专门盯着语法搭配,有的头关注指代关系,有的头琢磨情感色彩……它们各看各的角度,最后把结论汇总。把许多这样的注意力层一层层堆叠起来,再配上一些做”信息加工”的前馈网络,就构成了一个深度的 Transformer。模型越深、参数越多,能捕捉的语言规律就越细腻复杂。
四、训练三阶段:从”读万卷书”到”懂事”再到”会说话”
一个能聊天的大模型不是一次训练成的,它要经历三个性质完全不同的阶段。理解这三步,你就能明白为什么同样底子的模型,调教出来”脾气”差别这么大。
第一阶段:预训练(Pre-training)——读万卷书。这是最烧钱、最耗时的一步。工程师把互联网上能找到的海量文本(网页、书籍、百科、代码、论坛等)喂给模型,让它做一件单调却极其有效的事:反复地”猜下一个词”。猜错了就微调内部参数,猜对了就强化。经过在天文数字级别的文本上、用成千上万块 GPU 跑上几个月,模型逐渐”内化”了语言的语法、常识、事实、写作风格乃至一定的推理模式。这一步结束时,模型像个读书破万卷却不太会聊天的”书呆子”——你问它问题,它可能不直接回答,而是接着你的话往下编,因为它学到的只是”补全文本”。
第二阶段:指令微调(Instruction Fine-tuning)——学会”听懂人话办事”。研究者准备大量”指令—优质回答”的范例(比如”请把这段话翻译成英文”配上标准译文),用这些数据继续训练模型,教它:”当人类下达指令时,你应该给出有用的、切题的回应,而不是继续补全。”经过这一步,书呆子开始变成一个懂得”你问我答”的助手。
第三阶段:基于人类反馈的强化学习(RLHF)——学会”说得让人满意”。这一步是 ChatGPT 当年惊艳世界的关键。它的做法是:让模型对同一个问题生成多个回答,请人类标注员根据”哪个更有用、更安全、更礼貌”来排序,再用这些偏好数据训练一个”奖励模型”,最后用强化学习的方法引导大模型去生成”人类更喜欢”的回答。打个比方:预训练是让孩子博览群书,指令微调是教他规矩,RLHF 则像一位耐心的家长不断点头或摇头,把孩子的表达打磨得既得体又贴心。正是这一步,让模型从”能答”进化到”答得让人舒服”,也让它学会拒绝有害请求。
五、参数、规模与”涌现能力”
你经常听到”百亿参数””千亿参数”的说法。参数是什么?你可以把它想象成模型内部成千上万个可调节的”旋钮”,训练的过程就是不断微调这些旋钮,直到模型预测得足够准。一个有 700 亿参数的模型,就是有 700 亿个这样的旋钮。参数越多,模型的”容量”越大,能记住和拟合的语言规律就越丰富,但训练和运行的成本也水涨船高。
更有意思的是”涌现能力(emergent abilities)”这个现象:当模型规模跨过某个门槛后,会突然冒出一些小模型完全不具备的能力,比如多步推理、做算术、理解隐喻、跟随复杂指令。这有点像水加热:从 10 度升到 90 度,它一直是液态,变化是渐进的;可一旦到 100 度,它会突然变成水蒸气,发生质变。规模带来的能力跃迁,也常常是这种”量变到质变”的惊喜——这也是过去几年大家拼命”把模型做大”的原因之一。当然,规模不是万能的,数据质量、训练方法、对齐技巧同样关键,近年的趋势也开始转向”更聪明地训练”而非一味”更大”。
六、为什么是”接龙式”逐字生成
用过 ChatGPT 的人都注意到一个现象:它的回答是一个字一个字”流”出来的,而不是一下子整段蹦出来。这正是它工作方式的直接体现——它本质上是”自回归(autoregressive)”生成:先根据你的问题预测出第一个 token,把这个 token 拼到已有文字后面,再以”问题 + 已生成的部分”为新输入预测第二个 token,如此一个接一个,直到它预测出一个”结束”信号或达到长度上限。
这就像多米诺骨牌:每一块的倒下,都依赖于前面所有已经倒下的牌。这个机制带来两个重要后果。其一,模型生成时会参考它自己刚刚写过的内容,所以一段话内部通常前后连贯。其二,如果它在前面”开了个错误的头”(比如编造了一个错误前提),后面的内容很可能将错就错、越编越离谱,因为它在努力让文字”自洽”,而不是回头检查事实。这也是为什么有时它的回答听起来逻辑严密,内容却完全是错的。
七、温度与采样:模型的”性格旋钮”
既然模型每一步都算出了一堆候选词的概率,它到底怎么”挑”出那一个词呢?这里有一个非常关键的参数叫”温度(temperature)”。它控制的是模型选词时的”冒险程度”。
温度低(比如 0 或 0.2)时,模型几乎总是选概率最高的那个词,输出会非常确定、保守、稳定,适合需要准确性的场景,比如代码、数学、事实问答。但缺点是可能显得刻板、千篇一律。温度高(比如 0.9 或 1.2)时,模型会更愿意从概率较低的候选里挑词,输出更多样、更有创意、更出人意料,适合写诗、头脑风暴、起名字。但温度太高,它就可能开始”胡言乱语”,逻辑也容易跑偏。
打个比方:温度就像调节一个人喝了多少酒。滴酒不沾时(低温)思路严谨但有点无趣;微醺时(中温)妙语连珠、放得开;喝高了(高温)就开始天马行空、不知所云。除了温度,还有 top-k(只在概率最高的 k 个词里挑)和 top-p(只在累积概率达到 p 的那批词里挑)等采样策略,它们和温度配合,共同决定了模型回答的随机性和风格。这也解释了一个常见疑惑:为什么同样的问题,问两次得到的答案不完全一样?因为只要不是温度为 0,每一次”掷骰子”挑词的结果都可能不同。
八、上下文窗口:模型的”工作记忆”有多大
上下文窗口(context window)指的是模型在一次对话中能够”同时看到”的 token 总量,包括你输入的所有内容加上它已经生成的回答。你可以把它理解成模型的”短期工作记忆”或者一张有限大小的”书桌”:桌子上能摊开的纸张是有限的,超出范围的内容就只能被挤下桌、被”遗忘”。
早期模型的上下文窗口只有几千 token,相当于几页纸;而如今主流模型动辄支持十几万甚至上百万 token 的上下文,相当于能一口气”读完”一整本书甚至几本书。窗口越大,模型越能处理长文档、保持长对话的连贯、记住你前面提过的细节。但要注意两点:第一,上下文不是越长越好用,内容太长太杂时,模型有时会”读到中间走神”,对开头和结尾记得清、对中段印象模糊(业界称为”中间迷失”现象);第二,上下文窗口是”临时记忆”,对话一旦超出窗口或开启新会话,之前的内容就不在它眼前了——它并不会把你说的话永久”记”进自己的大脑里。
九、最重要的一点:它”不是数据库”,而是”概率模型”
现在我们回到开头那个最常见的误解。很多人把大模型当成一个无所不知的”超级搜索引擎”或”百科数据库”,以为它在某个地方存着所有答案,需要时精确调取。这是理解 AI 时最该纠正的观念。
数据库的特点是”精确存储、精确检索”:你存进去一条记录,日后一字不差地取出来。而大模型完全不是这样。训练时,它并没有把那些文本逐字背下来存进去,而是把文字中蕴含的统计规律”揉”进了它那几百亿个参数里。当你提问时,它不是去”查”,而是基于这些规律实时”算”出一段最可能的回答。这就像一个读过几万本书的人——他记得很多知识的大概,谈吐间能旁征博引,但你让他逐字背出某本书第 87 页第 3 段,他多半会”凭印象”编一段听起来很对、实则张冠李戴的内容。
这个本质带来一个无法回避的副作用:幻觉(hallucination)。因为模型的目标是”生成最像样的文字”,而不是”保证每个事实都正确”,所以当它对某个问题”印象模糊”时,它不会说”我不知道”,而是会自信满满地编造一个看起来合理的答案——比如杜撰一篇不存在的论文、一个无效的网址、一段错误的历史。理解了”它是概率模型而非数据库”,你就明白了为什么不能盲信它的输出:它的强项是组织语言、归纳表达、辅助思考,而不是充当权威事实源。重要信息一定要交叉核实。
十、常见误解快问快答(FAQ)
问:模型会”记住”我和它说过的话吗?答:在同一段对话、且没超出上下文窗口的范围内,它”看得到”你之前说的话。但这只是临时的”工作记忆”,换个新会话它就”失忆”了。除非产品专门做了长期记忆功能,否则它不会把你的内容学进自己的”大脑”。
问:它真的”理解”我说的意思吗?答:这是个哲学味很浓的问题。从效果上看,它能极其熟练地处理语义、把握语境、给出贴切回应,表现得”像懂”;但从机制上看,它做的是基于统计规律的模式匹配与预测,与人类那种带着身体经验、情感和意图的”理解”并不相同。把它当成一个极其博学、语言能力超群的助手,但记得它没有真正的信念和意识,是比较稳妥的心态。
问:为什么它有时算错简单的数学题?答:因为它本质上是在”预测文字”而非”执行计算”。算术对它来说是”猜一个看起来对的数字”,而不是真的做运算。这也是为什么很多 AI 产品会给它接上计算器、代码执行器等外部工具——让真正擅长算数的程序去算,模型只负责组织语言。
十一、结语:祛魅之后,更好地驾驭它
把大语言模型拆开看,它其实并不神秘:一台用 Transformer 搭建、靠注意力机制抓重点、经过预训练加指令微调加 RLHF 三步调教、最终学会”逐字接龙猜下一个词”的概率机器。它的流畅源自海量文本的统计规律,它的创意源自采样的随机性,它的局限也恰恰源自”它在生成最像样的文字,而不是最真实的事实”。
理解了这套原理,你就能更聪明地使用它:用它来起草、润色、头脑风暴、归纳长文、写代码框架、当陪练,这些是它的主场;而涉及关键事实、专业决策、精确数据时,把它当作高效的”初稿生成器”和”思路启发者”,再用可靠来源去核实它的输出。祛魅不是为了贬低它,而是为了让我们既不盲目崇拜、也不一味恐惧,真正把这件强大的工具用在刀刃上。
延伸阅读:《Transformers 快速入门:注意力机制》、《大语言模型 LLM:涌现、RLHF、预训练、token 与温度详解》、《斯坦福笔记:彻底搞懂 Transformer 与大语言模型》。