当前位置:科技资讯

Token,这个藏在 AI 背后的计价单位,终于有人说清了

发布日期:2026/3/31 12:51:19 访问次数:4

今日金价,一克 1000.06 元;

95 号汽油,每升 8 5 7

电费是阶梯计价,家庭用电最多每千瓦时 8 9

……

克、升、千瓦时——单位一旦确定,便可以被标注价格,而价格决定了消费,也潜移默化地塑造着每个人的生活。大多数时候,我们并不关心这些单位本身,只要它们足够稳定,稳定到可以比较、可以结算,它们就会默默隐藏自己,退回到缴费单和购物小票背后。

但现在,一种全新的、陌生的计量单位,正浮出水面,走入更多人的生活。

它叫 Token

如果你最近玩过、听说过,甚至自己试着调用过各种 AI 助手或智能体(比如近期流行起来的 Openclaw “小龙虾),那么你应该已经和它打过照面了。你与 AI 的每一次对话,无论是让它回答一个问题、写一封邮件,还是总结一篇论文,后台那个默默跳动的计价数字,单位就是 Token

Token,就是 AI 世界的”“千瓦时



Token 到底在计量什么?

OpenAI 的官方页面上,用一句话简单地概括了 TokenToken 是自然语言的数学表示。

在中文里,Token 常被翻译为词元,你可以将它理解成为大模型用来处理自然语言的基本单位,或大模型处理信息的最小信息单元。一段话、一个问题在进入 AI 模型被计算机处理前,首先要被分词器(Tokenizer拆分成一个个 Token

一个 Token 可能是一个标点、一个汉字、一个英文单词,或者一个常见的词组——这取决于不同 AI 模型分词器的设计。比如朋友买了西瓜手机!可能被拆为朋友”“”“”“西瓜”“手机”““Transformer”可能被拆成“Trans”“former”

这些被拆分好的 Token,对于你我来说是有意义的文字,但对于大模型而言,它并不认识,更不理解。为了让 AI “理解,大模型会先给每个 Token 分配一个数字编号,然后将这个编号转化为一组数字坐标(向量)。这个坐标决定了 AI 如何理解这个词。

更重要的是,AI 理解任何一个词,都要看它和其他词的关系。比如西瓜这个词,AI 在训练中既见过它和手机”“汽车”“公司”“发布会一起出现,也见过它和”“食物”“好吃一起出现。当 AI 看到西瓜手机这个组合时,它会通过汽车这个词的坐标,来调整西瓜在当前这句话里的含义——让它的坐标更接近品牌,远离食物

AI 的整个思考过程,就是计算一整句话里所有 Token 坐标之间的复杂关系。它不会死记硬背西瓜=品牌西瓜=食物,而是根据上下文动态计算。


聊到这里,你还会以为,Token 的消耗就是你输入和输出的字数简单相加吗?接下来,我们通过一次普通对话,看看 Token 到底是如何被消耗掉的。

我们让 AI 写一封信给十年后的自己:


指令输入十几个字,AI 回复四五百字,看起来不过几百个Token,但事实上消耗的 Token 远不止屏幕上那几行字:

系统预设指令(System Prompt):在你开口之前,AI 已经被输入了一段看不见的指令,被用来规定和你聊天的 AI 的身份,语气,回复用词特征和安全边界。很多人会感觉不同公司的 AI 产品有不同的性格特征,秘密就在这里。这段指令不会显示在对话中,但是也参与了模型的计算,会消耗掉一部分 Token

对话的历史上下文(Context):如果你不是次提问,模型通常就需要考虑之前的上下文信息,才能知道整个对话在聊什么,保证对话的连续性。所以之前的提问与它之前的回答,都会进入最新这轮对话的计算。也就是说,对话越长,对话的轮次越多,最新的单轮请求消耗的 Token 也就越多。

思考过程(Reasoning):这是更隐蔽的消耗,很多具备深度推理模式的模型,在回答之前,它会进行一轮内部计算去比较推演不同的回答,最终将它认为最优的回答呈现出来。这些不展示出来的思考步骤,同样消耗资源。

总之,Token 计量的,并不只是你看到 AI 模型给出的答案,而是生成这个答案所需的全部计算资源。而进入以 Openclaw 为代表的 agent 场景,这种 Token 的消耗会被指数级扩大。

比如让一只小龙虾替你干活,把帮我整理一下文件夹这句话甩给它之后,它可能需要先读懂这个要求,然后拆解成十几个子任务,每个子任务分别调用一次 AI,每次调用都带着完整的系统指令和上下文,必要的时候还要反复检查有没有做对,是否需要修正。

这背后可能是几十轮对话、几万个 Token 的连锁消耗,这也是它看起来只干了点普通的活,但却格外消耗 Token 的原因。

为什么输出 Token”输入 Token” 6 倍?

关于 Token 的价格,很多人可能没什么感知,毕竟无论和哪个 AI 聊天,对话 Token 的消耗都打包在了免费额度或者订阅制里,很难直接感受到。

我们以 OpenAI 为例,来研究一下它的价格表:


可以看出,模型越强大,Token 越贵,从 Nano 到标准版,每百万 Token 价格差距高达十倍。这很容易理解:参数规模越大、模型能力越强,越能解决越复杂问题的模型,Token 的价格当然越贵。

而对比起不同公司,同为目前的 AI 模型,每百万 TokenGPT-5.4 的报价是 15 美元,Claude Opus 4.6 25 美元,Gemini 3.1 Pro 的报价则根据 prompt 长度不同列出了 12 美元和 18 美元两个价格。差距依然存在,这里的定价策略就比较复杂了,公司的定位与商业模式,模型的成本、受众、能力都会有所影响。

这些道理都很容易理解,但真正的谜题还不是这个。仔细看看,同一个模型的输入 Token”输出 Token”竟然也存在 6 倍的定价差距,这是怎么回事?

输入(prefill)的时候,AI 要理解你的全部问题,每个词都要和其他所有词做关联计算(即自注意力机制,计算量会随着文本长度的增加急剧增长);而输出(decode)时,模型已经将输入的内容分析计算完毕,只需要把结果一个字一个字出来即可,似乎应该更轻松才对。

其实,答案并不在计算量,而在计算效率上。

处理输入时,所有的 Token 都是同时送入处理器的,成千上万个计算核心并行运行,这是大规模的矩阵乘矩阵运算,GPU 本来就是为了这种大规模并行计算而设计的。所以在应对这类任务时,计算效率极高,甚至可以说在允许范围内,Token 输入越长,越容易让 GPU 的计算核心接近满载工作状态。

但输出的时候,情况截然相反了。模型必须一个 Token 一个 Token 生成回答,每一个都需要依赖上一个生成的结果,无法并行展开。每次生成,模型都需要从显存中读取一次参数,同时结合已经生成的上下文进行计算,整体更接近矩阵乘向量的运算。

这个过程的瓶颈取决于内存带宽,也就是说,GPU 绝大多数时间没有在计算,而是在等待数据从显存被传过来,真正做计算的时间占比仅有 1%~5%,计算效率骤降。

用更准确的话说,处理输入是计算密集型(compute-intensive)工作,GPU 在做它最擅长的事,生成输出是内存带宽密集型(memory-bound)工作,GPU 的计算核心大部分时间在空转等数据。

所以,输出 Token 的高昂价格,本质上是在为一块每小时租金几美元的芯片,以不到百分之一的效率运转而被迫等待的时长付费。

这也就是为什么即使是同一种模型,输出 Token 的价格会比输入 Token 贵那么多,这是算力和内存带宽之间根深蒂固的不对称不匹配