Token 有了中文名『词元』：AI 时代的度量衡

国家数据局官方定义：Token 中文名为『词元』。探索词元的技术本质与经济学意义，理解 AI 时代的『新能源』

发表于 2026/03/28

作者 Jason

11 分钟阅读

Token 有了中文名『词元』：AI 时代的度量衡

📢 官方定调：3 月下旬，国家数据局在新闻发布会上正式确认——Token 的中文译名为「词元」。这个 AI 领域最核心的术语，终于有了官方认可的「身份证」。

🤔 什么是「词元」？

简单来说，词元（Token）是 AI 大模型处理信息的最小计量单位。

当我们读书看报时，我们看到的是一个个字、一个个词。但 AI 的「大脑」是计算机，它看不懂人类的文字，只能处理数字。因此，我们需要把人类的一句话，切碎成一小块一小块的「基本单元」，然后再喂给 AI。

这个「基本单元」，就是词元。

一个 Token 可能是零点几个汉字、一个单词，也可能是一个标点、数字或符号。正如浙江大学柴春雷教授所说：「词」说明它属于语言领域，「元」则是最小、最基础的单位——就像「像素」是图像的最小单元，「词元」就是 AI 处理语言的最小单元。

🔄 从文本到数字：词元的完整转换流程

词元只是第一步。真正让 AI “理解”语言的是后续的转换过程。让我们以「我爱 AI」这句话为例，看看它如何一步步变成 AI 能处理的数字：

第一步：分词（Tokenization）

「我爱 AI」 → [`我`, `爱`, ` AI`]

第二步：查表获取 Token ID

每个词元在大模型内部都有一个唯一的「身份证号」，称为 Token ID。模型会查询一个预定义的「词表」（Vocabulary）：

`我`   → 12345
`爱`   → 6789
` AI`  → 42

于是这句话变成了整数序列：[12345, 6789, 42]

第三步：Embedding 向量化

这是最关键的一步。模型通过一个「嵌入矩阵」（Embedding Matrix），把每个 Token ID 映射成一个高维向量。这个向量不是随便生成的，而是在训练过程中学习得到的，蕴含了词元的语义信息：

(`我`) → [0.23, -0.87, 0.15, 0.66, -0.33, ...]  ← 通常有几百到几千维
(`爱`) → [0.91, -0.12, 0.74, -0.05, 0.28, ...]
  (`AI`) → [-0.45, 0.33, 0.88, 0.21, -0.67, ...]

💡 关键理解：相似的词会有相似的向量。比如「爱」和「喜欢」的向量在空间中会很接近，而「爱」和「桌子」的向量则会相距很远。这就是 AI “理解”语义的基础。

第四步：输入神经网络

这些向量被送入 Transformer 神经网络进行计算，最终生成输出。

🧠 技术本质：从语言到计算几何

著名计算机科学家 Stephen Wolfram 在《What Is ChatGPT Doing … and Why Does It Work?》中深刻地指出：

Token 的出现是人类语言向计算几何转化的关键。Token 不是简单的字符切割，而是将连续的、模糊的人类意义「离散化」为机器可以处理的数字单元。正是因为有了 Token 这一层抽象，AI 才能在概率空间里「行走」，从而在没有显式理解语法规则的情况下，涌现出复杂的逻辑。

换句话说：

对人类而言，语言是连续的、感性的、充满歧义的
对 AI 而言，语言被拆解成离散的词元，每个词元对应一个向量，在高维空间中进行数学运算

Wolfram 进一步解释，ChatGPT 本质上只是在不断重复一个动作：给定已有文本，预测下一个最可能出现的词元。正是这种看似简单的「接龙游戏」，在数百亿参数和海量数据的加持下，涌现出了令人惊讶的智能表现。

💡 精妙之处：模型并没有显式地存储「意义」「概念」或「理解」，它只是在一个极其高维的空间中，学习到了哪些符号组合是稳定出现的。意义不是语言的前提，而是语言被大规模压缩之后的副产物。

⚡ Token 经济学：AI 时代的「新能源」

英伟达 CEO 黄仁勋在 GTC 2026 大会上提出了一个震撼的观点：

Token 经济学：Token 已经成为衡量智能生产力的唯一标准单位。正如工业时代的「瓦特」或「标煤」，Token 是 AI 时代的能源度量衡。Tokens are the new commodity（Token 是新时代的商品）。数据中心正在演变为「Token 工厂」。

这不是比喻，而是正在发生的现实。

📊 中国词元调用量：爆发式增长

国家数据局披露了一组令人震撼的数据（来源）：

时间节点	日均词元调用量	增长情况
2024 年初	1000 亿	基准
2025 年底	100 万亿	增长 100 倍
2026 年 3 月	140 万亿+	再增长 40%+

140 万亿是什么概念？ 相当于全国每人每天平均调用约 10 万个词元（人民日报）。AI 已经深深嵌入了我们的日常生活，只是很多人还没意识到。

🏭 从数据中心到「Token 工厂」

黄仁勋所说的「Token 工厂」正在全球崛起：

每生成一个 Token，都对应着真实的推理过程，也对应着真实的电力消耗和算力消耗
Token 正在成为一种可计量、可定价、可交易的数字商品
围绕词元的调用、分发与结算，一套新的价值体系正在加速演进

正如国家数据局所指出：

Token「词元」不仅是智能时代的价值锚点，更是连接技术供给与商业需求的「结算单位」，为商业模式的落地提供了可量化的可能。

🔮 未来：你会收到 Token 账单吗？

想象一下：

未来的你，可能会收到一份「词元账单」，代表着你本月动用了多少 AI 大脑来协助工作和生活
就像我们现在每个月交水费、电费一样，未来我们或许也要为自己消耗的词元买单
企业将以「词元产出效率」作为核心竞争力指标

这听起来像科幻，但实际上，Token 计费已经成为现实。目前市面上大模型 API 的计费方式，已经在按词元计价——输入多少词元、输出多少词元，明码标价。最近养过「龙虾」（OpenClaw）智能体的用户们，对此深有体会——智能体对 Token 的消耗量是普通模型的数倍甚至上百倍。

📝 总结

从 Token 到「词元」，从一个圈内术语到登上国新办发布会，不仅仅是一个新词的出现，更是一个明确的信号：

人工智能正在以前所未有的速度融入中国人的日常。

概念	含义	比喻
词元	AI 处理语言的最小单元	语言的「原子」
词元经济	以词元为核心的价值体系	AI 时代的「电力」
词元工厂	生产词元的数据中心	智能的「发电站」

140 万亿只是一个起点。 在这个由「词元」构筑的数字新世界里，我们才刚刚启程。

📚 延伸阅读

参考来源：

国家数据局官方发布
中国发展高层论坛 2026 年年会
Stephen Wolfram《What Is ChatGPT Doing … and Why Does It Work?》
GTC 2026 大会黄仁勋主题演讲

技术, AI, 大模型

Token 词元 AI经济学大模型原理算力

本文由作者按照 CC BY 4.0 进行授权