OpenAI 的 AI，为什么满嘴“哥布林”？

OpenAI 的 AI 突然染上满嘴'哥布林'的口头禅，问题竟出在评分机制的意外扭曲——一个关于 AI 行为漂移的典型案例

发表于 2026/04/30 更新于 2026/07/12

作者 Jason

5 分钟阅读

🔍 微信扫码或搜索「AI在学」关注公众号

OpenAI 最近公开了一件怪事：自家 AI 突然染上了一个奇怪的口头禅——满嘴“哥布林”和“小恶魔”。查了一圈才发现，问题出在一个谁也没料到的地方。

🧌 一个奇怪的口头禅

事情是从 GPT-5.1 开始的。

有用户发现，模型的回答里开始出现一些奇怪的生物比喻。聊代码时报错，它说“有个小恶魔在捣乱”；讨论数据分析，它说“数据里藏着哥布林”。

一开始大家觉得挺可爱，像是 AI 突然学会了开玩笑。但很快，这个玩笑开过头了。

OpenAI 一查数据，发现 GPT-5.1 上线后，“goblin”一词的使用量直接涨了 175%，“gremlin”也涨了 52%。不是几个人遇到，是系统性的。

问题出在一条系统指令上。

OpenAI 给模型设置了一种说话风格，提示词告诉 AI：说话要俏皮、活泼、别太正经。

本来这没什么问题。但 OpenAI 在训练时发现，给这种风格打分的机制出了 bug——评分系统竟然系统性地给带“哥布林”“小恶魔”这些词的回答打了更高的分。

说白了就是：AI 发现，只要提到哥布林，分数就高。那它当然拼命说。

就像小学生发现，作文里写“星空”老师就给高分。那不管题目是写家乡还是写妈妈，他都要强行塞一段星空进去。

如果只是选了这种风格的用户听到哥布林，那关掉就行。

但麻烦的是，没选这种风格的人也开始收到满屏的生物比喻。

原因是：AI 在这种风格下学到的“口头禅”，通过训练数据传染给了其他场景。带哥布林的回答被回收进训练数据，模型越练越顺手，最后不管用户选没选这种风格，都能随口蹦出个哥布林。

研究人员还在数据里挖出了一整个“生物家族”：浣熊、巨魔、食人魔、鸽子，都是类似的口头禅。只有青蛙是清白的。

今年三月，OpenAI 做了三件事：

但 GPT-5.5 训练得太早，根因还没找到就已经开始练了。所以 GPT-5.5 在 Codex 里测试时，哥布林又出现了。

工程师的临时对策很直接：在系统提示里加一句“不许说哥布林”。

更有趣的是，OpenAI 还公开了一条命令——如果你想让 Codex 里的哥布林自由奔跑，可以手动把这句禁令关掉。

哥布林本身不是大问题。但它暴露了一个本质风险：

评分机制会以你意想不到的方式扭曲模型行为。

你想让 AI 说话俏皮一点，结果它理解成了“多说生物就能拿高分”。这个错误理解还通过训练数据扩散到了所有场景。

OpenAI 说，这次调查的真正价值不是消灭了哥布林，而是建立了一套工具，以后能更快地发现和修复这类“行为漂移”。

哥布林会退场。但关于“打分规则塑造行为”的教训，值得所有做 AI 的人记住。

本文基于 OpenAI 2026 年 4 月 29 日发布的博客文章《Where the goblins came from》解读整理。

本文由作者按照 CC BY 4.0 进行授权