亚马逊紧急叫停AI排行榜：一场由 KPI 逼出来的“AI 表演秀”

亚马逊内部 AI 使用排行榜 Kirorank 上线不久即被紧急叫停——员工用 AI 刷无意义任务来堆高 Token 消耗量，把激励机制玩成了薅羊毛大赛。

发表于 2025/05/29 更新于 2026/07/12

作者 Jason

5 分钟阅读

最近《金融时报》爆了个挺有意思的瓜——

亚马逊内部有个 AI 使用排行榜，叫 Kirorank。本来是公司为了推动 AI 落地搞的激励机制，谁用 AI 用得多、用得好，谁排名靠前。出发点没毛病，甚至挺有创意的。

但这玩意儿，上线没多久就被关停了。

🎮 员工是怎么把它玩坏的

Kirorank 的评分核心，是 Token 消耗量——简单理解就是，你调用 AI 调得越多、越频繁，分就越高。

然后你猜怎么着？

员工们很快就找到了“正确的打开方式”：让 AI 智能体反复去跑一些毫无意义的任务，就为了把 Token 数字刷上去。至于这些任务有没有用？管它呢，排名先到手再说。

🤖 说白了就是：用 AI，去骗考核 AI 使用率的系统。

结果就是亚马逊内部的算力资源被白白消耗，运营成本噌噌往上涨，高管一看数据直接破防，紧急叫停。

阶段	发生了什么
🟢 启动	上线 Kirorank，用 Token 消耗量排名，鼓励大家多用 AI
🟡 失控	员工发现漏洞，开始让 AI 刷无意义任务，疯狂堆数据
🔴 叫停	算力遭滥用，成本飙升，高管震怒，紧急关停
🔵 整改	考核改成看「AI 实际生成的代码质量」和「真实解决了什么问题」

我觉得这事的根子，其实挺经典的——把手段当成了目标。

Token 消耗量本来只是个参考数字，结果一旦变成 KPI、跟利益挂钩，大家自然就奔着这个数字去了，而不是奔着「怎么真正用好 AI」去的。

这能怪员工吗？说实话，换我可能也这么干。考核指标摆在那，不刷白不刷。

💡 有句话说得很准，叫古德哈特定律： 「当一个指标变成目标，它就不再是一个好指标了。」

亚马逊这次踩的，就是这个坑。

亚马逊发现不对劲之后反应还挺快的，叫停、改指标，没有死撑。这一点还算是值得肯定。

但更值得想的是：有多少公司现在正处于「榜单跑偏但自己不知道」的状态？

这几年 AI 浪潮一来，“拥抱 AI”几乎成了企业的标配动作，各种内部考核也跟着来了：

数字好看，PPT 漂亮，汇报起来头头是道。

实际业务有没有因为 AI 变好一点点？这个问题，没人在认真追。

AI 本身没问题，问题是我们拿它干什么。

当 AI 只是为了凑 KPI 而存在，它就不再是工具了，顶多是个做表面文章的道具。

亚马逊这个小插曲，说大不大，但它很真实地照出了一件事：

很多企业现在不是在「用 AI」，是在「表演用 AI」。

Kirorank倒下了，但下一个被玩坏的“KPI”，又在哪儿等着呢？

本文由作者按照 CC BY 4.0 进行授权