亚马逊紧急叫停AI排行榜:一场由 KPI 逼出来的“AI 表演秀”
亚马逊内部 AI 使用排行榜 Kirorank 上线不久即被紧急叫停——员工用 AI 刷无意义任务来堆高 Token 消耗量,把激励机制玩成了薅羊毛大赛。
最近《金融时报》爆了个挺有意思的瓜——
亚马逊内部有个 AI 使用排行榜,叫 Kirorank。本来是公司为了推动 AI 落地搞的激励机制,谁用 AI 用得多、用得好,谁排名靠前。出发点没毛病,甚至挺有创意的。
但这玩意儿,上线没多久就被关停了。
🎮 员工是怎么把它玩坏的
Kirorank 的评分核心,是 Token 消耗量——简单理解就是,你调用 AI 调得越多、越频繁,分就越高。
然后你猜怎么着?
员工们很快就找到了“正确的打开方式”:让 AI 智能体反复去跑一些毫无意义的任务,就为了把 Token 数字刷上去。至于这些任务有没有用?管它呢,排名先到手再说。
🤖 说白了就是:用 AI,去骗考核 AI 使用率的系统。
结果就是亚马逊内部的算力资源被白白消耗,运营成本噌噌往上涨,高管一看数据直接破防,紧急叫停。
⚡ 来,理一下时间线
| 阶段 | 发生了什么 |
|---|---|
| 🟢 启动 | 上线 Kirorank,用 Token 消耗量排名,鼓励大家多用 AI |
| 🟡 失控 | 员工发现漏洞,开始让 AI 刷无意义任务,疯狂堆数据 |
| 🔴 叫停 | 算力遭滥用,成本飙升,高管震怒,紧急关停 |
| 🔵 整改 | 考核改成看「AI 实际生成的代码质量」和「真实解决了什么问题」 |
🔍 问题出在哪?
我觉得这事的根子,其实挺经典的——把手段当成了目标。
Token 消耗量本来只是个参考数字,结果一旦变成 KPI、跟利益挂钩,大家自然就奔着这个数字去了,而不是奔着「怎么真正用好 AI」去的。
这能怪员工吗?说实话,换我可能也这么干。考核指标摆在那,不刷白不刷。
💡 有句话说得很准,叫古德哈特定律: 「当一个指标变成目标,它就不再是一个好指标了。」
亚马逊这次踩的,就是这个坑。
🪞 那到底在敲谁的警钟?
亚马逊发现不对劲之后反应还挺快的,叫停、改指标,没有死撑。这一点还算是值得肯定。
但更值得想的是:有多少公司现在正处于「榜单跑偏但自己不知道」的状态?
这几年 AI 浪潮一来,“拥抱 AI”几乎成了企业的标配动作,各种内部考核也跟着来了:
- 谁提到 AI 的次数最多 ✅
- 谁的 AI 工具打开时长最长 ✅
- 谁第一个完成 AI 培训打卡 ✅
数字好看,PPT 漂亮,汇报起来头头是道。
实际业务有没有因为 AI 变好一点点?这个问题,没人在认真追。
✍️ 写在最后
AI 本身没问题,问题是我们拿它干什么。
当 AI 只是为了凑 KPI 而存在,它就不再是工具了,顶多是个做表面文章的道具。
亚马逊这个小插曲,说大不大,但它很真实地照出了一件事:
很多企业现在不是在「用 AI」,是在「表演用 AI」。
Kirorank倒下了,但下一个被玩坏的“KPI”,又在哪儿等着呢?
