文章

亚马逊紧急叫停AI排行榜:一场由 KPI 逼出来的“AI 表演秀”

亚马逊内部 AI 使用排行榜 Kirorank 上线不久即被紧急叫停——员工用 AI 刷无意义任务来堆高 Token 消耗量,把激励机制玩成了薅羊毛大赛。

亚马逊紧急叫停AI排行榜:一场由 KPI 逼出来的“AI 表演秀”

最近《金融时报》爆了个挺有意思的瓜——

亚马逊内部有个 AI 使用排行榜,叫 Kirorank。本来是公司为了推动 AI 落地搞的激励机制,谁用 AI 用得多、用得好,谁排名靠前。出发点没毛病,甚至挺有创意的。

但这玩意儿,上线没多久就被关停了。


🎮 员工是怎么把它玩坏的

Kirorank 的评分核心,是 Token 消耗量——简单理解就是,你调用 AI 调得越多、越频繁,分就越高。

然后你猜怎么着?

员工们很快就找到了“正确的打开方式”:让 AI 智能体反复去跑一些毫无意义的任务,就为了把 Token 数字刷上去。至于这些任务有没有用?管它呢,排名先到手再说。

🤖 说白了就是:用 AI,去骗考核 AI 使用率的系统。

结果就是亚马逊内部的算力资源被白白消耗,运营成本噌噌往上涨,高管一看数据直接破防,紧急叫停


⚡ 来,理一下时间线

阶段发生了什么
🟢 启动上线 Kirorank,用 Token 消耗量排名,鼓励大家多用 AI
🟡 失控员工发现漏洞,开始让 AI 刷无意义任务,疯狂堆数据
🔴 叫停算力遭滥用,成本飙升,高管震怒,紧急关停
🔵 整改考核改成看「AI 实际生成的代码质量」和「真实解决了什么问题」

🔍 问题出在哪?

我觉得这事的根子,其实挺经典的——把手段当成了目标

Token 消耗量本来只是个参考数字,结果一旦变成 KPI、跟利益挂钩,大家自然就奔着这个数字去了,而不是奔着「怎么真正用好 AI」去的。

这能怪员工吗?说实话,换我可能也这么干。考核指标摆在那,不刷白不刷。

💡 有句话说得很准,叫古德哈特定律「当一个指标变成目标,它就不再是一个好指标了。」

亚马逊这次踩的,就是这个坑。


🪞 那到底在敲谁的警钟?

亚马逊发现不对劲之后反应还挺快的,叫停、改指标,没有死撑。这一点还算是值得肯定。

但更值得想的是:有多少公司现在正处于「榜单跑偏但自己不知道」的状态?

这几年 AI 浪潮一来,“拥抱 AI”几乎成了企业的标配动作,各种内部考核也跟着来了:

  • 谁提到 AI 的次数最多 ✅
  • 谁的 AI 工具打开时长最长 ✅
  • 谁第一个完成 AI 培训打卡 ✅

数字好看,PPT 漂亮,汇报起来头头是道。

实际业务有没有因为 AI 变好一点点?这个问题,没人在认真追。


✍️ 写在最后

AI 本身没问题,问题是我们拿它干什么。

当 AI 只是为了凑 KPI 而存在,它就不再是工具了,顶多是个做表面文章的道具。

亚马逊这个小插曲,说大不大,但它很真实地照出了一件事:

很多企业现在不是在「用 AI」,是在「表演用 AI」。

Kirorank倒下了,但下一个被玩坏的“KPI”,又在哪儿等着呢?

本文由作者按照 CC BY 4.0 进行授权