微调大模型的悖论：引入新知识，可能助长『幻觉』

研究发现，大语言模型在微调时引入新知识不仅学习效率低，还可能导致『幻觉』现象

发表于 2025/04/14 更新于 2026/03/22

作者 Jason

5 分钟阅读

📌 导读： 大语言模型（LLMs）在预训练阶段已经积累了丰富的知识，那么，我们是否还需要通过微调去”教”它新的事实？一项最新研究指出：不加筛选地引入新知识进行微调，反而可能引发”幻觉”（hallucination）问题。

🔍 背景：微调的初衷与潜在风险

当前，许多大语言模型如 GPT、PaLM 等，都是在海量文本数据上进行预训练。这一阶段，它们已经掌握了大量世界知识。

然而，为了让模型在具体任务上表现更佳，研究人员通常会进一步使用人工构造的数据对其进行监督微调（supervised fine-tuning）。

📌 问题来了：

在微调过程中，如果加入了模型此前未见的新事实，模型是否真的”学会”了这些知识？或者，它只是在没有理解的情况下，学会了如何”编答案”？

研究团队提出了一种名为 SliCK 的方法，用以衡量模型对不同知识的掌握程度。将问题分为四类：

类别	含义	示例
🟢 HighlyKnown	模型总能答对	“科学心灵运动的创始人是谁？” → 欧内斯特·霍姆斯
🟡 MaybeKnown	偶尔答对	“托莱多区的首府是哪里？” → 蓬塔戈尔达
🟠 WeaklyKnown	仅在温度采样下答对	“Scott McGrew 的职业？” → 新闻记者（但常答错）
🔴 Unknown	完全答不出	“Benedict 位于哪里？” → Hubbard County（模型不知道）

研究发现：

微调过程中，不同类别样本的拟合速度对比图

💡 微调过程中，不同类别样本的拟合速度对比显示：
最佳性能出现在模型主要掌握”已知”知识，而尚未完全学习”未知”样本的阶段。继续训练下去，反而会导致性能下滑。

研究进一步比较了不同配比的微调数据集：

不同"未知知识"比例下的测试表现对比图

研究还尝试了一种有趣的解决方案：

将未知样本的答案替换为 “I don’t know”，训练模型在不确定时学会拒答。

结果表明：

将未知样本标签替换为'我不知道'（IDK）后的结果对比图

研究揭示了一个重要而容易忽视的现象：

当前大模型的知识更多来自预训练，而微调的关键在于如何激活、组织与优化这些已有知识。

这意味着，微调不应一味追求”教新知识”，而应更谨慎地设计数据，避免引入过多”模型未掌握”的事实，尤其在缺乏配套机制时。

相关阅读：

技术, AI, 大模型

本文由作者按照 CC BY 4.0 进行授权