DeepSeek-R1在某些情况下会出现“胡说八道”的现象,即幻觉,其幻觉率为14.3%,远高于行业平均水平。这一问题主要源于数据、模型和应用层的多重因素。
在Vectara HHEM人工智能幻觉检测中,DeepSeek-R1显示出14.3%的幻觉率,远高于DeepSeekV3和行业平均水平。例如,在国际象棋游戏中,DeepSeek-R1出现了明显的幻觉,如主动送兵线、虚构规则更新等。
模型学习的大量知识中,有些事实或细节可能没有被充分记住或理解,导致预测时产生错误。大模型的设计原理决定了它必须基于已有知识进行预测和补全,当遇到不熟悉或模糊的信息时,模型会自动“想象”,从而产生幻觉。此外,在某些应用场景下,如科研检索,模型可能会生成与真实世界知识相矛盾的信息。
幻觉可能导致信息错误,对决策和学术研究等产生误导。但在某些创意性场景中,幻觉也可以被视为一种外在的想象力,激发人的灵感。
通过改进模型设计和训练数据可以降低幻觉率。使用者应了解模型的局限性,避免盲信盲从。同时,加强行业对AI模型的监管和评估,确保模型的准确性和可靠性也很重要。