强大如Deepseek-R1也会说谎？聊聊关于AI的“幻觉”问题和3个应对建议

admin 2025-05-10 23:59 4 浏览 0 评论

在AI技术飞速发展的当下，大语言模型如Deepseek-R1以其强大的功能备受瞩目。然而，正如硬币的两面，这些模型也存在着不容忽视的“幻觉”问题——它们有时会“一本正经地胡说八道”，给出看似有理有据却全然错误的回答。这不仅影响了AI的可信度，更可能在实际应用中引发误导。

关于Deepseek-R1的“幻觉”问题

近期我就火热的Deepseek发表了多篇介绍文章，相信大家在网络上也看到过其他关于Deepseek的各类推荐、教程。但，今天我想给这把火稍微降降温，给各位朋友聊聊关于Deepseek-R1的“幻觉”问题。

接下来，我将从“AI幻觉”入手，重点跟各位探讨一下Deepseek-R1“幻觉”严重的原因，也尝试给各位支支招，如何尽量避免“幻觉”问题。

附：关于“AI幻觉”的话题，我在去年7月时，曾经发表过一系列详细介绍的文章，如果对于“AI幻觉”这一话题想要进一步了解的朋友，也可以参考这几篇文章。

什么是“AI幻觉”

所谓AI“幻觉”（Hallucination），是指AI会给出看似有理有据却全然错误的回答的现象，也就是我们俗称的“一本正经地胡说八道”。关于AI“幻觉”的具体表现，我在之前文章的基础上，进一步总结为两类情况。

无中生有：即AI会在既有事实的基础上，进行过度的推断，进而编造一些虚假的信息。
张冠李戴：即AI会将两样并无关系的事物建立联系，比如将甲所做的事情安到了乙身上。

当然，“幻觉”问题并非Deepseek-R1所独有，但对比起其他的AI大模型，Deepseek-R1的“幻觉”现象的确更为严重。在Vectara HHEM人工智能幻觉测试中（注：这是一个行业内关于“AI幻觉”的权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率），DeepSeek-R1显示出的幻觉率不仅是DeepSeek-V3的近4倍，也远超行业平均水平。

为什么AI会产生“幻觉”

AI会产生“幻觉”的源头，就在于AI的运作原理。如今所有的生成式AI，即运作的本质都是“概率生成”，即通过前期训练建立语料之间的关联，不断地预测在给定的语境中下一个字词是什么的概率规律。而所有AI的设定，都是“尽可能满足用户要求”。这就导致了，当用户对AI提出要求，AI又的确没有相关资料，可它的设定又要求AI必须“说点什么”，尝试去给出一个回答，此时就有可能出现“无中生有”或“张冠李戴”的“幻觉”现象。（当然，还有一种出现“AI幻觉”情况是AI训练所用的数据或检索的内容本身就有问题，但这类信息源头错误跟我们这里讨论的问题关联不大，这里就简单提一嘴。）

为什么Deepseek-R1的“幻觉”情况尤为严重

OpenAI的实践表明，通过为AI增加推理过程，可以有助于减少“幻觉”现象的产生。而众所周知的是，Deepseek-R1的强大之处就在于其拥有“思维链”的能力。可是，为什么同样是拥有“思维链”，Deepseek-R1的“幻觉”却更加严重呢？

其实，答案就在谜面上。Deepseek-R1之所以“幻觉”严重，原因就在于“思维链”本身，或者更准确的说法，就在于Deepseek侧向强化“思维链”的创造力。

具体来看，Deepseek的生成式内容，可以大体分为“理科”（逻辑性任务）与“文科”（创造性任务）。Deepseek-R1在面对“理科”场景时，思维链的作用非常正向，这是不消说的。而面对“文科”场景时，从目前网上的一些评测声音，以及我自己的个人体验，都感觉Deepseek团队更鼓励于模型的“创造性”。

现在，我们聚焦到“文科”场景上。它具体又可以细分为“创作”与“查询”（前者意指主题写作一类的场景，后者意指信息搜集一类的场景）。在面对一些文学创作的任务时，Deepseek-R1在“思维链”的作用下，对用户需求的思考与拆解都更加细致，创作出来的作品也更加贴合用户的诉求。君不见，网上流传着各类用户分享的来自Deepseek-R1的精彩华章，其才思往往让人惊叹。对于这类的“创作”场景，哪怕真有“幻觉”出现，可能也会被用户理解为是Deepseek-R1的一种另类的创作能力。但是，面对信息搜集总结一类的任务时，由于Deepseek-R1会对用户的简单指令也增加“思维链”，等于是把一个简单明确的任务复杂化了。简单理解就是模型“用力过猛”、“想太多了”。本来是很简单的查询任务，但它非得给你“长篇推理”一轮，结果就容易出现“编造”原文中并不存在的内容这样的“幻觉”现象。

如何应对AI的“幻觉”问题

了解了Deepseek-R1“幻觉”情况尤为严重的原因后，我们接下来就重点聊聊如何尽量避免“幻觉”问题，这里我主要谈三点。

第一点，端正对于AI“幻觉”的认知。首先，AI出现“幻觉”问题是不可避免的。在这一点上，其实市面上无论国内外的所有AI大模型均是如此。因为这是由AI的底层运作机制所决定的，无非就是“幻觉率”有所差异而已。因此，一方面各个AI团队会持续努力，尽可能减少自家AI产品中“幻觉”的出现；另一方面，作为使用者的我们，需要保持认真求实的态度，不能对AI给出的结果照单全收，“尽信AI则不如无AI”。

第二点，尽可能选择低幻觉率的AI大模型。对于非常明确的查询类问题，在Deepseek-R1尚未进一步优化前，可以尝试使用Deepseek-V3或者其他的AI产品。从测评结果来看，主流的AI产品都能保持一个比较低的“幻觉率”。

第三点，掌握一些应对AI幻觉的技巧。在实际使用AI时，可以在提示词中增加一些限定要求，比如“请务必忠于原文”、“请核对事实”等等，这样可以引导模型减少幻觉。我个人比较喜欢使用的一招，就是在AI生成回答后，向其提出“针对你的上一个回答，检查真实性”。这一招“二次检查”，往往能够发现AI的“幻觉”。

其实，AI本质上仍然是一件工具，一件很强大的工具。归根到底，还是在于作为使用者的我们，需要不断提升认知。“君子生非异也，善假于物也”，只要正确地运用好AI这一工具，我们就都能最大化地享受AI带给我们的红利。

作者：产品经理崇生，公众号：崇生的黑板报

本文由 @产品经理崇生原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自 unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。