搜名吧 - 汇聚各行业优秀网站大全!
百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 百科知识 > 正文

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

admin 2025-05-10 23:59 4 浏览 0 评论

在AI技术飞速发展的当下,大语言模型如Deepseek-R1以其强大的功能备受瞩目。然而,正如硬币的两面,这些模型也存在着不容忽视的“幻觉”问题——它们有时会“一本正经地胡说八道”,给出看似有理有据却全然错误的回答。这不仅影响了AI的可信度,更可能在实际应用中引发误导。

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

关于Deepseek-R1的“幻觉”问题

近期我就火热的Deepseek发表了多篇介绍文章,相信大家在网络上也看到过其他关于Deepseek的各类推荐、教程。但,今天我想给这把火稍微降降温,给各位朋友聊聊关于Deepseek-R1的“幻觉”问题。

接下来,我将从“AI幻觉”入手,重点跟各位探讨一下Deepseek-R1“幻觉”严重的原因,也尝试给各位支支招,如何尽量避免“幻觉”问题。

附:关于“AI幻觉”的话题,我在去年7月时,曾经发表过一系列详细介绍的文章,如果对于“AI幻觉”这一话题想要进一步了解的朋友,也可以参考这几篇文章。

什么是“AI幻觉”

所谓AI“幻觉”(Hallucination),是指AI会给出看似有理有据却全然错误的回答的现象,也就是我们俗称的“一本正经地胡说八道”。关于AI“幻觉”的具体表现,我在之前文章的基础上,进一步总结为两类情况。

  • 无中生有:即AI会在既有事实的基础上,进行过度的推断,进而编造一些虚假的信息。
  • 张冠李戴:即AI会将两样并无关系的事物建立联系,比如将甲所做的事情安到了乙身上。

当然,“幻觉”问题并非Deepseek-R1所独有,但对比起其他的AI大模型,Deepseek-R1的“幻觉”现象的确更为严重。在Vectara HHEM人工智能幻觉测试中(注:这是一个行业内关于“AI幻觉”的权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率),DeepSeek-R1显示出的幻觉率不仅是DeepSeek-V3的近4倍,也远超行业平均水平。

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

为什么AI会产生“幻觉”

AI会产生“幻觉”的源头,就在于AI的运作原理。如今所有的生成式AI,即运作的本质都是“概率生成”,即通过前期训练建立语料之间的关联,不断地预测在给定的语境中下一个字词是什么的概率规律。而所有AI的设定,都是“尽可能满足用户要求”。这就导致了,当用户对AI提出要求,AI又的确没有相关资料,可它的设定又要求AI必须“说点什么”,尝试去给出一个回答,此时就有可能出现“无中生有”或“张冠李戴”的“幻觉”现象。(当然,还有一种出现“AI幻觉”情况是AI训练所用的数据或检索的内容本身就有问题,但这类信息源头错误跟我们这里讨论的问题关联不大,这里就简单提一嘴。)

为什么Deepseek-R1的“幻觉”情况尤为严重

OpenAI的实践表明,通过为AI增加推理过程,可以有助于减少“幻觉”现象的产生。而众所周知的是,Deepseek-R1的强大之处就在于其拥有“思维链”的能力。可是,为什么同样是拥有“思维链”,Deepseek-R1的“幻觉”却更加严重呢?

其实,答案就在谜面上。Deepseek-R1之所以“幻觉”严重,原因就在于“思维链”本身,或者更准确的说法,就在于Deepseek侧向强化“思维链”的创造力。

具体来看,Deepseek的生成式内容,可以大体分为“理科”(逻辑性任务)与“文科”(创造性任务)。Deepseek-R1在面对“理科”场景时,思维链的作用非常正向,这是不消说的。而面对“文科”场景时,从目前网上的一些评测声音,以及我自己的个人体验,都感觉Deepseek团队更鼓励于模型的“创造性”。

现在,我们聚焦到“文科”场景上。它具体又可以细分为“创作”与“查询”(前者意指主题写作一类的场景,后者意指信息搜集一类的场景)。在面对一些文学创作的任务时,Deepseek-R1在“思维链”的作用下,对用户需求的思考与拆解都更加细致,创作出来的作品也更加贴合用户的诉求。君不见,网上流传着各类用户分享的来自Deepseek-R1的精彩华章,其才思往往让人惊叹。对于这类的“创作”场景,哪怕真有“幻觉”出现,可能也会被用户理解为是Deepseek-R1的一种另类的创作能力。但是,面对信息搜集总结一类的任务时,由于Deepseek-R1会对用户的简单指令也增加“思维链”,等于是把一个简单明确的任务复杂化了。简单理解就是模型“用力过猛”、“想太多了”。本来是很简单的查询任务,但它非得给你“长篇推理”一轮,结果就容易出现“编造”原文中并不存在的内容这样的“幻觉”现象。

如何应对AI的“幻觉”问题

了解了Deepseek-R1“幻觉”情况尤为严重的原因后,我们接下来就重点聊聊如何尽量避免“幻觉”问题,这里我主要谈三点。

第一点,端正对于AI“幻觉”的认知。首先,AI出现“幻觉”问题是不可避免的。在这一点上,其实市面上无论国内外的所有AI大模型均是如此。因为这是由AI的底层运作机制所决定的,无非就是“幻觉率”有所差异而已。因此,一方面各个AI团队会持续努力,尽可能减少自家AI产品中“幻觉”的出现;另一方面,作为使用者的我们,需要保持认真求实的态度,不能对AI给出的结果照单全收,“尽信AI则不如无AI”。

第二点,尽可能选择低幻觉率的AI大模型。对于非常明确的查询类问题,在Deepseek-R1尚未进一步优化前,可以尝试使用Deepseek-V3或者其他的AI产品。从测评结果来看,主流的AI产品都能保持一个比较低的“幻觉率”。

第三点,掌握一些应对AI幻觉的技巧。在实际使用AI时,可以在提示词中增加一些限定要求,比如“请务必忠于原文”、“请核对事实”等等,这样可以引导模型减少幻觉。我个人比较喜欢使用的一招,就是在AI生成回答后,向其提出“针对你的上一个回答,检查真实性”。这一招“二次检查”,往往能够发现AI的“幻觉”。

其实,AI本质上仍然是一件工具,一件很强大的工具。归根到底,还是在于作为使用者的我们,需要不断提升认知。“君子生非异也,善假于物也”,只要正确地运用好AI这一工具,我们就都能最大化地享受AI带给我们的红利。

作者:产品经理崇生,公众号:崇生的黑板报

本文由 @产品经理崇生 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

相关推荐

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路
大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

在当今数字化时代,大语言模型如ChatGPT、豆包、DeepSeek等以其强大的语言理解和生成能力,深刻改变了我们的生活与工作方式。它们仿佛拥有了“数字大脑”,...

2025-05-10 23:59 admin

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议
强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

在AI技术飞速发展的当下,大语言模型如Deepseek-R1以其强大的功能备受瞩目。然而,正如硬币的两面,这些模型也存在着不容忽视的“幻觉”问题——它们有时会“...

2025-05-10 23:59 admin

深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
京东外卖这么猛
京东外卖这么猛

京东进军外卖领域的动作引发广泛关注。本文深入分析了京东做外卖的原因及胜算,指出其核心是为了抵御美团等平台对其地盘的蚕食,借助高频外卖场景巩固流量入口。尽管超越美...

2025-05-07 23:59 admin

停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
养生互联网推广引流获客——小红书赛道拆解
养生互联网推广引流获客——小红书赛道拆解

在健康养生市场需求旺盛的当下,小红书凭借其庞大的年轻用户群体和注重生活品质的用户画像,成为养生知识传播和社群引流的重要平台。本文深入拆解了小红书上的养生推广引流...

2025-05-06 23:59 admin

ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
饥渴的大厂,面对大模型还需新招
饥渴的大厂,面对大模型还需新招

文章深入探讨了大厂在大模型竞争中的现状与挑战,指出当前竞争已进入存量博弈阶段,主要围绕算力成本、数据质量和场景渗透展开,并分析了各大厂的应对策略及未来发展方向。...

2025-05-05 23:59 admin

豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
到现在还没用过AI写文章,有跟我一样的微信公众号作者吗?
到现在还没用过AI写文章,有跟我一样的微信公众号作者吗?

微信公众号作者对使用AI写作持谨慎态度。一方面,AI无法替代人类的思考与观察,过度依赖可能导致文章“水”且失去独特性;另一方面,粉丝期望看到有价值的内容,而非千...

2025-05-04 23:59 admin

AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环

取消回复欢迎 发表评论: