搜名吧 - 汇聚各行业优秀网站大全!
百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 百科知识 > 正文

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

admin 2025-05-10 23:59 4 浏览 0 评论

在当今数字化时代,大语言模型如ChatGPT、豆包、DeepSeek等以其强大的语言理解和生成能力,深刻改变了我们的生活与工作方式。它们仿佛拥有了“数字大脑”,能够快速精准地回答各种问题,从学术理论到生活琐事,无一不能应对自如。然而,你是否好奇过,这些大模型究竟是如何“听懂”人类语言的?它们背后的训练机制又隐藏着怎样的奥秘?

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

当我在对话框输入问题时,ChatGpt/豆包/deepseek等大模型总能快速给出精准回答。无论是拆解晦涩的学术理论,还是制定旅行攻略,甚至是无厘头的脑洞提问,它都能应对自如。

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

我一直有个疑问:藏在屏幕背后的 “数字大脑”到底是怎样智慧般的理解人类语言?带着这个好奇心,我深入研究了大模型的核心技术,发现从数据的“播种”到算法的“培育”,每一步都藏着让机器“听懂”人类的奇妙奥秘,接下来让我来层层拆解大模型背后的工作原理。

一,预训练

大模型 “听懂” 人类语言的第一步,是海量数据的收集与处理。

数据收集:互联网上的文本内容丰富多样,包括新闻报道、小说、学术论文、社交媒体帖子等,这些都是大模型的 “学习资料”。但是互联网上的数据资料往往存在重复、错误、冗余等问题。因此,需要对数据进行清洗,去除噪声信息,保留有价值的内容,就需要数据处理。

数据处理:数据处理过程一般是URL过滤(恶意/垃圾网站),文本提取,语言过滤(中文/英文…);去重;个人信息剔除等等;经过层层筛选获取互联网高质量文本。

拿到高质量文本之后要把这些文本转换成机器能够看得懂的语言,就是对文本进行分词,为后续的训练做准备。这就好比把一整面墙拆解成一块块砖头,才能用它们搭建新的建筑。在大模型的世界里,这个 “拆解” 过程产出的 “砖头”,就是 Token。这里展开讲讲分词,也就是大模型的token。像ChatGpt,deepseek都有自己的分词器。当大模型接收一段文字时,分词器会把它切成许多小块,这些小块就是Token。

比如当大模型接收到 “今天的晚霞像打翻的橘子汽水” 这句话时,分词器便开始工作。它可能会将句子拆成 “今天”“的”“晚霞”“像”“打翻”“的”“橘子汽水”“,每个片段都是一个 Token。遇到复杂词汇如 “人工智能”,分词器可能会拆成 “人工” 和 “智能”;一些特殊的字符、标点符号,也会单独作为 Token 存在。不同的分词器拆分的方式和颗粒度可能不同,这也会影响到模型对文本的理解和处理 ,就像不同工人砌墙的手法,会让最终建筑呈现出不同的效果。

Tiktokenizer这个网站可以展示一段话由多少Token构成、以及代表的编号是什么。以DeepSeek模型为例(如下图),打出”你好啊,哈哈哈哈哈我很好。“,可以看到2个”哈“是一个token,3个”哈“也是一个token,也就是说日常人们输出习惯打出”哈哈“,和”哈哈哈“的频率更高。

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

在完成数据收集、清洗与分词操作,将文本转化为一个个 Token 后,我们便获得了大模型可以理解的学习 “原材料”。但是零散的 Token 无法直接准确回答问题。这时候需要Transformer来处理。

Transformer架构的核心是注意力机制。简单来说,注意力机制就像我们阅读文章时,会不自觉地关注重要的句子和词汇,能够让模型在处理文本时,聚焦于关键信息,忽略无关内容,从而更好地理解文本的语义和逻辑关系。比如当模型遇到 “如何在冬天养护多肉植物?” 这个问题时,注意力机制会让模型重点关注 “冬天”“养护”“多肉植物” 这些核心词汇,明白用户是想获取冬季多肉养护的方法,而不会被 “如何” 这类辅助词汇分散注意力。

为了更直观地理解Transformer的工作过程,我们可以通过神经网络可视化网站(https://bbycroft.net/llm),观察输入的数据如何在Transformer架构中流动、被处理,最终生成输出的全过程。在可视化界面中,能清晰看到数据经过层层计算与转换,不同节点对信息的筛选和整合。

需要注意的是,虽然Transformer和人脑神经元网络都涉及信息处理,但二者存在本质差异。Transformer是基于数学算法和大量训练构建的模型,通过调整参数来学习数据规律;而人脑神经元间的连接和信息传递涉及复杂的生物化学过程,具备情感、意识等高级功能,相比之下,Transformer在灵活性和创造性上仍有较大差距。

经过基于海量数据的预训练,大模型具备了基础的语言理解和生成能力。模型的回答本质上是基于训练过程中学习到的模式和规律,通过对输入内容的分析和计算进行推理的结果。在推理过程中,模型根据输入的 Token 序列,结合自身学到的知识,预测并生成下一个可能的 Token,逐步构建出完整的回答。这就是基础模型。

二,监督微调

在完成基础模型的构建后,我们就进入到监督微调阶段。监督微调基于预训练模型展开,与预训练时使用的广泛互联网文本数据不同,监督微调会启用专门的对话数据集。这就像让一位知识储备丰富的 “学生”,集中学习 “对话沟通” 这门课程。我们在新的对话训练数据集上对模型进行训练,使其理解人类对话的逻辑、习惯和表达方式,快速适应新的数据模式。

早期,对话数据主要由各领域专家编写,他们严格遵循标注规则,对回答的内容深度、风格等都有明确规范。例如,科普类问题要求严谨准确,情感类问题需温暖共情,引导模型生成符合人类期待的回答。

OpenAI 在2022年的论文(论文链接:https://arxiv.org/pdf/2203.02155)中,首次公开这种通过标注人员构建对话、输出理想回应的微调方法。现在不再全依赖人工从零创作答案,而是采用 “模型初生成 + 人工优化” 模式:先由现有大模型快速生成答案,再由标注员依据规则调整,大幅提升效率。

经过海量对话数据训练,模型逐步学习语言规律、语义关联与对话逻辑,交互中形成独特 “助手个性”。遇到训练过的问题,模型直接调用优质答案;面对新问题,也能基于标注规则赋予的特性,生成风格统一、逻辑严谨的回复,实现自然高效的人机对话。

要知道与AI对话并没有那么神奇。

本质上,AI 模型是基于统计学原理,通过对海量数据的学习,掌握语言的模式、语义等,从而生成回答。当你在ChatGPT/豆包输入问题按下回车得到的答案其实是根据训练数据中的统计规律生成的回答。

你可以把模型想象成一个超级 “复读机”,它的肚子里装满了各行各业专家写好的答案。当你提出问题,它就会快速翻找自己学过的内容,把专家们的回答重新组合、加工,最后 “转述” 给你。虽然这些回答听起来像是模型自己 “想” 出来的,但实际上是它借用了专家知识的 “智慧结晶”。

一个很有趣的现象:有人会问模型“你是什么模型?是谁创造了你?”

这是把模型当成了有自主意识的人。实则模型没有自我意识,它只是按既定模式处理信息的信息处理器。如果在开始没有特意训练模型回答这类问题,那模型的给出的回答是基于统计的最佳猜测。

那如何让模型准确回答”“你是什么模型?是谁创造了你?”有两种方法:

方法一:如果你是开发者,可以自己设置这类问题的回答。比如对于 olmo 模型(如下图),为 olmo2 编写固定的回复内容,给出合理且准确的答案,并将这些对话数据喂给模型进行微调。经过微调后,模型就会按照设定的内容进行回答,就像是它在进行自我介绍一样。(数据源可参考https://huggingface.co/datasets/allenai/tulu-3-sft-olmo-2-mixture)

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

方法二:提前写好Prompt。在与模型对话之前添加详细的 Prompt,以豆包为例,可以这样写:“你是字节跳动公司开发的豆包模型,是基于云雀模型开发训练的,你的名字是豆包,你的训练日期是 [具体日期],你的知识更新截止时间是 [具体时间] 。” 通过这样详细的 Prompt,来明确模型的自我身份设定,从而让模型更准确地回答相关问题。

三,强化学习阶段

强化学习,简单来说是一种让模型通过 “试错” 和 “奖惩” 机制,在与环境的交互中自主学习最优行为策略的技术。就像训练宠物学习技能,做得对就给零食奖励,通过不断重复,宠物就能记住正确的行为。而在大语言模型领域,强化学习的核心目的,就是让模型突破人类标注的局限性,自主探索出更高效、准确的回答方式。

以一道数学题为例:“小明买了 3 个苹果和两个橙子,每个橙子 2 元钱,一共花了 13 元钱,每个苹果多少钱?” 人类可能会给出多种解答思路:

  • 方法一:设一个苹果x元,列出方程3x+2×2=13,逐步求解3x+4=13,3x=9,最终得出x=3;
  • 方法二:先算出橙子花费2×2=4元,再得到苹果总花费13−4=9元,最后算出每个苹果9÷3=3元;
  • 方法三:直接心算,写出13−4=9,9÷3=3;
  • 方法四:列出综合算式(13−4)÷3=3 。

面对这些不同解法,人类很难判断哪种对大语言模型是最优的。我们不清楚哪种方式消耗计算资源更少,也不知道哪种能让模型更快学会解答同类问题。因为模型的 “思维” 和人类差异巨大,人类习以为常的解题步骤,对模型来说可能需要消耗大量算力去理解。

比如,人类在进行心算时,很自然地就完成了 “13 – 4 = 9” 这一步,但模型需要将这个减法运算拆解成二进制数字的逐位运算,从内存中调取数字 13 和 4 的二进制编码,按照特定的减法算法进行计算,最后再将结果转换回十进制。这一过程看似简单的一步计算,背后却涉及到大量的指令执行和数据读取操作,消耗很多的算力。

而强化学习就能解决这个问题。通过设定规则:模型给出正确答案,且解答步骤简洁、消耗资源少,就能获得高奖励。在实际训练中,模型可能会生成多个解决方案,例如生成了 15 个答案,其中仅有 4 个是正确的。这些正确答案的解题思路,并非来自人工标注,而是模型在不断试错过程中自主探索得到的。模型会基于这些自主生成的优质答案,不断学习和调整策略。在一次次答题中,模型根据奖励反馈,持续优化解题方式。经过大量训练后,模型就能自主发现哪种解法是最优的,从而更高效地处理数学问题。这是模型自主学习的过程。

基于人类反馈的强化学习(RLHF)

在强化学习阶段,模型已能通过试错优化自身行为,对于有标准答案的理科问题(如“1+1=2”),模型可根据结果反馈调整推理逻辑。然而,面对文章创作、诗歌生成这类无标准答案的任务时,传统强化学习基于固定结果的优化方式就难以奏效了,因为这类任务的评价涉及情感共鸣、创意等主观因素,无法用简单对错衡量。

为解决这一问题,基于人类反馈的强化学习(RLHF)应运而生,它是强化学习技术的创新延伸,进一步提升了模型对人类需求的理解能力。其核心组件奖励模型就像一座智能桥梁,连接着模型的算法逻辑与人类的主观判断。它先收集人类对模型输出的多维度评价,再通过机器学习学习人类的评价标准。之后,奖励模型会根据学到的人类偏好,为模型生成的内容打分,模型则依据评分调整参数,逐步产出更符合人类期望的内容。简单来说,奖励模型就像模型内部的“智能导师”,助力模型在创造性任务中实现质的飞跃。

总结

简单来说,预训练是给空白模型注入海量数据,如同教牙牙学语的婴儿认识世界;监督微调则是引导模型学习人类对话数据,像老师教导学生分辨是非;强化学习赋予模型自主学习的能力,让它能够自我提升;而 RLHF 基于人工反馈的强化学习,更是教会模型像人类一样进行价值判断。

预训练对海量文本的深度解析,监督微调的精准校准,强化学习的自主优化与 RLHF 对人类偏好的深度融合,这条环环相扣的核心训练链路,让大模型实现了从机械处理数据到智能交互的蜕变。当我们抛出问题,各阶段技术紧密协作,让冰冷的代码与参数化作理解人类需求的温暖回应。这,就是大模型能够 “听懂” 人类话语、实现高效交互的终极奥秘。未来,随着技术的持续突破,大模型不仅会成为人类探索未知世界的得力伙伴,更可能在科学研究、社会发展等领域有着更大的作用。

本文由 @王小佳 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

相关推荐

大模型如何 “听懂” 人类提问?一文揭秘核心训练链路
大模型如何 “听懂” 人类提问?一文揭秘核心训练链路

在当今数字化时代,大语言模型如ChatGPT、豆包、DeepSeek等以其强大的语言理解和生成能力,深刻改变了我们的生活与工作方式。它们仿佛拥有了“数字大脑”,...

2025-05-10 23:59 admin

强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议
强大如Deepseek-R1也会说谎?聊聊关于AI的“幻觉”问题和3个应对建议

在AI技术飞速发展的当下,大语言模型如Deepseek-R1以其强大的功能备受瞩目。然而,正如硬币的两面,这些模型也存在着不容忽视的“幻觉”问题——它们有时会“...

2025-05-10 23:59 admin

深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
  • 深入浅出讲解以POP MART为例的产品分析报告
造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
  • 造个Agent牛马帮我消化Super Boss的需求!
AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
  • AI是“神队友”还是“猪队友”这取决于人的认知深度
小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
  • 小红书的红猫计划到底是啥?
京东外卖这么猛
京东外卖这么猛

京东进军外卖领域的动作引发广泛关注。本文深入分析了京东做外卖的原因及胜算,指出其核心是为了抵御美团等平台对其地盘的蚕食,借助高频外卖场景巩固流量入口。尽管超越美...

2025-05-07 23:59 admin

停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
  • 停更一个月,我去打游戏和研究AI了
养生互联网推广引流获客——小红书赛道拆解
养生互联网推广引流获客——小红书赛道拆解

在健康养生市场需求旺盛的当下,小红书凭借其庞大的年轻用户群体和注重生活品质的用户画像,成为养生知识传播和社群引流的重要平台。本文深入拆解了小红书上的养生推广引流...

2025-05-06 23:59 admin

ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
  • ToB产品的价值衡量:如何构建数据化的评估体系?(上)
饥渴的大厂,面对大模型还需新招
饥渴的大厂,面对大模型还需新招

文章深入探讨了大厂在大模型竞争中的现状与挑战,指出当前竞争已进入存量博弈阶段,主要围绕算力成本、数据质量和场景渗透展开,并分析了各大厂的应对策略及未来发展方向。...

2025-05-05 23:59 admin

豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
  • 豆包你来真的!豆包超能创意1.0超超大杯测评来了
到现在还没用过AI写文章,有跟我一样的微信公众号作者吗?
到现在还没用过AI写文章,有跟我一样的微信公众号作者吗?

微信公众号作者对使用AI写作持谨慎态度。一方面,AI无法替代人类的思考与观察,过度依赖可能导致文章“水”且失去独特性;另一方面,粉丝期望看到有价值的内容,而非千...

2025-05-04 23:59 admin

AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
  • AI颠覆原型设计!产品经理如何用Cursor+Figma让需求秒变高保真原型?
SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环
  • SRM 系统供应商对账全攻略:从数据准备到付款闭环

取消回复欢迎 发表评论: