C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  四级军士长

注册:2010-4-285
发表于 2024-12-30 20:00:11 |显示全部楼层

昨天写完DeepSeek-V3的文章,看到一段吐槽:

OpenAI 是一家以创造先进人工智能技术为目标的企业。DeepSeek-V3,是在一个开源系统上进行性能和成本效益优化的。 看起来有点偷懒。

我不确定这段评论是不是AI写的,但大概明白那位朋友的意思, 他认为OpenAI更注重创造,而DeepSeek-V3只是在别人做好的基础上,做了系统优化。

那么,如果作为后来者,把AI的一个个模型都当作系统来优化,并且做到最好,是不是更有利于深入到实际应用场景中呢?我个人认为,是的。

01

为什么这么说呢?先先容一个词:数据蒸馏技术(Dataset Distillation)。它的本意是一种机器学习方法,核心是把大量数据中的精华信息,浓缩到一个更小的数据集中,然后进行训练。

具体来说,通过一系列算法和策略,对原始数据进行深度处理。这包括去除数据中的噪声、降低数据的维度,以及提取出最关键的信息。

经过这些步骤,最终能得到一个既精炼又实用的数据集,让AI学习后更加精准; 这样 做的好处是,既能提升模型的性能,又能减少训练过程中所需的数据量和计算资源。

如果还是不太明白,我来举个例子。

想象一下,你有一本厚厚的《穷查理宝典》,里面包含了大量的常识点。但看到一半时,你发现找到重要的信息并不容易。这时,该怎么办呢?

最好的选择之一,按照索引目录,或者制作一个精简版的手册,只保留关键内容。

这样,你既能快速获取核心常识,又不用每次都翻那本厚重的书。数据蒸馏技术就像这个过程,它从海量数据中提取出最重要的信息,生成一个小巧但高效的数据集。

比如,在训练图像识别模型时,原本可能需要成千上万张图片。但通过数据蒸馏,可能只需要几百张精选图片,就能达到相似的识别效果。

那么,使用数据蒸馏技术,一定是坏事吗?不一定。

为什么呢?

我认为有三个原因。 第一,它能提升效率。 数据蒸馏可以让模型变得更轻量化,运行速度更快。这对硬件性能有限的设备特别重要,比如手机、物联网设备。

模型通过压缩常识量,保留核心信息,再配合注意力训练,这样既能节省时间和资源,又能让模型高效学习。

第二,它能保护隐私。 数据蒸馏本身像一种抽象的表达,它不需要存储或处理完整的原始数据,因此隐私泄露的风险自然更低。

比如:在医疗场景中,使用经过蒸馏的模型,可以让算法学到诊断能力,但又不用直接接触患者的隐私数据。

第三,它能快速迁移常识。 对于跨领域的应用,蒸馏可以帮助新模型迅速学习已有模型的能力,不用从零开始训练,这种“以老带新”的方式,可以大幅缩短开发周期,还能避免重复劳动。

写到这儿,可能有人会问:蒸馏后AI怎么学习呢?

简单来说,大概分两步。 :

第一步,可以想象有一个已经训练好的大模型,就像一位老师。 它掌握了大量常识。蒸馏的过程,就是让这位老师把最重要的常识提炼出来,教给一个小模型,也就是学生。

比如,大模型会告诉小模型:“这张图片是猫,关键特征是耳朵和胡须。”小模型不需要记住所有细节,只要抓住这些核心信息就够了。

第二步,就是让学生自己练习。 小模型拿到这些提炼后的常识后,会用自己的方式去学习和理解。它通过反复练习,逐渐掌握这些核心信息。最终,它也能像大模型一样完成任务,比如识别图片中的猫。

这就像你学数学时,老师不会让你背下所有题目,而是教你解题的思路和关键公式。你记住这些重点后,就能自己解决类似的问题。

蒸馏后的AI也是这样,它学的是“解题方法”,而不是“全部题目”;这样一来,小模型既能高效学习,又不需要像大模型那样消耗大量资源。

明白这一点,你也就理解了数据蒸馏技术(Dataset Distillation)最本质作用。

02

其实,deepSeek-V3本质也用的数据蒸馏技术,只不过,它的技术架构层面自己没有用,而是从 DeepSeek-R1 模型中提炼推理能力。

看到这,你也许又懵了,DeepSeek-R1 模型是什么?

DeepSeek-R1是一个更早、更复杂的模型,它具备强大的推理和反思能力。它的设计初衷是为了解决更高级的问题,比如:需要深度思考和验证的任务。

DeepSeek-V3 则是在它的基础上,通过数据蒸馏技术,提取了 R1 的核心推理模式,而不是直接复制它的所有功能。

这样做的好处是,DeepSeek-V3 既能保留 R1 的精华,又变得更轻量化,更适合实际应用场景。实在无法理解,你可以思考成: R1 是“老师”,V3 是“学生”,学生从老师那里学到了最重要的解题思路,而不是死记硬背所有答案。

那么,大家怎么知道 DeepSeek-R1 一定也用了数据蒸馏技术呢?其实,要判断一个模型有没有用数据蒸馏技术,只需要搞清楚三个问题就够了。

第一个问题是:R1 是否生成了比简单的硬标签更丰富的输出? 比如,概率分布或者中间推理链。这些输出是否被用来引导后续模型的训练?

更通俗地说,这个问题可以理解为:R1 是不是不仅仅给出了答案,还提供了更多的信息。比如,它是怎么得出这个答案的,或者它对这个答案有多大的把握。这些额外的信息,会被用来帮助其他模型更好地学习。

针对这个问题,我查了一下 DeepSeek-R1 的技术和 API 文档,结论是:是的。理由有三点:

第一,概率分布

DeepSeek-R1 在推理过程中,不仅会输出最终的硬标签(比如分类结果或具体答案),还会提供概率分布信息。

这种概率分布反映了模型对不同可能性的置信度,能够更细致地描述模型的决策过程。

在后续模型训练中,这些概率分布可以作为软标签,用于常识蒸馏;这样,学生模型(比如 DeepSeek-V3)就能更好地学习教师模型(R1)的推理模式,从而提升性能和泛化能力。

第二,中间推理链(思维链)

DeepSeek-R1 采用了思维链技术,在解决复杂问题时,会生成一系列中间推理步骤。这些步骤展示了模型对问题的逐步理解和解决过程,提供了更丰富的上下文信息。

在后训练阶段,这些中间推理链被提取出来,用于引导后续模型的训练。

通过常识蒸馏,R1 的思维链能力被迁移到其他模型(比如 DeepSeek-V3)中,显著提升了这些模型的推理能力和任务表现。这一点,可以在 DeepSeek-V3 的报告中看到。

第三,引导后续模型训练 ;相比于传统的硬标签,这些信号能够更全面地传递教师模型的常识和推理能力。

比如,在常识蒸馏过程中,学生模型不仅学习最终的输出结果,还学习教师模型的决策过程和中间推理步骤。这样,学生模型就能获得更强的泛化能力和更高的准确性。

所以,DeepSeek-R1 通过生成概率分布和中间推理链,提供了比硬标签更丰富的输出,这些输出被有效地用于引导后续模型的训练。

03

第二个问题是:R1 是否提取了内部特征(比如中间层的表征),并用这些特征来优化 V3 的推理能力?

说白了,R1在运行过程中,是否记录了一些中间步骤的信息,比如它是如何一步步思考的。然后,这些信息是否又被用在帮助 V3 更好地学习和推理。

经过我的查阅,R1确实在内部特征(如中间层表征)上进行了提取,并用于优化V3的推理能力。

具体来说,DeepSeek-V3在其后训练阶段引入了一种新的方法,从长链思考(CoT)模型,特别是DeepSeek R1系列模型中提取推理能力,并将这些能力整合到标准的LLM中,尤其是DeepSeek-V3。

看到这,有些朋友会有疑问了: 中间层表征什么意思?

在深度学习模型中,中间层表征指模型在处理输入数据时,每一层(尤其是隐藏层)输出的特征表示,这些表征捕捉了输入数据在不同抽象层次上的信息。

举个通俗的例子:

想象一下,你在看一幅画。第一眼,你可能只注意到画中的颜色和形状,这是最基础的信息。

接着,你开始注意到画中的物体,比如树、房子或者人,这是更深一层的理解,最后,你可能还会思考这幅画的主题或情感,比如它表达的是快乐还是忧伤。

深度学习模型的工作方式也类似。

输入数据(比如一张图片)经过模型的每一层时,会被逐步分析和抽象。第一层可能只提取简单的特征,比如边缘或颜色;中间层会提取更复杂的特征,比如形状或纹理。最后一层则可能识别出具体的物体或场景。

这些中间层表征,就是模型在每一层对输入数据的理解和提取的信息,它帮助模型逐步从简单到复杂地理解数据,最终完成任务。

而DeepSeek-R1模型呢?通过分析模型的中间层输出,提取关键的特征表示;具体方法有两点:

其一,特征可视化

它通过可视化工具(比如 Grad-CAM、t-SNE)分析中间层特征。这些工具可以更直观地看到模型在处理数据时,每一层提取了哪些信息。

其二,特征重要性评估

使用注意力机制或特征重要性评分(比如 SHAP 值)来确定哪些特征对推理任务最关键,简单来说,找出哪些信息对模型的决策影响最大。

此外,有一个重要步骤:特征压缩。

即,利用降维技术(比如 PCA 或自动编码器),提取最具代表性的特征,这样可以减少数据的复杂性,同时保留最关键的信息,让模型更高效地学习和推理。

如果无法理解,可以通俗的把整个过程想象成:

你在整理一本厚厚的书,首先,通过目录快速找到重要的章节,了解书的主要内容,这就叫特征可视化;然后,你会用荧光笔标记出最关键的部分,比如核心观点或重要数据,这叫特征重要性评估。

最后,你会把书中的精华内容总结成几页笔记,方便以后快速查阅。这是特征压缩。

DeepSeek-R1工作方式也类似。它分析中间层输出,找到最关键的信息,再把这些信息压缩成更精炼的形式,帮助模型更高效地学习和推理。

因此,我的结论是:DeepSeek-R1 确实提取了内部特征,并通过特征可视化、特征重要性评估和特征压缩等方法,将关键信息用于优化DeepSeek-V3的推理能力。

04

第三个问题:R1是不是专门为其他模型提供常识转移的服务,而不只是自己用?换句话说,R1是不是帮助别的模型学习新常识?

答案是肯定的。

DeepSeek-V3用了一个很聪明的方法,把DeepSeek R1系列模型的推理能力,转移到标准的LLM里面。这样不仅让DeepSeek-V3变得更聪明,还能控制输出的风格和长度。

可以肯定地说,R1系列模型确实是为其他模型提供常识转移的服务,这是官方都承认的。综上,鉴于这三个问题,可以说: deepSeek-V3的确用了数据蒸馏技术。

其实,国内很多推理模式,都是基于蒸馏 O1 Preview 的数据。这种方式把别人走过的弯路,变成了自己的捷径,让新模型站在“巨人”的肩膀上。

我这句话不是胡说。这篇论文的名字叫:《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》发表在arXiv.org平台上 「1」 。

其中公开指出了,从O1的API中进行简单蒸馏,再加上监督微调,可以在复杂的数学推理任务中实现卓越的性能。

在美国邀请数学考试(AIME)中,仅对数万个样本O1提取的长思维链进行微调的基础模型,在技术复杂性最小的情况下优于O1预览。

所以,这也是为什么大多数AI产品,做高中题效果提升好,做博士级别的题目效果一般的原因。

因为,高中级别的题目有明确的解题思路和标准答案,适合通过蒸馏、微调来提升性能;而博士级别的题目要更深层次的创新和复杂推理,单纯依赖蒸馏技术难以覆盖这些高难度的需求。

但是,如果各种小模型,先用蒸馏技术过滤一遍高中题,再推向市场,这何尝不是一种进步呢?

就说这么多,不要嘲笑别人巧取捷径,要多思考,它用了特殊方法,节省下多少算力;毕竟,DeepSeek-V3训练成本只有557.6万美金,这只是训练Meta的Llama 3.1所需估计的5亿美金的1.1%。

注释:

[1].O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?地址:https://arxiv.org/abs/2411.16489


来源:36kr

举报本楼

本帖有 5 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-1-2 20:56 , Processed in 0.234403 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图