查看: 873|回复: 2

Meta首款多模态Llama 3.2开源，1B羊驼宝宝，跑在手机上了 [复制链接]

see122

军衔等级：

四级军士长

注册：2007-10-29 点赞数

4

发表于 2024-9-27 15:50:18 |显示全部楼层

Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。

Llama 3.1超大杯405B刚过去两个月，全新升级后的Llama 3.2来了！

这次，最大的亮点在于，Llama 3.2成为羊驼家族中，首个支撑多模态能力的模型。

Connect大会上，新出炉的Llama 3.2包含了小型（11B）和中型（90B）两种版本的主要视觉模型。

正如Meta所说，这两款模型能够直接替代，相对应的文本模型，而且在图像理解任务上击败了闭源Claude 3 Haiku。

甚至，90B版本击败了GPT-4o mini。

01 能力一览
11B和90B这两款模型，不仅支撑图像推理场景，包括图表和图形在内的文档级理解、图像描述以及视觉定位任务，而且还能基于现有图表进行推理并快速给出回答。

比如，你可以问「去年哪个月销售业绩最好？」，Llama 3.2就会根据现有图表进行推理，并迅速给出答案。

轻量级的1B和3B模型则可以帮助不仅在多语言文本生成和工具调用能力方面表现出色，而且具有强大的隐私保护，数据永远不会离开设备。

之所以在本地运行模型备受大家的青睐，主要在于以下两个主要优势：

提示词和响应能够给人瞬间完成的感觉

应用程序可以清晰地控制哪些查询留在设备上，哪些可能需要由云端的更大模型处理

02 性能评估
结果显示，Llama 3.2视觉模型在图像识别等任务上，与Claude 3 Haiku和GPT-4o mini不相上下。

3B模型在遵循指令、总结、提示词重写和工具使用等任务上，表现优于Gemma 2 2B和Phi 3.5 mini；而1B模型则与Gemma旗鼓相当。

03 视觉模型
作为首批支撑视觉任务的Llama模型，Meta为11B和90B型打造了一个全新的模型架构。

在图像输入方面，训练了一组适配器权重，将预训练的图像编码器集成到预训练的大语言模型中。

具体来说，该适配器：

由一系列交叉注意力层组成，负责将图像编码器的表示输入进大语言模型

通过在文本-图像对上的训练，实现图像表示与语言表征的对齐

在适配器训练期间，Meta会对图像编码器的参数进行更新，但不会更新大语言模型参数。

也就是说，模型的纯文本能力便不会受到任何影响，而开发者也可以将之前部署的Llama 3.1无缝替换成Llama 3.2。

04 轻量模型
通过利用剪枝（pruning）和蒸馏（distillation）这两种方法，Meta让全新的1B和3B模型，成为了首批能够高效地适应设备的、具有高能力的轻量级Llama模型。

剪枝能够减小Llama的规模，并尽可能地保留常识和性能

在此，Meta采用了从Llama 3.1 80亿参数模型进行单次结构化剪枝的方法。也就是，系统地移除网络的部分内容，并调整权重和梯度的幅度，从而创建一个更小、更高效的大语言模型，同时保留原始网络的性能。

完成剪枝之后，则需要使用常识蒸馏来恢复模型的性能。

常识蒸馏是让一个更大的网络给更小的网络传授常识

也就是，较小的模型可以借助教师模型的引导，获得比从头开始训练更好的性能。为此，Meta在预训练阶段融入了来自Llama 3.1 8B和70B模型的logits（模型输出的原始预测值），并将这些较大模型的输出则用作token级的目标。

05 Llama Stack发行版
Llama Stack API是一个标准化接口，用于规范工具链组件（如微调、合成数据生成等）以定制Llama大语言模型并构建AI智能体应用。

自从今年7月Meta提出了相关的意见征求之后，社区反响非常热烈。

如今，Meta正式推出Llama Stack发行版——可将多个能够良好协同工作的API提供者打包在一起，为开发者提供单一接入点。

这种简化且一致的使用体验，让开发者能够在多种环境中使用Llama大语言模型，包括本地环境、云端、单节点服务器和终端设备。

06 系统安全
这次，Meta在模型安全方面主要进行了两个更新：

1.Llama Guard 3 11B Vision

它支撑Llama 3.2的全新图像理解能力，并能过滤文本+图像输入提示词或对这些提示词的文本输出响应。

2. Llama Guard 3 1B

它基于Llama 3.2 1B，并在剪枝和量化处理之后，将模型大小从2,858MB缩减至438MB，使部署效率达到前所未有的高度。

目前，这些新解决方案已经集成到了Meta的参考实现、演示和应用程序中，开源社区可以马上开始使用。

参考资料：

https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-24 10:01 , Processed in 0.174420 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册