Llama系列上新多模态，3.2版本开源超闭源，还和Arm联手搞了手机优化版 [复制链接]

see122

军衔等级：

四级军士长

发表于 2024-9-27 15:59:00 |显示全部楼层

在多模态领域，开源模型也超闭源了！

就在刚刚结束的Meta开发者大会上，Llama 3.2闪亮登场：

这回不仅具备了多模态能力，还和Arm等联手，推出了专门为高通和联发科硬件优化的“移动”版本。

01 首个视觉
有关Llama 3.2具体能做什么，这次官方也释出了不少demo。

先看个汇总：Llama 3.2 11B和90B支撑一系列多模态视觉任务，包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

Llama 3.2 11B和90B也是首批支撑多模态任务的Llama系列模型，为此，Meta的研究人员打造了一个新的模型架构。

在Llama 3.1的基础之上，研究人员在不更新语言模型参数的情况下训练了一组适配器权重，将预训练的图像编码器集成到了预训练的语言模型中。

这样，Llama 3.2既能保持纯文本功能的完整性，也能get视觉能力。

训练过程中，Llama 3.2采用图像-文本对数据进行训练。训练分为多个阶段，包括在大规模有噪声数据上的预训练，和更进一步在中等规模高质量领域内和常识增强数据上的训练。

在后训练（post-training）中，研究人员通过监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）进行了几轮对齐。

02 专为端侧打造的“小”模型
至于1B和3B这两个轻量级模型，目的更加清晰：

随着苹果Apple Intelligence的推出，对于电子消费市场而言，手机等终端上的生成式AI已经成为标配。

而脱离云端独立运行在终端上的模型，无论是从功能还是从安全的角度，都是终端AIGC落地的关键。

Ollama、Groq等也已第一时间更新支撑。

参考链接：

[1]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

[2]https://www.cnet.com/tech/mobile/meta-and-arm-want-to-bring-more-ai-to-phones-and-beyond/#google_vignette

[3]https://news.ycombinator.com/item?id=41649763

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-24 10:25 , Processed in 0.118664 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册