简介
Llama 4 是 Meta 推出的第四代开源大语言模型系列,延续了 Llama 系列”开源推动 AI 民主化”的核心理念。与前代相比,Llama 4 在设计上有了重大变化——引入了 MoE(混合专家)架构,并原生支持多模态(文本+图像)输入,不再仅仅是一个文本模型,而是一个可以”看图说话”的多模态 AI。
Llama 4 提供了 Scout 和 Maverick 两个主要版本:Scout 是轻量高效的 MoE 模型,拥有 17B 活跃参数(109B 总参数),设计用于单 GPU 部署;Maverick 是高性能 MoE 模型,拥有 132B 活跃参数,在基准测试中与 GPT-4o 和 Claude 3.5 Sonnet 直接竞争。作为开源模型,Llama 4 延续了宽松的商业使用许可,企业和开发者可以自由下载、部署和定制。
核心功能
- MoE 混合专家架构:Llama 4 Scout 总参数 109B 但每次推理仅激活 17B,Maverick 则激活 132B。MoE 架构在推理效率和模型能力之间取得了更好的平衡。
- 原生多模态:与后期拼接视觉模块不同,Llama 4 从训练开始就将图像和文本一起处理。支持图像理解、图文问答、文档分析等任务。
- 多版本按需选择:Scout 版本适合单 GPU 部署和边缘场景,Maverick 版本适合云端高性能部署。开发者可以根据硬件和性能要求灵活选择。
- 开源可商用:模型权重以 Meta 的宽松许可发布,支持商用和自定义微调。企业可以私有化部署满足数据合规要求。
- 早期融合 AI:Llama 4 采用了 “Early Fusion” 技术,在模型早期层次就将文本和视觉信息深度融合,提升了多模态理解和生成的质量。
价格
- 开源版:完全免费,需遵守 Meta 社区许可协议(允许商用,月活超 7 亿需额外授权)。可以从 Hugging Face、Meta AI 官网下载。
- 云端托管(Meta / Partner API):通过 Groq、Together AI、Replicate 等服务商按量调用,通常每百万 tokens $0.10-0.50 不等。
优缺点
- 优点:完全开源,模型权重可下载和商用,企业部署灵活;原生多模态设计使图文理解效果更好;Scout 版本的轻量化设计适合单 GPU 部署;Meta 持续投入,模型质量不断提升。
- 缺点:在中文和双语言场景下不如专门优化的中文模型;开源版本需要在自行部署和微调方面投入技术资源;Meta 对 Llama 的战略方向存在不确定性(开源 vs 闭源的政策摇摆)。
适合人群
Llama 4 最适合需要自主部署大模型的企业和开发者,特别是数据合规要求严格的金融、医疗、政府等行业。AI 研究者可以通过 Llama 4 的开源权重进行模型微调和实验。对于预算有限但需要部署私有 AI 服务的团队,Llama 4 Scout 的单 GPU 友好设计是一个实用选择。
使用技巧
- 需要单 GPU 部署时优先选择 Scout 版本,配合 4-bit 量化可以在 24GB 显存的消费级 GPU 上运行。
- 利用 Meta 的 llama-models GitHub 仓库提供的参考代码和示例,加速部署和微调过程。
- 多模态任务中,建议先让模型描述图像内容再提问,Llama 4 在”看图说事”上的表现优于直接问复杂问题。