🏷️ 多模态
共 12 个相关内容
🧭 导航
Gemini 2.0
Google 多模态旗舰模型
Gemini
Gemini 是 Google 推出的多模态 AI 大模型,原生支持文本、图片、音频、视频理解与生成。Gemini 2.0 系列在多项测试中领先,免费用户即可使用强大功能。
GPT-4o
OpenAI 多模态大模型
Llama 4
Meta 开源大语言模型
Step-2
Step-2是阶跃星辰(StepFun)推出的国产多模态大模型,支持文本、图像、视频理解,在中文理解和多模态能力上表现突出。
Grok-3
xAI 最新发布的旗舰大模型,在推理、编程和数学任务上性能领先,支持超长上下文和多模态理解。
Pixtral
Pixtral 是 Mistral AI 推出的多模态视觉语言模型,能够理解和分析图像、图表、文档等内容,具备强大的多模态推理能力。
MiniMax
MiniMax 是国产大模型领军企业,abab 系列模型在长文本、多模态与语音合成方面表现卓越,旗下海螺 AI 产品深受好评。
SenseChat (商量)
商汤科技 SenseChat(商量)多模态大模型,支持文本、图像、视频理解与生成,在视觉识别领域拥有深厚积累。
讯飞星火 (Spark AI)
讯飞星火是科大讯飞推出的国产大模型,在中文理解、文本生成、多模态领域表现突出,已深度融入教育、办公、医疗等行业场景。