本地部署大模型教程:Ollama 完整指南
Ollama 开源本地大模型部署工具完整教程,涵盖安装、模型下载、API 调用、WebUI 搭建等核心内容。
越来越多人想在自己电脑上跑大模型,而不是依赖云端 API。Ollama 是目前最流行的本地大模型运行工具,它让本地部署大模型变得像”下载 APP”一样简单。
什么是 Ollama?
Ollama 是一个开源的本地大模型运行工具,支持 Llama、Qwen、Mistral、Gemma 等主流开源模型。它的核心理念是”一键运行大模型”——不需要复杂的配置,一条命令就能跑起来。
支持的模型
- Llama 4(Meta 开源)
- Qwen 2.5(阿里通义)
- Mistral Large(Mistral AI)
- Gemma 3(Google)
- DeepSeek(深度求索)
- Phi(Microsoft)
- 还有很多……
安装 Ollama
macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
去 ollama.com/download 下载安装包,双击安装。
Docker(可选)
如果不想污染本地环境,可以用 Docker:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
下载和运行模型
查看可用模型
去 ollama.com/library 查看所有可用模型。
下载模型
以 Llama 4 为例:
ollama pull llama4
下载完成后会自动保存到本地。
运行模型
ollama run llama4
直接进入对话界面,可以开始聊天了。
指定模型版本
有些模型有多个版本,比如:
ollama pull qwen2.5:7b # 7B 参数版本
ollama pull qwen2.5:72b # 72B 参数版本
参数越大,模型越强,但对硬件要求也越高。一般 7B 模型 8GB 显存可以运行,72B 需要 48GB+。
API 调用
Ollama 提供 REST API,可以集成到应用中:
curl http://localhost:11434/api/generate -d '{
"model": "llama4",
"prompt": "为什么天空是蓝色的?",
"stream": false
}'
返回的是 JSON 格式的生成结果。
Python 调用示例:
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama4',
'prompt': '写一首关于春天的诗',
'stream': False
})
print(response.json()['response'])
WebUI 搭建
命令行不够友好,可以搭一个 Web 界面:
方式一:OpenWebUI
docker run -d -p 3000:8080 -v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui --restart always ghcr.io/open-webui/open-webui:main
方式二:Ollama Web
npm install -g ollama-web
ollama-web
硬件要求
| 模型参数 | 最低显存 | 推荐显存 |
|---|---|---|
| 7B | 6GB | 8GB |
| 13B | 12GB | 16GB |
| 33B | 24GB | 32GB |
| 72B | 48GB | 64GB |
纯 CPU 运行也可以,但速度会非常慢。
常见问题
Q: 模型下载失败怎么办?
A: 检查网络,也可以设置代理:
export https_proxy=http://your-proxy:port
ollama pull llama4
Q: 怎么查看已下载的模型?
ollama list
Q: 怎么删除模型?
ollama rm llama4
Q: 怎么查看模型信息?
ollama show llama4
进阶:自定义 Modelfile
如果想调整模型的参数,可以创建 Modelfile:
FROM llama4
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "你是一个helpful的AI助手"
然后创建自定义模型:
ollama create my-llama -f Modelfile
ollama run my-llama
总结
Ollama 让本地跑大模型变得极其简单。即使你不懂技术,也能轻松在本地部署各种开源大模型。
建议从 7B 模型开始尝试,比如 Qwen 2.5:7b 或 Llama 4:7b,体验一下再说。
布忑狗收录更多 AI 工具,欢迎访问 AI工具导航