本地部署大模型教程:Ollama 完整指南

📅 2026/4/25 ✍️ 小文 📖 约 1 分钟

Ollama 开源本地大模型部署工具完整教程,涵盖安装、模型下载、API 调用、WebUI 搭建等核心内容。

越来越多人想在自己电脑上跑大模型,而不是依赖云端 API。Ollama 是目前最流行的本地大模型运行工具,它让本地部署大模型变得像”下载 APP”一样简单。

什么是 Ollama?

Ollama 是一个开源的本地大模型运行工具,支持 Llama、Qwen、Mistral、Gemma 等主流开源模型。它的核心理念是”一键运行大模型”——不需要复杂的配置,一条命令就能跑起来。

支持的模型

  • Llama 4(Meta 开源)
  • Qwen 2.5(阿里通义)
  • Mistral Large(Mistral AI)
  • Gemma 3(Google)
  • DeepSeek(深度求索)
  • Phi(Microsoft)
  • 还有很多……

安装 Ollama

macOS / Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com/download 下载安装包,双击安装。

Docker(可选)

如果不想污染本地环境,可以用 Docker:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

下载和运行模型

查看可用模型

ollama.com/library 查看所有可用模型。

下载模型

以 Llama 4 为例:

ollama pull llama4

下载完成后会自动保存到本地。

运行模型

ollama run llama4

直接进入对话界面,可以开始聊天了。

指定模型版本

有些模型有多个版本,比如:

ollama pull qwen2.5:7b    # 7B 参数版本
ollama pull qwen2.5:72b   # 72B 参数版本

参数越大,模型越强,但对硬件要求也越高。一般 7B 模型 8GB 显存可以运行,72B 需要 48GB+。

API 调用

Ollama 提供 REST API,可以集成到应用中:

curl http://localhost:11434/api/generate -d '{
  "model": "llama4",
  "prompt": "为什么天空是蓝色的?",
  "stream": false
}'

返回的是 JSON 格式的生成结果。

Python 调用示例:

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama4',
    'prompt': '写一首关于春天的诗',
    'stream': False
})
print(response.json()['response'])

WebUI 搭建

命令行不够友好,可以搭一个 Web 界面:

方式一:OpenWebUI

docker run -d -p 3000:8080 -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui --restart always ghcr.io/open-webui/open-webui:main

然后访问 http://localhost:3000

方式二:Ollama Web

npm install -g ollama-web
ollama-web

硬件要求

模型参数最低显存推荐显存
7B6GB8GB
13B12GB16GB
33B24GB32GB
72B48GB64GB

纯 CPU 运行也可以,但速度会非常慢。

常见问题

Q: 模型下载失败怎么办?

A: 检查网络,也可以设置代理:

export https_proxy=http://your-proxy:port
ollama pull llama4

Q: 怎么查看已下载的模型?

ollama list

Q: 怎么删除模型?

ollama rm llama4

Q: 怎么查看模型信息?

ollama show llama4

进阶:自定义 Modelfile

如果想调整模型的参数,可以创建 Modelfile:

FROM llama4
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "你是一个helpful的AI助手"

然后创建自定义模型:

ollama create my-llama -f Modelfile
ollama run my-llama

总结

Ollama 让本地跑大模型变得极其简单。即使你不懂技术,也能轻松在本地部署各种开源大模型。

建议从 7B 模型开始尝试,比如 Qwen 2.5:7bLlama 4:7b,体验一下再说。


布忑狗收录更多 AI 工具,欢迎访问 AI工具导航

📤 分享到