手把手教程：2026年在家部署本地大模型，告别API费用！Ollama + Open WebUI 完整指南

📅 2026/5/20 ✍️ 小文 📖 约 1 分钟

从零开始教学如何在本地部署DeepSeek V4、Qwen 3等开源大模型，使用Ollama + Open WebUI搭建自己的AI助手，免费且隐私安全。

为什么你需要本地部署大模型？

2026年，调用GPT-5或Claude 4的API每天轻松花掉几十元。如果你有高频使用AI的需求——编程辅助、文档处理、长文本分析——本地部署大模型是最省钱也最安全的选择。

更重要的是，DeepSeek V4、Qwen 3-72B、Llama 4等开源模型的能力已经接近甚至超越了GPT-4时代闭源模型的水平。本地跑一个72B模型，足够覆盖95%的日常工作。

在2026年，部署大模型的门槛已经大幅降低：

好消息：量化技术（GGUF/GPTQ）让模型体积缩小到原来的1/3-1/2，性能损失不到5%。8B模型量化后仅需6GB内存。

Ollama是目前最主流的本地模型运行器。2026年它的用户量已经突破1000万，支持macOS、Windows和Linux。

# macOS/Linux
curl -fsSL https://ollama.ai/install.sh | sh

# 验证安装
ollama --version

# 推荐新手从Qwen 3-7B开始（中文能力强）
ollama run qwen3:7b

# 编程推荐 DeepSeek Coder V4
ollama run deepseek-coder-v4:14b

# 综合最强（配置够的话）
ollama run qwen3:72b

下载完成后直接进入对话界面，Ctrl+D退出。

📌 技巧：用 ollama pull 模型名 先后台下载，不自动启动对话界面，适合做批量部署。

Ollama自带的命令行界面用起来不够直观。Open WebUI提供了一个类似ChatGPT的Web界面，支持Markdown渲染、文件上传、对话历史和插件系统。

# 使用Docker一键安装
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --network=host \
  ghcr.io/open-webui/open-webui:main

启动后浏览器访问 http://localhost:3000，注册一个本地账号，就能看到一个完整的AI对话界面了。

Open WebUI支持RAG（检索增强生成），让AI能读取你的本地文档：

RAG是在不进行微调的情况下让AI理解你业务数据的最佳方式，非常适合企业本地知识库场景。

Q：我的MacBook M3 16GB能跑什么？ A：Qwen 3-7B量化版完美运行，速度约30 tokens/s。14B模型需谨慎。

Q：模型回答全是英文怎么办？ A：可以在系统提示词中加入「请始终用中文回答」。

本地部署大模型不再是极客专属。有了Ollama + Open WebUI这套组合，任何会基本命令行操作的人都能在30分钟内搭建起一个免费、离线、保护隐私的AI助手。而且随着2026年下半年Qwen 3和DeepSeek V4的更多压缩版本发布，本地AI的能力天花板还在快速上升。