前言

通过Docker和Docker Compose工具在使用Ubuntu操作系统的服务器上部署 LLM 应用开发平台Dify以及可以在本地跑大模型的Ollama工具,实现构建自己的AI助手、AI智能体和工作流等

工具安装

Ollama的安装与使用

访问官网Download Ollama on Linux获取下载命令

下载ollama工具到服务器

1
2
3
4
5
cd /data			#切换到业务目录
mkdir ollama #新建ollama目录
cd ollama #切换到ollama目录
curl -fsSL https://ollama.com/install.sh | sh #执行Ollama安装命令
## curl 访问网页、从互联网下载文件

(可选)使用加速镜像下载Ollama

可以先把install.sh下载下来,然后把里面的 https://github.com 替换成加速的站点

1
2
3
4
cd /data/ollama
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
sed - i 's|https://github.com|https://gh.llkk.cc/https://github.com|g' ollama_install.sh
sh ollama_install.sh

检查Ollama是否安装成功

1
2
3
4
#查看Ollama版本,显示版本号就表示安装成功
ollama -v
#查看Ollama相关信息
ollama -h

修改配置文件

1
2
3
4
5
#先备份
cd /etc/systemd/system
cp ollama.service ollama.service.bak
#修改配置文件
vi /etc/systemd/system/ollama.service
  1. 更改监听为0.0.0.0,以便能够在外部网络访问ollama服务(默认监听是127.0.0.1,只能本机访问,外部访问需要安装nginx进行代理)
1
2
3
#增加配置
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
  1. 默认情况下,ollama只会启动一个模型服务,并且并行度默认为1,也就是同时只能处理1个用户的请求,在这个用户请求完成之前,另外的用户需要等待。可以修改参数文件,设置OLLAMA_NUM_PARALLEL和OLLAMA_MAX_LOADED_MODELS这两个参数
1
2
3
4
5
#OLLAMA_NUM_PARALLEL				并行度
#OLLAMA_MAX_LOADED_MODELS 最大加载的模型数
#添加(或修改)参数:
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="OLLAMA_MAX_LOADED_MODELS=2"

运行模型

  1. 访问Ollama Search可查看运行对应模型的命令
1
2
3
#运行deepseek相关模型
ollama run deepseek-r1:8b
ollama run deepseek-r1:32b
  1. 模型服务启动后,会默认进入模型对话界面,可以直接和模型对话,使用/bye退出界面(模型服务还在运行)