Ubuntu服务器部署Dify+Ollama

前言

通过Docker和Docker Compose工具在使用Ubuntu操作系统的服务器上部署 LLM 应用开发平台Dify以及可以在本地跑大模型的Ollama工具，实现构建自己的AI助手、AI智能体和工作流等

工具安装

Ollama的安装与使用

访问官网Download Ollama on Linux获取下载命令

下载ollama工具到服务器

cd /data			#切换到业务目录
mkdir ollama		#新建ollama目录
cd ollama			#切换到ollama目录
curl -fsSL https://ollama.com/install.sh | sh		#执行Ollama安装命令
## curl  访问网页、从互联网下载文件

（可选）使用加速镜像下载Ollama

可以先把install.sh下载下来，然后把里面的 https://github.com 替换成加速的站点

cd /data/ollama
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
sed - i 's|https://github.com|https://gh.llkk.cc/https://github.com|g' ollama_install.sh
sh ollama_install.sh

检查Ollama是否安装成功

#查看Ollama版本，显示版本号就表示安装成功
ollama -v
#查看Ollama相关信息
ollama -h

修改配置文件

#先备份
cd /etc/systemd/system
cp ollama.service ollama.service.bak
#修改配置文件
vi /etc/systemd/system/ollama.service

更改监听为0.0.0.0，以便能够在外部网络访问ollama服务（默认监听是127.0.0.1，只能本机访问，外部访问需要安装nginx进行代理）

1
2
3

#增加配置
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"

默认情况下，ollama只会启动一个模型服务，并且并行度默认为1，也就是同时只能处理1个用户的请求，在这个用户请求完成之前，另外的用户需要等待。可以修改参数文件，设置OLLAMA_NUM_PARALLEL和OLLAMA_MAX_LOADED_MODELS这两个参数

#OLLAMA_NUM_PARALLEL				并行度
#OLLAMA_MAX_LOADED_MODELS			最大加载的模型数
#添加（或修改）参数：
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="OLLAMA_MAX_LOADED_MODELS=2"

运行模型

访问Ollama Search可查看运行对应模型的命令

1
2
3

#运行deepseek相关模型
ollama run deepseek-r1:8b
ollama run deepseek-r1:32b

模型服务启动后，会默认进入模型对话界面，可以直接和模型对话，使用/bye退出界面（模型服务还在运行）