【AI】云服务器（Ubuntu）/本地（Windows）GPU大模型部署（ollama+qwen2.5:7b）

notes / AI notes

字数统计: 614 | 阅读时长≈ 2 分钟

¶写在前面 / 参考博客存档

云服务器环境初步部署（Ubuntu）

¶第一步：云服务器环境初步部署

平台：AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL

环境选择：Miniconda / conda3 / 3.10(ubuntu22.04) / 11.8

¶第二步：下载Ollama（Ubuntu）

运行命令

1	curl -fsSL https://ollama.com/install.sh \| sh

¶第三步：获取和运行模型

在Models里面找到千问大模型qwen2.5 (ollama.com)

1	ollama run qwen2.5

安装的默认是qwen2.5:7b

安装模型成功并且可以直接开始对话

模型安装运行成功的效果图

本地部署（Windows+3090）

¶第一步：下载Ollama（Windows）

打开官网Ollama
选择Windows下载方式

¶第二步：获取和运行模型

在Models里面找到千问大模型qwen2.5 (ollama.com)

1	ollama run qwen2.5

安装的默认是qwen2.5:7b

安装模型成功并且可以直接开始对话

模型安装运行成功的效果图

¶第三步：api调用Ollama部署Qwen2.5:7b

Ollama的默认端口：11434端口
如果需要其他机器访问，而服务器开启了防火墙，则需要开放服务器的端口11434

¶开启防火墙端口（如果服务器未开启防火墙则跳过）

1	sudo firewall-cmd --permanent --add-port=11434/tcp

重载防火墙设置

1	sudo firewall-cmd --reload

这样就可以通过接口访问服务器提供的大模型服务了

¶api方式调用Qwen2.5:7b

Ollama部署的qwen2.5:7b是标准的Openai API格式
因此直接采用chatOpenai的调用方式即可 v

import os
from langchain.chat_models import ChatOpenAI
os.environ['OPENAI_API_KEY'] = 'none'
os.environ['OPENAI_BASE_URL'] = 'http://{服务器ip地址}:11434/v1'

# 使用qwen2-7b（实际为in4量化版本)
llm = ChatOpenAI(temperature=0, model_name='qwen2:7b')

这一步因为服务器问题，所以目前暂时无法解决
老师说还挺麻烦

¶调用测试

from langchain.chains.llm import LLMChain
from langchain_core.prompts import PromptTemplate
 
_prompt = """ 你是一个发言友好的AI助理。现在回答用户的提问：{question}。"""
 
prompt = PromptTemplate.from_template(_prompt)
chat_chain = LLMChain(llm=model, prompt=prompt, verbose=True)
q = "你好，你有什么功能？"
response = chat_chain.run(question=q,verbose=True)  # 终端用户的提问字符串
print(response)

请我喝杯咖啡吧~

支付宝

微信