【AI】云服务器(Ubuntu)/本地(Windows)GPU大模型部署(ollama+qwen2.5:7b)


写在前面 / 参考博客存档

云服务器环境初步部署(Ubuntu)

第一步:云服务器环境初步部署

image-20241016114926282

  • 环境选择:Miniconda / conda3 / 3.10(ubuntu22.04) / 11.8

第二步:下载Ollama(Ubuntu)

  • 运行命令
1
curl -fsSL https://ollama.com/install.sh | sh

第三步:获取和运行模型

1
ollama run qwen2.5

安装的默认是qwen2.5:7b

  • 安装模型成功并且可以直接开始对话

模型安装运行成功的效果图

本地部署(Windows+3090)

第一步:下载Ollama(Windows)

  • 打开官网Ollama

  • 选择Windows下载方式

第二步:获取和运行模型

1
ollama run qwen2.5

安装的默认是qwen2.5:7b

  • 安装模型成功并且可以直接开始对话

模型安装运行成功的效果图

第三步:api调用Ollama部署Qwen2.5:7b

  • Ollama的默认端口:11434端口
  • 如果需要其他机器访问,而服务器开启了防火墙,则需要开放服务器的端口11434

开启防火墙端口(如果服务器未开启防火墙则跳过)

1
sudo firewall-cmd --permanent --add-port=11434/tcp
  • 重载防火墙设置
1
sudo firewall-cmd --reload
  • 这样就可以通过接口访问服务器提供的大模型服务了

api方式调用Qwen2.5:7b

  • Ollama部署的qwen2.5:7b是标准的Openai API格式
  • 因此直接采用chatOpenai的调用方式即可 v
1
2
3
4
5
6
7
import os
from langchain.chat_models import ChatOpenAI
os.environ['OPENAI_API_KEY'] = 'none'
os.environ['OPENAI_BASE_URL'] = 'http://{服务器ip地址}:11434/v1'

# 使用qwen2-7b(实际为in4量化版本)
llm = ChatOpenAI(temperature=0, model_name='qwen2:7b')

这一步因为服务器问题,所以目前暂时无法解决

老师说还挺麻烦

调用测试

1
2
3
4
5
6
7
8
9
10
from langchain.chains.llm import LLMChain
from langchain_core.prompts import PromptTemplate

_prompt = """ 你是一个发言友好的AI助理。现在回答用户的提问:{question}。"""

prompt = PromptTemplate.from_template(_prompt)
chat_chain = LLMChain(llm=model, prompt=prompt, verbose=True)
q = "你好,你有什么功能?"
response = chat_chain.run(question=q,verbose=True) # 终端用户的提问字符串
print(response)
  • Copyrights © 2024-2025 brocademaple
  • 访问人数: | 浏览次数:

      请我喝杯咖啡吧~

      支付宝
      微信