推荐配置

推荐配置如下:

类型内存显存硬盘空间启动命令
base>=4GB>=3GB>=8GBpython app.py

部署

环境要求

  • Python 3.10.11
  • CUDA 11.7
  • 科学上网环境

源码部署

  1. 根据上面的环境配置配置好环境,具体教程自行 GPT;
  2. 下载 python 文件
  3. 在命令行输入命令 pip install -r requirements.txt
  4. 按照https://huggingface.co/BAAI/bge-reranker-base下载模型仓库到app.py同级目录
  5. 添加环境变量 export ACCESS_TOKEN=XXXXXX 配置 token,这里的 token 只是加一层验证,防止接口被人盗用,默认值为 ACCESS_TOKEN
  6. 执行命令 python app.py

然后等待模型下载,直到模型加载完毕为止。如果出现报错先问 GPT。

启动成功后应该会显示如下地址:

这里的 http://0.0.0.0:6006 就是连接地址。

docker 部署

  • 镜像名: registry.cn-hangzhou.aliyuncs.com/fastgpt/rerank:v0.2
  • 端口号: 6006
  • 大小:约8GB

设置安全凭证(即oneapi中的渠道密钥)

  ACCESS_TOKEN=mytoken
  

运行命令示例

  • 无需GPU环境,使用CPU运行
  docker run -d --name reranker -p 6006:6006 -e ACCESS_TOKEN=mytoken registry.cn-hangzhou.aliyuncs.com/fastgpt/rerank:v0.2
  
  • 需要CUDA 11.7环境
  docker run -d --gpus all --name reranker -p 6006:6006 -e ACCESS_TOKEN=mytoken registry.cn-hangzhou.aliyuncs.com/fastgpt/rerank:v0.2
  

docker-compose.yml示例

  version: "3"
services:
  reranker:
    image: registry.cn-hangzhou.aliyuncs.com/fastgpt/rerank:v0.2
    container_name: reranker
    # GPU运行环境,如果宿主机未安装,将deploy配置隐藏即可
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: all
            capabilities: [gpu]
    ports:
      - 6006:6006
    environment:
      - ACCESS_TOKEN=mytoken
  

接入 FastGPT

参考 ReRank模型接入,host 变量为部署的域名。