当前位置: 首页 > news >正文

xinference推理embedding等小模型

  embedding、rerank模型不少,需要一个框架来集中管理,选用了xinference,使用简单。采取容器化部署:

1、镜像下载:原始模型下载慢,采用渡渡鸟,下载

2、容器运行:

docker run -itd --name xinference --restart=always --name=xinference \
-v /home/app/models:/root/.xinference/cache/ \ # 把本地模型映射到容器,不用再从魔塔等处下载。如果本地没有,则从魔塔下载,并在此目录做链接指向容器内的缓存目录下
-v /home/app/xinference:/opt/xinference -e XINFERENCE_ENV_HOME_PATH=/opt/xinference \ # 指定inference的主目录,暂时未明白用途
-e XINFERENCE_MODEL_SRC=modelscope \ # 指定模型的默认下载位置为魔塔,下载后的模型会保存在容器的~/.cache/modelscope/hub/AI-ModelScope目录
-e HTTP_PROXY=http://192.168.152.249:3128 -e HTTPS_PROXY=http://192.168.152.249:3128 -e NO_PROXY=192.0.0.1/8,localhost,127.0.0.1 \ # 如果在内网需要下载模型。。。
-p 9997:9997 \
--gpus all \ # 使用所有的gpu
swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/xprobe/xinference:v1.6.1 \ # 来自渡渡鸟的镜像
xinference-local -H 0.0.0.0 \
--auth-config /opt/xinference/auth.json #启用鉴权,避免ui配置界面裸奔

  鉴权信息配置文件:

# auth.json
{"auth_config": {"algorithm": "HS256","secret_key": "09d25e094faa6ca2556c818166b7a9563b93f7099ff6fbf4caa6cf63b88e8d3e7","token_expire_in_minutes": 30},"user_config": [{"username": "admin","password": "1qaz2wsx121","permissions": ["admin"],"api_keys": ["sk-72tkvudyGLPMi","sk-Z0TLIY4gt9w11"]},{"username": "test","password": "1qaz2wsx121","permissions": ["models:list","models:read"],"api_keys": ["sk-35tkasdyGLYMy","sk-ALTbg16ut981w"]}]
}

3、模型加载:容器启动后到http://ip:9997下进行配置,启动需要的模型,如无特殊要求,直接点击小火箭。

http://www.rkmt.cn/news/14011.html

相关文章:

  • day15-项目上线
  • Docker入门 - 实践
  • react useCallback Hook详解
  • 实用指南:小米17手机的上市公司供应商
  • cloudfared 内网穿透经过docker方式遇到的问题
  • CDN + WAF + CLB + Higress 架构下的 TLS 加解密详细解析(适用阿里云)
  • CF407E k-d-sequence 题目分析(0929模拟赛最后一题)
  • vue3踩坑:静态dom无法初始化渲染 - 父组件props与侦听器的交互
  • Mysql DBA学习笔记(客户端常用工具) - 教程
  • MATLAB 中 dsp.FFT 系统对象:从原理到实践的完整指南
  • C# Devexpress GridControl实现全选功能(转载,记录)
  • Nordic发布用于nRF54L系列的nRF Connect SDK裸机选项
  • 微软SSO集成中的顺序用户ID身份验证绕过漏洞剖析
  • shell脚本动态域名解析阿里云
  • 对称加密和非对称加密原理对比
  • 痞子衡嵌入式:恩智浦i.MX RT1xxx系列MCU启动那些事(11.B)- FlexSPI NOR连接方式大全(RT1180)
  • 20250929周一日记
  • 实用指南:梦回童年,将JSNES 游戏模拟器移植到 HarmonyOS 移植指南
  • 单键触控感应芯片 电容是触控IC VKD233HS -永嘉微VINKA 原厂
  • 读者-写者问题
  • 实现邮件发送
  • LuatOS赋能Air780EPM:FTP通信开发教程正式上线!
  • DM40万用表为何全网爆火?!它有哪些与众不同?DM40万用表比肩千元级表,让您轻松实现专业级测量自由!
  • 【论术】t-design tree组件判断点击了角标还是label
  • Redis基础篇——集成客户端 - 实践
  • k8s下部署kuboard
  • [Reprint] - Install Arm GNU Toolchain on Ubuntu 22.04
  • 1_二分查找
  • redis使用lua脚本迁移数据到集群版redis失败怎么解决
  • 详细介绍:医疗编程AI技能树与培训技能树报告(国内外一流大学医疗AI相关专业分析2025版,下)