尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

xinference推理embedding等小模型

xinference推理embedding等小模型
📅 发布时间:2026/6/21 21:35:05
使用容器方式的xinference管理小模型,带鉴权、带本地模型加载

  embedding、rerank模型不少,需要一个框架来集中管理,选用了xinference,使用简单。采取容器化部署:

1、镜像下载:原始模型下载慢,采用渡渡鸟,下载

2、容器运行:

docker run -itd --name xinference --restart=always --name=xinference \
-v /home/app/models:/root/.xinference/cache/ \ # 把本地模型映射到容器,不用再从魔塔等处下载。如果本地没有,则从魔塔下载,并在此目录做链接指向容器内的缓存目录下
-v /home/app/xinference:/opt/xinference -e XINFERENCE_ENV_HOME_PATH=/opt/xinference \ # 指定inference的主目录,暂时未明白用途
-e XINFERENCE_MODEL_SRC=modelscope \ # 指定模型的默认下载位置为魔塔,下载后的模型会保存在容器的~/.cache/modelscope/hub/AI-ModelScope目录
-e HTTP_PROXY=http://192.168.152.249:3128 -e HTTPS_PROXY=http://192.168.152.249:3128 -e NO_PROXY=192.0.0.1/8,localhost,127.0.0.1 \ # 如果在内网需要下载模型。。。
-p 9997:9997 \
--gpus all \ # 使用所有的gpu
swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/xprobe/xinference:v1.6.1 \ # 来自渡渡鸟的镜像
xinference-local -H 0.0.0.0 \
--auth-config /opt/xinference/auth.json #启用鉴权,避免ui配置界面裸奔

  鉴权信息配置文件:

# auth.json
{"auth_config": {"algorithm": "HS256","secret_key": "09d25e094faa6ca2556c818166b7a9563b93f7099ff6fbf4caa6cf63b88e8d3e7","token_expire_in_minutes": 30},"user_config": [{"username": "admin","password": "1qaz2wsx121","permissions": ["admin"],"api_keys": ["sk-72tkvudyGLPMi","sk-Z0TLIY4gt9w11"]},{"username": "test","password": "1qaz2wsx121","permissions": ["models:list","models:read"],"api_keys": ["sk-35tkasdyGLYMy","sk-ALTbg16ut981w"]}]
}

3、模型加载:容器启动后到http://ip:9997下进行配置,启动需要的模型,如无特殊要求,直接点击小火箭。

相关新闻

  • day15-项目上线
  • Docker入门 - 实践
  • react useCallback Hook详解

最新新闻

  • Web安全实战:从SQL注入到WAF绕过,手把手教你靶场攻防
  • [智能体-487]:文明四阶演进脉络:地球碳基文明→数字世界→硅基文明→星际文明
  • 2026年 高达空间节能送风系统推荐榜:高效节能与智能气流调控的全景解析及选购指南 - 品牌发掘
  • 仙桃音响改装难题终结者:音改坊汽车音响旗舰店3大核心优势揭秘,问界音响改装/问界原车音响升级,音响改装门店口碑推荐 - 音响改装门店分享
  • 永康黄金回收报价单位有猫腻吗?克和钱别换算错/金银金包银黄金回收/ 文娟珠宝黄金回收/老金黄金回收 - 回收测评
  • 从单点漏洞到批量挖掘:构建自动化RCE漏洞扫描体系实战

日新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号