尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

php本地搭建知识库实现rag遇到的各种问题解决方式

php本地搭建知识库实现rag遇到的各种问题解决方式
📅 发布时间:2026/6/18 22:58:14

1、向量化的问题,中文的话,使用尽量使用国内的嵌入模型,国外的虽然支持中文,但是还是比不上国内专门针对中文的优化

本地使用ollama 搭建的话 ,我使用的是   quentinz/bge-large-zh-v1.5:latest

 

2、不规则的pdf文件,无法使用pdf插件读取内容问题,我是php 使用 smalot/pdfparser 包的

遇到不规则pdf文件时  使用 Imagick 将pdf 文件  转为图片,再使用多模态模型,读取图片内容

多模态模型使用的是ollama里面的 qwen2.5vl:7b,识别率非常高

 

3、文件的内容主题不突出问题,比如有一份文件叫QQ飞车攻略,但是内容全篇都没有QQ飞车  攻略 这几个字,当用户问题是QQ飞车有什么攻略,向量化搜索完全匹配不上

我是先将整个文件内容 包括文件标题  扔给大模型  让大模型大概总结一下 文本内容,然后作为一个文件块进行向量化 保存

 

4、搜索结果 权重排序不理想问题,往往不相关的文件排在前面

将搜索返回的内容,扔给大模型,让大模型针对问题 和 内容进行 打分排序

 

5、用户上下文提问关联问题

让大模型根据用户的历史提问,生成一个完整的新的问题,比如用户第一次提问 介绍一下xxx系统,第二次提问 重点介绍一下财务功能模块

那么让大模型重写后的提问就变成了,重点介绍一下xxx系统的财务功能模块,这样这个问题就能命中xxx系统的文件块

 

6、计算类的问题,这个完全无解

比如用户把很多excel文件都上传知识库,但是每个excel里面的数据,结构都不同,此时用户提问  今年公司的订单数有多少

这个完全无解啊,哦尼酱

相关新闻

  • 【字节跳动】LLM大模型算法面试题:大模型 LLM的架构介绍? - 教程
  • 解码C语言指针
  • windows下Qt调用fftw库

最新新闻

  • 雀魂数据分析终极神器:3步解锁你的麻将潜能提升秘籍
  • 深入解析8位MCU电机控制SDK:ADC缓冲模式、LED与开关驱动实战
  • MetalLB v0.13到v0.14技术架构转型:从ConfigMap到CRD的现代化迁移实践
  • 052、回流焊与波峰焊基础
  • 终极免费等距图表工具:FossFLOW完全指南与一键部署方案
  • 2026江浙沪线下零基础AI培训避坑指南:从转行到高薪就业的理性选择 - 品牌报告

日新闻

  • 2026年不锈钢卷板厂家推荐排行榜:冷轧热轧/304/201不锈钢卷板,高颜值耐腐蚀源头厂家实力精选 - 企业推荐官【官方】
  • FLUX.1-dev FP8模型实战指南:24GB以下显卡高效部署方案
  • 2026佛山长途搬家价目表:跨省跨市搬家费用完整计算指南 - 从来都是英雄出少年

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号