知医邦公开中医查体大模型:184956个Token与核心算法详解
中医AI先驱知医邦开源其ChatiSS查体大模型,涵盖舌诊、脉诊、五运六气、智能问诊、辨证论治及遣药组方全流程
背景
知医邦近日宣布,将其研发的查体智能辅助系统(ChatiSS)核心数据与算法公开。该系统基于184,956个词元(Token)、约2亿个拓扑集合计算元素构建的病证方药数据库,并利用5年约2800万健康数据进行训练。知医邦表示,此举旨在推动中医AI的行业发展,效仿特斯拉开放专利的策略,践行“人民至上、生命至上”的理念。
一、词元数据(Token分布)
ChatiSS的词元覆盖中医诊断、治疗、方药等各个维度,具体统计如下:
行话 | 舌症 | 脉症 | 运气 | 症状 | 病侯 | |||
Token | 2144 | 757 | 516 | 69 | 2802 | 2668 | ||
舌象 | 脉象 | 证素 | 证型 | 疾病 | 病证 | 治法 | ||
Token | 56 | 70 | 400 | 3718 | 5876 | 8226 | 2732 | |
药对 | 食材 | 本草 | 饮片 | |||||
Token | 1538 | 2722 | 9496 | 616 | ||||
中药 | 西药 | 保健 | 药禁 | 禁忌 | 食忌 | |||
Token | 6981 | 6209 | 226 | 7072 | 10440 | 2074 | ||
穴位 | 头针 | 耳穴 | 手穴 | 足穴 | ||||
Token | 484 | 32 | 155 | 90 | 79 | |||
推拿 | 针灸 | 艾灸 | 拔罐 | 刮痧 | 导引 | |||
Token | 270 | 5164 | 586 | 216 | 110 | 264 | ||
经方 | 药膳 | 厨医 | 外治 | 美容 | 偏方 | 效方 | 时方 | |
Token | 484 | 9363 | 20987 | 3322 | 4058 | 8038 | 33394 | 20452 |
其中“厨医”“效方”“时方”是Token量最大的三个类别,体现了知医邦对食疗与经验方的重视。
二、核心算法模型
A. 舌诊模型
基于寒热、虚实、燥湿、亏滞四个维度,结合肝、心、脾、肺、肾五行系统分析舌色与舌态。四项核心发明专利均以“数学模型”为底层逻辑:
《一种基于气血津液数学模型的看舌头的系统》
《一种舌诊寒热虚实数学模型的构建方法》
《一种用于识别舌头苔形、苔质数学模型的构建方法》
《一种基于舌诊用舌面轮廓环区域划分数学模型的识别方法》
示例公式(寒热指数):
寒热指数 = AVERAGE(SIN((1/2*S - 1/2)*π) + SIN(H*π*2) + SIN((V-1/2)*π/3))
B. 脉诊模型
核心专利:《一种基于穿戴式脉象仪的标准化脉诊方法及脉诊平台》
将中医28脉(加上大脉、平脉共30种)的文本描述转化为计算机语言,从四个维度量化:
脉位:深度、长度
脉数:频率、节律
脉形:宽度、紧张度、饱满度
脉势:流利度、力度、坡度
通过自研脉象仪采集脉图特征,与数据库匹配,并利用人机双盲校验持续优化算法。
C. 五运六气模型
公历转换规则:
若月份 = 1月,阳历年数 = 公历年数 - 1
否则,阳历年数 = 公历年数
推算逻辑(简化版):
根据天干定五运
根据地决定司天之气 → 推出在泉之气
分析气候与健康影响
选择规则:
五运“有余”:取总和最大且>4者,并列则取对应六气最大者
五运“不及”:取总和最小且<2者,并列则取对应六气最小者
六气:取气数总和最大者,并列则取对应五运最大者
注:完整模型还包含主客、郁发、胜复等概念,此处仅给出权重计算框架。
D. 智能问诊模型
1.1 根据用户填写内容拆组词,加上舌诊脉诊五运六气等记录导入词,拆组词需要在词元表“病症”页里面运算一次,完成俗话到行话的转换,得到匹配词元集合[A]
1.2 词元表“病症”页中H列[病侯]外显在身体状态的586条词元集合[G]
1.3 令集合[F]=[恶寒、发热、无汗、多汗......],m=1~20个词元分数都=1+(21-m)/1000
1.4 将集合{[F]+[A]}∩[G]=[E]=[E1、E2......、En]各词{分数[F]+[A]相加}按得分大小列出前20个,供用户选取,得集合[C]
2. 望闻问切1080条词元集合[B],取[C]∩[B]=[D]=[D1、D2......、Dn],如果集合[D]为空集(n=0),则立即结束询问
3. 在词元表“病症”页,将含有集合[D]=[D1+ D2......+ Dn]中所有词元的行,标红
4. 予以全部标红行,统计集合[B]中各词元出现的次数,排除[D1、D2......、Dn],取次数最多的词元的外显选项进行询问
4.1. 如果询问结果为“否”,按4.0.中次数下一位的词元进行询问,如果没有次数下一位的词元,则立即结束询问
4.2. 如果询问结果为“是”,就产生了新的词元[Dn+1],将此词元增加到集合[D]'=[D1、D2......、Dn、Dn+1],用增加后的集合[D]'重复3.--4.2.
4.3. 如果询问结果为“结束回答”,则立即结束询问
E. 辨证论治模型
1.1 用户填写:21字。
1.2 拆组词法:先按符号、空格进行拆词,对所得字段按右侧规则再进行一次拆组词,产生一批新词,加入匹配词元。
2 导入词:硬性定义,不参与拆组。
3 匹配计数:没有约定计数=Φ^2;否定症,阳性计数=0,阴性计数=1;其他、阳性计数=1,阴性计数=0;
4 计算词:
4.1 症候、行话 计算症候(症状/病候)、行话=∑俗话计数,
4.2 ≥1,症候(症状/病候)、行话计数=1,加入匹配词元。
4.3 计算症候(症状/病候)、行话=算法B。
4.4 ≥1,症候(症状/病候)、行话计数=1,加入匹配词元。
4.5 证素 计算证素=算法A。
4.6 ≥1,证素计数=1,加入匹配词元。
4.7 证型 计算证型=算法A。
4.8 ≥1,证型计数=1,加入匹配词元。
5 算法:
分数=(A)^{{e^[-LOG10(|n-4|+10)+LOG10(14)]}^4×e^(V/8)/4},if A≤0.01,计为A=0.01;
A=(∝必有+Φ^2)×(∝否定+Φ^2)×{[∑特征/|2×m-1|^(Φ^4)]×Φ^-1+[∑常见/|2×m-1|^(Φ^4)]×Φ^0+[∑一般/|2×m-1|^(Φ^4)]×Φ^1+Φ^4}/(2×Φ^-1)。
F. 遣药组方模型
1.1 排除词元表“组方”页BI列(处方剂量)里面为N/A的行,选取查体得分≥1,分数最高的100个方子,作为选出的方子。
1.2 计算选出的方子,每个方子中的药材占比=1/方子的药材数^0.5,统计100个方子里面各药材的药材占比之和=E,取E最大的12个药材,如果出现相同的E,取药材本身查体得分高的,作为为集合[A]=[A1、A2......A12]。
1.3 从集合[A]=[A1、A2......A12]中取药材本身查体得分高的6个药材为集合[B]=[B1、B2......B6]。
2.1. 从选出的方子中挑选出任意两个,假设为α和β,其药材组成集合[C]α和[C]β。
2.2. 将满足条件的两个方子α和β合并为一个新的方子。
2.3. 将这些合方与查体得分最高的100个方子一样,都是目标方子。
3.1. 排除词元表“配药”页BI列里面为N/A的行,选取查体得分≥1,分数最高的10组药对。
3.2. 将目标方子内含有上面10组药对的药对找出来,方子内含药对本身查体得分的平均数=各药对的自身查体得分之和/药对组数^(1/2)。
4.1. 排除词元表“配药”页BI列里面为N/A的行,挑选出药对本身查体得分≥1且其组合药材至少含有集合[B]中的6位药材任意一味且的,再取查体得分最高的1组药对,里面的药材为集合[D]=[D1、D2]or[D1、D2、D3],可能是2味药材或3味药材;
4.2. 找出治法里面带“加X”的查体得分≥1最高的2个治法,其对应药材为集合[X]=[X1、X2];
5. 用[B]去匹配目标方子,F=完全匹配[B]的药材数/(6+方子的药材数-完全匹配[B]的药材数)×方子本身查体得分^2×方子中药材本身查体得分的平均数×方子内含药对本身查体得分的平均数×2^{-[(方子的药材数-6)^2]/12},取F最大的一个方子为基础方,该基础方自身的药材组成集合[C]。
6.1. 将属于集合[D]∪[X]但不属于集合[C]的药材,取2个药材本身查体得分高的,作为加某某。
6.2. 将属于集合[C]但不属于集合[A]∪[D]∪[X]的药材,取1个药材本身查体得分低的,作为减某某;
6.3. 将集合[C]里面的药材符合十八反十九畏的就是触犯了配伍禁忌,将药材本身查体得分低的直接剔除;
6.4. 将集合[C]里面的药材与集合[D]∪[X]里面的药材逐一匹配,符合十八反十九畏的就是触犯了配伍禁忌,将集合[D]∪[X]里面的药材直接剔除:
7.AI处方用药匹配词元表“配药”页BI列里面的剂量就是AI处方,匹配不到剂量的药材自动剔除。
三、开放承诺与现有成果
知医邦宣称,为促进人类健康,愿意放弃以下权利:
专利开放
数据共享
算法公开
代码开源
食品工艺无偿传授
舌脉象仪免费发放
已上线免费/普惠产品:
知医App、汤头App、看舌头App
查体智能辅助诊疗系统PC版、知医网页版、知医邦医院小程序
即将上线:查体App(无需注册,用完即走)
曾免费赠送3000台脉象仪
知医邦医院诊疗项目零加价运营
API接入案例:
武汉城市级智慧健康服务平台“咋诊”已接入知医邦的看舌头API
汤头App国际版TakeTonic即将在硅谷上线
截图自“咋诊”
四、总结
知医邦此次公开的内容涵盖了从数据(18万+ Token)到算法(舌诊、脉诊、运气、问诊、辨证、组方)的全栈技术细节。虽然中医AI的数学化仍处于探索阶段,但这种开放姿态为行业提供了可复用的基准和讨论基础。开发者可参考其词元设计、公式框架及决策树逻辑,用于自身的中医数字化或辅助诊疗项目。
更多信息请访问知医邦官网:
AI医疗 --大健康知医邦
https://www.chimboon.com/
