当前位置: 首页 > news >正文

开源医疗相关数据集

英文开源数据集(类似MTSamples的医疗转录/对话/摘要)

这些数据集多为英文,适合abstractive summarization或医疗对话任务:

  • Medical Speech, Transcription, and Intent(Kaggle/Hugging Face: Hani89/medical_asr_recording_dataset) → 包含数千条医疗症状音频(如“knee pain”)及其转录文本,总时长超8小时。适合ASR转录或症状识别。
  • United-Syn-Med(Hugging Face: united-we-care/United-Syn-Med) → 英文医疗语音记录,焦点在临床对话和医学术语,转录文本可用。适合自动化转录和摘要。
  • MeQSum(Hugging Face: sumedh/MeQSum) → 1000条消费者健康问题及其摘要,专为医疗问题摘要任务设计。
  • MedReview(从Cochrane系统综述) → 8161对医疗证据总结对,适合证据摘要任务。
  • MS^2 (Multi-Document Summarization of Medical Studies)→ 超47万条医疗研究多文档摘要数据集。

这些在Hugging Face上直接加载,适合你的BioMistral微调扩展。

中文开源数据集(强烈推荐)

中文医疗开源数据集相对较少(隐私原因),但有几个高质量的,特别适合医患对话、病情识别和摘要生成:

  • Chinese-medical-dialogue-data(GitHub: Toyhom/Chinese-medical-dialogue-data;Hugging Face多个版本如BillGPT/Chinese-medical-dialogue-data) 最经典的中文医疗对话数据集,包含约79万-110万条医患对话(覆盖内科、儿科、妇产科、肿瘤科、男科、外科等6大科室),总计400万+话语。数据来源于在线医疗平台(如haodf.com),包括患者描述、医生回复,非常适合你的任务(转录摘要 + 病情识别)。许多中文医疗大模型(如HuatuoGPT)都用它微调。
  • MedDialog-CN(Hugging Face: UCSD26/medical_dialog 或类似) 中文医患对话数据集,约110万对话,持续更新。类似以上,焦点在真实临床交流。
  • shibing624/medical(Hugging Face) 综合中文医疗数据集,包含195万+条指令数据(部分来自Chinese-medical-dialogue-data + 医疗百科 + 知识图谱QA),专为医疗SFT设计。包括预训练和微调部分,非常适合直接用于你的模型。
  • Huatuo-26M / huatuo_encyclopedia_qa(Hugging Face: FreedomIntelligence系列) 中医问答数据集,超2600万条,覆盖疾病、症状、治疗等。适合中医方向的病情识别和摘要。
  • CMeEE / CBLUE数据集(中文医疗NLP基准) 包含实体识别、关系抽取等,但也可扩展到对话/摘要。GitHub: GanjinZero/awesome_Chinese_medical_NLP 有完整整理。

更多资源推荐:

  • Awesome-Chinese-Medical-NLP(GitHub: GanjinZero/awesome_Chinese_medical_NLP) → 最全面的中文医疗NLP资源列表,包括数据集、预训练模型、知识图谱等。
  • Awesome-Medical-Dataset(GitHub: openmedlab/Awesome-Medical-Dataset) → 全球医疗数据集合集,有部分中文。

1. 综合性评测基准 (The "Gold Standard")

如果你想找最权威的数据,首推CBLUE

  • 数据集名称:CBLUE (Chinese Biomedical Language Understanding Evaluation)

  • 简介: 这是中文医疗NLP领域的“标尺”,由阿里天池发布。它不是一个单一的数据集,而是一个合集,包含了多个子任务。

  • 包含内容:

    • CMeEE: 中文医学命名实体识别(找药名、病名)。

    • CMeIE: 中文医学关系抽取(判断药和病的关系)。

    • CHIP-CDN: 临床术语标准化(把口语“拉肚子”对应到标准术语“腹泻”)。

    • CHIP-CDE: 临床发现事件抽取。

    • KUAKE-QIC: 医疗搜索意图理解。

  • 适用场景: 如果你想让模型学会“理解”医学术语,而不是只会聊天,必用这个。

  • 获取方式: GitHub (CBLUE) 或 天池大赛官网。

2. 对话与问答类 (类似 mtsamples 的用途)

如果你想训练一个能像医生一样问诊、给出建议的模型,这类数据最重要。

  • 数据集名称:Huatuo-26M (华佗-26M)

  • 简介: 目前最大规模的中文医疗问答数据集之一,包含超过 2600 万条高质量的医疗问答对。

  • 来源: 整合了互联网上的在线问诊记录、医学百科、知识图谱等。

  • 适用场景:SFT (指令微调)的首选。可以直接用来把通用模型变成医疗专家。

  • 获取方式: Hugging Face (FreedomIntelligence/Huatuo-26M)。

  • 数据集名称:CMD (Chinese Medical Dialogue)

  • 简介: 包含了约 79 万条真实的医患对话

  • 特点: 涵盖儿科、外科、内科等多个科室。数据结构通常是<病人描述> - <医生回答>

  • 适用场景: 训练多轮对话能力,让模型学会医生问诊的语气。

  • 获取方式: GitHub (Toyhom/Chinese-medical-dialogue-data)。

  • 数据集名称:CMtMedQA

  • 简介: 包含中文医学问答对,规模较适中,质量较高。

3. 指令微调类 (Instruction Tuning)

这类数据已经整理成了Instruction(指令) -Input(输入) -Output(输出) 的格式,最适合你现在的train.py脚本

  • 数据集名称:DISC-MedLLM-SFT

  • 简介: 复旦大学发布的高质量SFT数据集,包含约 47 万条样本。

  • 特点: 经过了精心清洗,模拟了真实的医疗咨询场景。

  • 适用场景: 只有 3060 显卡,不想跑 2600 万条数据?跑这个 47 万条的不仅快,而且效果通常更好。

  • 获取方式: Hugging Face (Flan/DISC-MedLLM)。

  • 数据集名称:ChatMed-Consult

  • 简介: 基于 ChatGPT 生成或者是清洗后的在线问诊数据,专注于在线问诊场景。

http://www.rkmt.cn/news/112675.html

相关文章:

  • 主存编址是什么
  • Spring Boot应用开发全攻略:从零基础到企业级实战
  • 运维系列数据库系列【仅供参考】:达梦逻辑导入使用总结
  • 当AI面临伦理投诉时,AI应用架构师该怎么办?这5个解决步骤
  • LobeChat抖音短视频标题优化
  • 接口测试之文件上传
  • 互联网大厂Java求职者面试实录:严肃面试官与搞笑谢飞机的三轮问答
  • 麒麟KY10系统 RPM 安装 automake-1.16.2-1.ky10.noarch 完整指南
  • 利用一句话木马夺取目标网站的shell
  • 基于单片机的家用数字电能表
  • Rk3588鲁班猫4点亮led
  • 掌握5个关键点,搞定语音识别测试!
  • Java毕设项目:基于java的餐厅信息管理系统设计(源码+文档,讲解、调试运行,定制等)
  • Dubbo 面试必问:默认序列化框架及你知道的选择!
  • 代码重构艺术:从烂代码到优雅架构的蜕变(附设计模式实战案例)
  • LobeChat就职演讲稿生成器
  • C++静态类的实现技巧
  • win系统禁止打印功能
  • 功能接口查询结果与原始数据差别大?可能是并发的锅
  • 大型语言模型革命:从传统编程到学习型智能,彻底改变世界的力量与挑战!
  • 关于JxBrowser 里 Chrome 自带的 PDF 工具栏,能不能隐藏问题?
  • 基于Java Swing的排序算法可视化器(2)
  • LobeChat + GPU算力 高效私有化部署AI聊天系统
  • Leetcode刷题日记15(141-150)
  • Leetcode刷题日记16(151-160)
  • 2025年度最佳远控软件评选:十佳品牌出炉,国产软件居多!
  • python爬虫学习(搜索)
  • DownKyi终极指南:5步掌握B站视频批量下载技巧
  • 大雪深埋强化课划重点|保号性专题
  • 2、深入探索Bash脚本编程