当前位置：首页 > news >正文

开源医疗相关数据集

news 2026/6/11 21:33:12

英文开源数据集（类似MTSamples的医疗转录/对话/摘要）

这些数据集多为英文，适合abstractive summarization或医疗对话任务：

Medical Speech, Transcription, and Intent（Kaggle/Hugging Face: Hani89/medical_asr_recording_dataset） → 包含数千条医疗症状音频（如“knee pain”）及其转录文本，总时长超8小时。适合ASR转录或症状识别。
United-Syn-Med（Hugging Face: united-we-care/United-Syn-Med） → 英文医疗语音记录，焦点在临床对话和医学术语，转录文本可用。适合自动化转录和摘要。
MeQSum（Hugging Face: sumedh/MeQSum） → 1000条消费者健康问题及其摘要，专为医疗问题摘要任务设计。
MedReview（从Cochrane系统综述） → 8161对医疗证据总结对，适合证据摘要任务。
MS^2 (Multi-Document Summarization of Medical Studies)→ 超47万条医疗研究多文档摘要数据集。

这些在Hugging Face上直接加载，适合你的BioMistral微调扩展。

中文开源数据集（强烈推荐）

中文医疗开源数据集相对较少（隐私原因），但有几个高质量的，特别适合医患对话、病情识别和摘要生成：

Chinese-medical-dialogue-data（GitHub: Toyhom/Chinese-medical-dialogue-data；Hugging Face多个版本如BillGPT/Chinese-medical-dialogue-data）最经典的中文医疗对话数据集，包含约79万-110万条医患对话（覆盖内科、儿科、妇产科、肿瘤科、男科、外科等6大科室），总计400万+话语。数据来源于在线医疗平台（如haodf.com），包括患者描述、医生回复，非常适合你的任务（转录摘要 + 病情识别）。许多中文医疗大模型（如HuatuoGPT）都用它微调。
MedDialog-CN（Hugging Face: UCSD26/medical_dialog 或类似）中文医患对话数据集，约110万对话，持续更新。类似以上，焦点在真实临床交流。
shibing624/medical（Hugging Face）综合中文医疗数据集，包含195万+条指令数据（部分来自Chinese-medical-dialogue-data + 医疗百科 + 知识图谱QA），专为医疗SFT设计。包括预训练和微调部分，非常适合直接用于你的模型。
Huatuo-26M / huatuo_encyclopedia_qa（Hugging Face: FreedomIntelligence系列）中医问答数据集，超2600万条，覆盖疾病、症状、治疗等。适合中医方向的病情识别和摘要。
CMeEE / CBLUE数据集（中文医疗NLP基准）包含实体识别、关系抽取等，但也可扩展到对话/摘要。GitHub: GanjinZero/awesome_Chinese_medical_NLP 有完整整理。

更多资源推荐：

Awesome-Chinese-Medical-NLP（GitHub: GanjinZero/awesome_Chinese_medical_NLP） → 最全面的中文医疗NLP资源列表，包括数据集、预训练模型、知识图谱等。
Awesome-Medical-Dataset（GitHub: openmedlab/Awesome-Medical-Dataset） → 全球医疗数据集合集，有部分中文。

1. 综合性评测基准 (The "Gold Standard")

如果你想找最权威的数据，首推CBLUE。

数据集名称:CBLUE (Chinese Biomedical Language Understanding Evaluation)
简介: 这是中文医疗NLP领域的“标尺”，由阿里天池发布。它不是一个单一的数据集，而是一个合集，包含了多个子任务。
包含内容:
- CMeEE: 中文医学命名实体识别（找药名、病名）。
- CMeIE: 中文医学关系抽取（判断药和病的关系）。
- CHIP-CDN: 临床术语标准化（把口语“拉肚子”对应到标准术语“腹泻”）。
- CHIP-CDE: 临床发现事件抽取。
- KUAKE-QIC: 医疗搜索意图理解。
适用场景: 如果你想让模型学会“理解”医学术语，而不是只会聊天，必用这个。
获取方式: GitHub (CBLUE) 或天池大赛官网。

2. 对话与问答类 (类似 mtsamples 的用途)

如果你想训练一个能像医生一样问诊、给出建议的模型，这类数据最重要。

数据集名称:Huatuo-26M (华佗-26M)
简介: 目前最大规模的中文医疗问答数据集之一，包含超过 2600 万条高质量的医疗问答对。
来源: 整合了互联网上的在线问诊记录、医学百科、知识图谱等。
适用场景:SFT (指令微调)的首选。可以直接用来把通用模型变成医疗专家。
获取方式: Hugging Face (FreedomIntelligence/Huatuo-26M)。
数据集名称:CMD (Chinese Medical Dialogue)
简介: 包含了约 79 万条真实的医患对话。
特点: 涵盖儿科、外科、内科等多个科室。数据结构通常是<病人描述> - <医生回答>。
适用场景: 训练多轮对话能力，让模型学会医生问诊的语气。
获取方式: GitHub (Toyhom/Chinese-medical-dialogue-data)。
数据集名称:CMtMedQA
简介: 包含中文医学问答对，规模较适中，质量较高。

3. 指令微调类 (Instruction Tuning)

这类数据已经整理成了Instruction(指令) -Input(输入) -Output(输出) 的格式，最适合你现在的train.py脚本。

数据集名称:DISC-MedLLM-SFT
简介: 复旦大学发布的高质量SFT数据集，包含约 47 万条样本。
特点: 经过了精心清洗，模拟了真实的医疗咨询场景。
适用场景: 只有 3060 显卡，不想跑 2600 万条数据？跑这个 47 万条的不仅快，而且效果通常更好。
获取方式: Hugging Face (Flan/DISC-MedLLM)。
数据集名称:ChatMed-Consult
简介: 基于 ChatGPT 生成或者是清洗后的在线问诊数据，专注于在线问诊场景。

http://www.rkmt.cn/news/112675.html

相关文章：

主存编址是什么

Spring Boot应用开发全攻略：从零基础到企业级实战

运维系列数据库系列【仅供参考】：达梦逻辑导入使用总结

当AI面临伦理投诉时，AI应用架构师该怎么办？这5个解决步骤

LobeChat抖音短视频标题优化

接口测试之文件上传

互联网大厂Java求职者面试实录：严肃面试官与搞笑谢飞机的三轮问答

麒麟KY10系统 RPM 安装 automake-1.16.2-1.ky10.noarch 完整指南

利用一句话木马夺取目标网站的shell

基于单片机的家用数字电能表

Rk3588鲁班猫4点亮led

掌握5个关键点，搞定语音识别测试！

Java毕设项目：基于java的餐厅信息管理系统设计(源码+文档，讲解、调试运行，定制等)

Dubbo 面试必问：默认序列化框架及你知道的选择！

代码重构艺术：从烂代码到优雅架构的蜕变（附设计模式实战案例）

LobeChat就职演讲稿生成器

C++静态类的实现技巧

win系统禁止打印功能

功能接口查询结果与原始数据差别大？可能是并发的锅

大型语言模型革命：从传统编程到学习型智能，彻底改变世界的力量与挑战！

关于JxBrowser 里 Chrome 自带的 PDF 工具栏，能不能隐藏问题？

基于Java Swing的排序算法可视化器（2）

LobeChat + GPU算力高效私有化部署AI聊天系统

Leetcode刷题日记15（141-150）

Leetcode刷题日记16（151-160）

2025年度最佳远控软件评选：十佳品牌出炉，国产软件居多！

python爬虫学习（搜索）

DownKyi终极指南：5步掌握B站视频批量下载技巧

大雪深埋强化课划重点｜保号性专题

2、深入探索Bash脚本编程