当前位置：首页 > news >正文

LLM数据集汇总（不断更新）

news 2026/5/25 20:05:43

文章目录1、预训练IndustryCorpus2 30类行业分类的高质量预训练数据集2、微调Infinity Instruct3、偏好数据Infinity-Preference1、预训练IndustryCorpus2 30类行业分类的高质量预训练数据集https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2经过全流程处理后各行业数据的磁盘大小如下行业类别数据大小 (GB)行业类别数据大小 (GB)编程11.0新闻51.0生物医学61.7石油化工40.2医疗健康-心理学和中医271.7航空航天38.6旅游与地理64.0采矿8.9法律与司法238.5金融与经济145.8数学-统计156.7文学与情感105.5其他信息服务-信息安全1.8交通运输40.5消防安全-食品安全4.3科技-科学研究101.6汽车39.3水利-海洋20.2住宿-餐饮-酒店29.6计算机-通信157.8影视娱乐209.4学科教育340.9房地产-建筑105.2人工智能-机器学习7.7电力与能源68.7当前事务-政府事务-行政271.5农业、林业、畜牧业和渔业111.9体育262.5游戏37.6其他制造业47.2其他188.6总计 (GB)3276G2、微调Infinity Instruct北京智源人工智能研究院 (BAAI)[**论文]**[代码][]指令数据的质量和规模对于模型性能至关重要。最近开源模型越来越依赖包含数百万实例的微调数据集这既需要高质量也需要大规模。然而长期以来高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力从而限制了相关研究和应用。为了解决这一问题我们推出了Infinity Instruct项目旨在开发一个大规模、高质量的指令数据集。新闻[2025/12/04] 我们发布了Infinity Instruct主题的[论文]已被AAAI 2026接受。 [2025/05/13] 我们发布了7M基础数据集的核心版本7M Core它仅用1.4M条指令就达到了完整7M指令的95.7%性能。 [2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。3、偏好数据Infinity-Preference人类的偏好因任务而异。因此Infinity-Preference 试图根据Infinity Instruct 的能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。

查看全文

http://www.rkmt.cn/news/1383225.html