当前位置: 首页 > news >正文

LLM数据集汇总(不断更新)

文章目录1、预训练IndustryCorpus2 30类行业分类的高质量预训练数据集2、微调Infinity Instruct3、偏好数据Infinity-Preference1、预训练IndustryCorpus2 30类行业分类的高质量预训练数据集https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2经过全流程处理后各行业数据的磁盘大小如下行业类别数据大小 (GB)行业类别数据大小 (GB)编程11.0新闻51.0生物医学61.7石油化工40.2医疗健康-心理学和中医271.7航空航天38.6旅游与地理64.0采矿8.9法律与司法238.5金融与经济145.8数学-统计156.7文学与情感105.5其他信息服务-信息安全1.8交通运输40.5消防安全-食品安全4.3科技-科学研究101.6汽车39.3水利-海洋20.2住宿-餐饮-酒店29.6计算机-通信157.8影视娱乐209.4学科教育340.9房地产-建筑105.2人工智能-机器学习7.7电力与能源68.7当前事务-政府事务-行政271.5农业、林业、畜牧业和渔业111.9体育262.5游戏37.6其他制造业47.2其他188.6总计 (GB)3276G2、微调Infinity Instruct北京智源人工智能研究院 (BAAI)[**论文]**[代码][]指令数据的质量和规模对于模型性能至关重要。最近开源模型越来越依赖包含数百万实例的微调数据集这既需要高质量也需要大规模。然而长期以来高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力从而限制了相关研究和应用。为了解决这一问题我们推出了Infinity Instruct项目旨在开发一个大规模、高质量的指令数据集。新闻[2025/12/04] 我们发布了Infinity Instruct主题的[论文]已被AAAI 2026接受。 [2025/05/13] 我们发布了7M基础数据集的核心版本7M Core它仅用1.4M条指令就达到了完整7M指令的95.7%性能。 [2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。3、偏好数据Infinity-Preference人类的偏好因任务而异。因此Infinity-Preference 试图根据Infinity Instruct 的能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。
http://www.rkmt.cn/news/1383225.html

相关文章:

  • CUTTag与CUTRUN实验如何选择ConA磁珠?BioMag Plus Concanavalin A磁珠在表观基因组研究中的应用解析
  • Sora 2终于支持AVI了:2024年首份工业级编码链路验证报告(含FFmpeg 6.2+硬件解码基准测试)
  • Java数组编程详解
  • 如何3分钟完成微博图片批量下载:终极免费自动化方案指南
  • DIY OBD II HUD:从单片机到车载显示的极简车速显示器
  • 在Node.js服务中集成Taotoken实现稳定的大模型能力调用
  • 【大模型聚合平台深度评测:阿里云百炼 vs 腾讯云 ADP,企业如何选型?】
  • 2026年分体式超声波液位计厂家排行榜:国产替代浪潮下的技术实力与市场格局深度解析 - 仪表品牌排行榜
  • Topit:专为Mac用户打造的极简窗口置顶神器,告别频繁切换的烦恼
  • 拯救混乱的组学图表:手把手教你用ComplexHeatmap拼接多组热图与注释
  • 2026年全国青少年信息素养大赛初赛真题(算法应用主题赛C++初中组初赛真题2:文末附答案和解析)
  • 通过Taotoken标准OpenAI协议实现分钟级集成现有代码
  • 终极免费音乐解锁工具:打破平台枷锁,让音乐重获自由
  • 深度学习课程学习报告week2_卷积神经网络(CNN)基础
  • 为交通大动脉装上“导航眼”:LY-3000光缆路由探测仪
  • 基于AI与MAX78000的乡村光伏能源管理系统设计与实现
  • TC5091B 高精度内置 MOSFET 锂电池保护电路
  • SC9017S 座充充电器 IC
  • 基于FTDI的PIC单片机编程器优化:速度提升1600%的ICSP协议实现
  • 移动端开发的核心技能:掌握这3个平台,搞定APP开发
  • 零信任架构下的DeepSeek安全测试辅助调用规范,NIST SP 800-218合规实操手册
  • DeepSeek代码生成评测:为什么你调用的API返回“看似正确却无法部署”的代码?——基于217次CI失败日志的根因分析
  • 为AI智能体应用选择并接入Taotoken作为统一模型供应商
  • 抖音视频无法保存到本地怎么解决?2026年6种原因+对应修复方法 - 科技大爆炸
  • 基于TESS光变曲线与深度学习的O型星物理参数预测研究
  • DeepSeek模型微调全链路解析:从数据准备、LoRA配置到推理部署的7大关键步骤
  • 【Veo 2提示词SOP白皮书】:从模糊意图到像素级输出的8步标准化工作流(附NASA级测试用例库)
  • 中山南岸声学:23 年匠心铸就汽车音响改装四大标杆 - 汽车音响改装
  • 2026实测10款热门降ai率工具(含免费降ai率工具) - 殷念写论文
  • 2026 国内四辊卷板机权威评测报告 - 安徽工业