尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Plant Com | 一种新的多源数据(基因组、表型和跨环境)融合的基因组预测框架-GPS

Plant Com | 一种新的多源数据(基因组、表型和跨环境)融合的基因组预测框架-GPS
📅 发布时间:2026/6/20 4:54:14

基因组选择(GS)和表型选择(PS)被广泛用于加速植物育种。然而,在处理处理复杂性状时,这两种选择方法的准确性、稳健性和可转移性尚未得到充分探索。近日,南京农业大学丁艳锋团队在Plant Communications发表题为GPS: Harnessing data fusion strategies to improve the accuracy of machine learning-based genomic and phenotypic selection的研究论文。在这项研究中,作者通过对比三种不同的融合策略(数据融合、特征融合和结果融合)整合基因组和表型数据的预测性能,引入了一种多源数据融合框架(Genomic and Phenotypic Selection,GPS)。该框架突破了性状预测的预测准确性、稳健性和可转移性的界限,为应对气候变化下的粮食安全挑战提供关键技术支撑。







研究方法

研究选取了五类机器学习模型(RF、Lasso、SVM、XGBoost和LightGBM)和一种前沿深度学习方法(DNNGP),以及四种基因组选择模型(GBLUP、BayesB、MTGBLUP和MAK)作为基准,设计了三种融合策略:数据融合、特征融合和结果融合。此外,本研究创新性地提出了一种基于遗传力和表型相关性的快速权重分配方法FastW,用于优化 GS 和表型选择 PS 的预测结果融合。三种融合策略基于玉米、大豆、水稻和小麦的大规模数据集,随机选取3个农艺性状进行预测,并按8:1:1划分训练集、验证集(用于DL模型)和测试集。模型精度通过预测值与实测值的Pearson相关系数评估。最后,选出最优融合策略并对其进行敏感性分析(样本量、SNP密度、表型数量、性状相关度对融合策略的影响)和迁移性分析(融合策略在跨年份、跨地点、跨环境预测中的有效性)。

图1 三种融合策略的技术路线图。

(A)数据融合。(B)特征融合。(C)结果融合。



主要结果

(1)数据融合比特征融合和结果融合策略取得了最佳的精度。与最佳 GS 模型 (LightGBM) 相比,性能最佳的数据融合模型 (Lasso_D) 将选择准确率提高了 53.4%,与最佳 PS 模型 (Lasso) 相比提高了 18.7%;与多性状模型相比准确率也大幅提升,比MAK模型平均准确率提升44.4%,比MTGBLUP模型平均准确率提升36.5%

图2 不同融合策略的准确性比较。

(A) 三种融合策略的预测精度比较。(B)数据融合策略与GS和PS模型预测精度的比较。



(2) 在Wheat2000数据集上的敏感性测试表明:当样本量从1800降至200时,Lasso_D对三个目标性状(TW、GP、GH)的预测准确率下降26.5%-32.4%。但Lasso_D在小样本(n=200)时,对TW的预测准确率比其他模型高3.5%-50.9%。同时,Lasso_D表现出卓越的稳健性,提高SNP筛选严格度(p值从0.1降至1e-5)对其准确率无显著。此外,该模型的准确率随着辅助性状数量及其与目标性状的相关性强度的提高而提高,进一步凸显了其对复杂性状预测的适应性。

图3 不同方案下的模型敏感性分析。

(A)样本量对预测精度的影响。(B)SNP质量对预测准确性的影响。(C)表型数量对预测准确性的影响。(D)目标性状和辅助性状之间的相关性对预测准确性的影响。



(3)数据融合模型通过创新的“排除测试环境的多环境训练策略”(ETE),在保持预测精度的同时显著提升了模型泛化能力。在单一维度环境变化(跨年份、跨地点)预测中,ETE策略使准确率仅波动1.2-2.0%;在多维度环境变化(年份+地点组合)预测中,ETE策略整合了更全面的环境数据,模型精度损失降至 0.3%;同样,在极端环境差异中的准确率仍保持<5%的精度波动。

图4 不同环境下的模型预测精度。

(A) 1260份大豆样品在不同环境中的含油量分布。(B)大豆数据集中七个性状的皮尔逊相关系数。(C)跨年份含油率预测结果。(D) 跨地点含油率预测结果。(E)跨环境含油率预测结果。



(4)FastW为多源数据融合提供了高效、可靠的权重分配解决方案,对提高复杂性状预测的效率和准确性具有重要的实践价值。FastW通过直接基于遗传力和表型相关性的公式化计算,效率相比于DEoptim显著提升(计算时间约为DEoptim三分之一),完全避免了传统DEoptim算法的迭代优化过程;其次,FastW准确性得到充分验证,在玉米、大豆、水稻和小麦四大作物数据集中的测试表明,FastW与DEoptim的权重分配结果高度一致,相关系数达到0.77-0.99;而且,其适用范围广泛,尤其适用于大规模基因组预测场景。



展望

本研究通过开发GPS数据融合框架,系统性地整合基因组学与表型学数据,显著提升了机器学习在作物育种中的预测准确性、稳健性和跨环境迁移性,为解决全球粮食安全挑战提供了重要的技术支撑。该研究不仅验证了数据融合策略在复杂性状预测中的优越性,还揭示了样本规模、SNP密度、表型相关性等关键影响因素对模型性能的调控机制,这些发现为优化育种数据采集和分析策略提供了理论依据。特别是在小样本条件下,Lasso_D模型仍能保持高精度预测,为资源有限的育种项目提供了实用工具。此外,多环境数据融合策略可将跨环境预测精度损失控制在0.3%以内,突破了传统GS模型受基因型-环境互作限制的瓶颈,为培育广适应性品种奠定了基础。

原文链接:

https://doi.org/10.1016/j.xplc.2025.101416

添加小编微信,拉您进入生信AI育种群交流。

本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/19165970。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

相关新闻

  • 深入解析:UNIX下C语言编程与实践3-Vi 编辑器从入门到精通:快捷键使用与高效编辑技巧
  • CF1896F
  • 【大数据】水质数据可视化分析实用的系统 计算机工程 Hadoop+Spark环境配置 数据科学与大信息技术 附源码+文档+讲解

最新新闻

  • 合肥口碑最好的中专选哪家?综合实力优选合肥理工学校! - 教育为先
  • 大众app抓包分析(cip)
  • Python 潮流周刊#155:Python 3.14 垃圾回收风波
  • 如何在5分钟内免费解锁Microsoft 365完整功能:终极激活指南
  • Wireshark中HTTPS证书分析与导出:从原理到实战的完整指南
  • 2026年北京应急电力设备、发电机、发电车租赁服务商精选:运力稳定与服务合规兼具的用电保障选择指南 - 海棠依旧大

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号