要点
ChatMDV支持用户通过自然语言,基于生物数据集生成交互式可视化结果。
该系统融合大语言模型与MDV图形平台,简化数据探索流程。
其支持可复现性、可适配性与FAIR数据规范,适用于广泛的用户群体与应用场景。
stephen.taylor@well.ox.ac.uk
#自然语言交互界面 #数据可视化 #生物信息学 #大语言模型 #FAIR原则
背景
单细胞、空间组学、成像与基因组技术快速发展,需要功能完善的分析与可视化平台处理复杂生物数据。多维查看器(MDV)等工具提供了全面的数据探索界面,但生成可视化结果往往需要高阶计算能力与手动配置,限制了多数用户的使用。
方法
ChatMDV的设计
图1 ChatMDV管线的系统架构
ChatMDV包含3大核心模块:数据与图表规划代理、检索增强生成(RAG)管线、代码生成链。数据与图表规划代理模块负责解读用户提示词、识别对应数据集组分、根据数据集与问题类型选择最适配的可视化图表类型;该代理还利用对话历史,基于先前交互对查询做上下文补全,并可自主调用Python交互式解释器(REPL)执行代码。推荐的图表类型与经上下文补全的用户提示词将被传送至RAG管线模块。该模块从预构建的代码模板库中,检索出与查询语义最相关的5套基于MDV Python应用程序接口(API)生成的代码模板,模板存储于向量数据库中。随后,5套最相关模板、识别出的数据集组分、推荐图表类型与用户的上下文查询共同作为上下文输入代码生成链模块。该模块合成并执行生成的Python脚本,最终结果代码与对应视图将被返回并在MDV界面中渲染,同时输出可执行代码与可视化结果,完成用户查询响应。
多维查看器用户界面与ChatMDV
图2 多维查看器(MDV)用户界面与ChatMDV交互流程
A. MDV项目的着陆页,展示多幅图表,附带下拉菜单列出可浏览的视图;ChatMDV图标位于页面中,点击可启动交互会话。
B1. 点击ChatMDV图标后弹出聊天窗口,支持折叠侧边栏与独立弹窗模式;初始消息提示用户输入问题,同时动态生成示例提问,并展示数据集信息(如列名)。
B2. 用户可提交自然语言查询;对话历史会被保留,新建对话按钮可开启全新会话;ChatMDV输出核验摘要与相关信息,帮助用户判断输出的准确性。
B3. 生成的Python代码附带大语言模型生成的图表选型说明与解读思路要点;同时标注所用Python代码模板的文件路径,提升可解释性;进度条显示查询执行状态,并实时反馈ChatMDV的推理过程;滚动页面后可看到视图按钮;侧边栏可查看历史对话。
C. 点击新视图按钮后会展示生成的可视化结果;描述性视图名称与图表标题辅助解读,为用户提供额外信息;MDV的点击式界面支持交互式图表编辑,为用户提供更高的灵活度。
评估与案例研究
评估方法
图3 ChatMDV评估策略、评估示例与复杂度评分赋值示例
A. 采用3套不同的单细胞RNA测序数据集评估ChatMDV,验证其通用性与广泛适用性;针对每个数据集,整理10道独特的自然语言问题,每道问题通过自动化Python评估测试脚本重复提交10次;生成的可视化结果在同一MDV项目中产出,并进行质量评估与打分。
B. 提交给ChatMDV的示例问题,附带代表性可视化输出与对应的定性评估等级。
C. 对应B组示例问题的复杂度分析与复杂度评分赋值示例。
结果
本文提出与MDV集成的自然语言交互界面ChatMDV,用户可通过自然语言指令生成高质量交互式可视化结果与分析内容。ChatMDV采用检索增强生成(RAG)管线结合大语言模型(LLM),将用户查询转化为可执行、可复现的Python代码与交互式输出。这一对话层支持不同生物领域的探索性与定向分析。本文采用3套复杂度递增的数据集验证ChatMDV的功能:外周血单核细胞3K(PBMC3K)单细胞RNA测序数据集、人类细胞图谱中的肺癌图谱单细胞测序数据集,以及TAURUS纵向研究单细胞测序数据集。在所有用例中,ChatMDV均可通过简单的自然语言查询生成高质量、可复现的可视化结果,数据集可视化的语义成功率可达79%~97%。
ChatMDV性能评估
表1 不同数据集下ChatMDV的性能汇总
执行成功率对应评分2~5分,语义成功率对应评分4~5分,完美成功率对应评分5分。
图4 ChatMDV评估结果
展示各数据集的评估结果汇总;纵轴右侧为评估问题,左侧为对应复杂度评分;每道问题通过自动化评估脚本运行10次,输出结果按等级标注,从「5级(完美视图)」到「1级(空视图或未生成视图)」;评估结果条形图旁标注复杂度评分,最复杂问题赋值为7,最简单为1。
结论
ChatMDV打通了自然语言处理与生物信息学可视化之间的壁垒,降低了技术门槛,提升了可复现性,支持更具包容性的科学探索。其模块化设计与对FAIR(可查找、可访问、可互操作、可复用)原则的遵循,使其成为可扩展、适配性强的框架,可加速生物数据分析流程。
详细总结
思维导图
核心量化评估结果
参考
Gigascience. 2026 Jun 19:giag073. doi: 10.1093/gigascience/giag073.
ChatMDV: Reducing Technical Barriers in Bioinformatics Analysis using Large Language Models
260619ChatMDV.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。