尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking
📅 发布时间:2026/6/19 12:15:08

3 多语言数据集生成(Multilingual Dataset Generation)方法

一、核心目标

  构建可扩展、高效的自动化流程,生成高质量多语言事实核查数据集,支持英语、西班牙语、德语及低资源语言,包含 “支持(Supports)”“反驳(Refutes)”“信息不足(Not-info)” 三类声明 - 来源对,最终产出经 5 轮迭代优化的合成数据集。

二、具体流程(4 个核心组件 + 迭代优化)

1. 知识句子创建(Knowledge Sentences Creation)- 数据来源准备

(1)数据源选择

  • 采用 Wikipedia 作为事实知识来源,使用对应语言的特定版本 dump 文件:

    • 西班牙语、德语:2024 年 4 月版(20240401)

    • 英语:2024 年 8 月版(20240820)

  • 工具:通过wikitextparser库解析 Wikipedia 数据

(2)句子提取规则

  为每个 Wikipedia 条目生成 8 条知识句子,提升数据多样性:

  • 类型 1:从页面中随机抽取 5 条句子

  • 类型 2:从摘要部分抽取 3 条句子(首句 + 1 条随机句 + 尾句)

(3)刻意保留的局限性

  自动检索的来源可能存在不完整、格式错误或上下文不足的问题,此举旨在模拟真实场景中声明常有的模糊性与不完整性。

2. 声明生成(Claim Generation)- 核心内容生成

(1)模型选择

  采用Mistral-7B-Instruct-v0.3,核心依据是其在研究阶段具备较强的多语言处理能力。

(2)声明类别与生成要求

  • 目标类别:生成 3 类声明,分别对应标签supports(支持)、refutes(反驳)、not-info(信息不足)

  • 特殊要求:为增强模型对对比案例的敏感度,指令模型在声明中融入比较级 / 最高级形容词(如 larger、more、highest 等),助力模型学习来源 - 声明推理逻辑

  • 数据规模:随机选取 30,000 个 Wikipedia 条目(对应 240,000 条知识句子)作为生成基础

(3)提示词(Prompt)设计

  • 核心约束:声明需简洁(<30 词)、客观、自包含(不提及原始来源句子)、仅基于提供的知识句子生成,不添加额外信息或主观判断

  • 分类提示词差异:

    • supports:生成与来源句子事实一致的声明(示例见表 3)

    • refutes:生成与来源句子事实矛盾的伪造声明(示例见附录 A.2 表 13)

    • not-info:生成无法通过来源句子验证的声明(示例见附录 A.2 表 14)

3. 声明过滤(Claim Filtering)- 质量筛选

  采用 “LLM 评估 + MNLI 验证” 双重过滤机制,最小化人工干预,筛选高质量声明:

(1)LLM 过滤(同声明生成模型 Mistral-7B)

  • 评估维度(1-5 分制):

    • 自包含性(self-contained):声明是否无需额外上下文即可理解

    • 支持度(support):声明与来源句子的匹配程度

    • 客观性(objective):声明是否无主观偏见

    • 整体质量(quality):综合评估声明可用性

  • 类别分类:将声明分为 C0(与来源矛盾)、C1(与来源一致)、C2(无法通过来源验证)

  • 过滤规则:仅保留 “类别与目标标签一致”(C0→refutes、C1→supports、C2→not-info)且 “质量 + 自包含性得分>3” 的声明

(2)MNLI 过滤(跨语言自然语言推理验证)

  • 模型选择:mDeBERTav3-base-xnli-multilingual-nli-2mil7(经 XNLI 和 multilingual-NLI-26lang 数据集微调)

  • 任务转化:将知识句子作为 “前提(premise)”,生成的声明作为 “假设(hypothesis)”

  • 类别映射:

    • entailment(蕴含)→ supports

    • contradiction(矛盾)→ refutes

    • neutral(中立)→ not-info

  • 过滤规则:剔除模型预测类别与目标标签不一致的声明,确保语义一致性

4. 声明评估(Claim Evaluation)- 质量校验

(1)自动评估

  • 核心指标:通过 BLEU-4、ROUGE-L、METEOR 三种指标,衡量声明与来源句子的词汇相似度,验证语义对齐程度

  • 输出:生成两类数据集

    • 无 MNLI 过滤(no_mnli_filtering):380 万条实例(仅经 LLM 过滤)

    • 有 MNLI 过滤(mnli_filtering):220 万条实例(经 LLM+MNLI 双重过滤,即最终核心数据集 MultiSynFact)

(2)人工评估

  • 抽样规则:对每个类别随机抽取 10 条声明,由 2 名作者进行打分

  • 评估维度(1-5 分制):

    • 整体质量:声明的连贯性与信息量

    • 语法正确性:语言表达无语法错误

    • 语义关系:声明与来源句子的逻辑、事实关联准确性

    • 标签准确性:声明类别标签是否正确

  • 迭代优化:若某轮生成的声明在所有维度得分未达 4 分以上,需调整提示词并重新执行生成 - 过滤流程,直至满足质量要求

三、最终数据集输出

数据集类型 实例数量 核心特征
无 MNLI 过滤(no_mnli_filtering) 3.8M 仅经 LLM 过滤,规模大
有 MNLI 过滤(mnli_filtering) 2.2M 经双重过滤,质量更高,含英、西、德三语

四、关键特性

  1. 可扩展性:流程不依赖特定语言,可适配所有 LLM 和 MNLI 模型支持的语言,尤其适用于低资源语言

  2. 低耗高效:大幅减少人工标注成本与时间,通过自动化流程实现大规模数据集生成

  3. 质量可控:通过 “生成 - 过滤 - 评估” 的迭代机制(5 轮优化),确保声明的客观性、自包含性与语义对齐性

相关新闻

  • iOS 知识点 - 多线程总结(GCD/Operation/Swift Concurrency/线程安全/线程通信)
  • openSIS 8.0 SQL注入漏洞技术分析与利用
  • 【把Linux“聊”明白】进程的概念与状态 - 详解

最新新闻

  • 修复kkFileView XSS漏洞与POI文件预览兼容性问题实战
  • 弱监督学习与概率提示技术在3D目标检测中的应用
  • Hoppscotch自托管部署与API自动化测试实战指南
  • Qwen3.6-A3B:面向本地Agent的MoE实时推理引擎解析
  • 微信防撤回失效?RevokeMsgPatcher 2.0 技术原理与实战指南
  • 普宁连锁眼镜店哪家靠谱|自营和加盟的本质区别是什么 - 品牌观察

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号