Arabic Newswire English Translation Collection数据集介绍,官网编号LDC2009T22
LDC2009T22 Arabic Newswire English Translation Collection 是语言数据联盟(LDC)发布的阿拉伯语 - 英语新闻专线平行语料库,核心用于机器翻译、跨语言对齐与 NLP 模型训练,含约 100 万词级平行文本,标注与对齐规范完善。以下是结构化介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 官网编号 | LDC2009T22 |
| 发布机构 | 美国宾夕法尼亚大学语言数据联盟(LDC) |
| 发布时间 | 2009 年 |
| 语言方向 | 阿拉伯语(源)→英语(目标) |
| 数据规模 | 约 100 万词(阿拉伯语原文与对应英语译文),含数千条新闻文本对 |
| 数据来源 | 阿拉伯语新闻专线(如法新社、路透社等机构的阿拉伯语新闻稿) |
| 标注类型 | 句级对齐、词级对齐、词性标注(部分版本含句法树标注) |
内容与结构
- 文本构成
- 阿拉伯语原文:现代标准阿拉伯语(MSA),含政治、经济、文化、体育等新闻主题,保留原始阿拉伯语书写系统(含变音符号)。
- 英语译文:人工专业翻译,符合新闻文体规范,与原文语义一致。
- 数据格式
- 原始文本:UTF-8 编码,XML / 纯文本格式存储,含文档元数据(如发布时间、来源、主题标签)。
- 对齐文件:句对齐与词对齐数据,采用 LDC 标准对齐格式,支持跨语言 NLP 任务。
- 标注规范
- 句对齐:以完整语义句为单位,确保翻译对应性。
- 词对齐:遵循 LDC 阿拉伯语 - 英语对齐指南,处理一词多译、多词一译等现象。
- 词性标注(可选):部分子语料含 Penn Treebank 风格词性标签,适配句法分析任务。
