当前位置: 首页 > news >正文

4. 机器翻译任务

seq2seq(Sequence to Sequence)架构翻译任务:

seq2seq模型架构包括三部分:encoder(编码器)、decoder(解码器)、中间语义张量c。图中表示的是一个中文到英文的翻译:欢迎来北京 - -> welcome to BeiJing。编码器首先处理中文输入"欢迎来北京”,通过 GRU模型获得每个时间步的输出张量,最后将它们拼接成一个中间语义张量c;接着解码器将使用这个中间语义张量 c以及每一个时间步的隐层张量,逐个生成对应的翻译语言。
早期在解决机器翻译这一类 seq2seq问题时,通常采用的做法是利用一个编码器 (Encoder)和一个解码器 (Decoder)构建端到端的神经网络模型,但是基于编码解码的神经网络存在两个问题:
问题1:如果翻译的句子很长很复杂,比如直接一篇文章输进去,模型的计算量很大,并且模型的准确率下降严重。
问题2:在翻译时,可能在不同的语境下,同一个词具有不同的含义,但是网络对这些词向量并没有区分度,没有考虑词与词之间的相关性,导致翻译效果比较差。

(解释:先把这3个词转成Embedding即词嵌入,一个向量,每个时间步通过 GRU也叫 RNN循环神经网络,本身是通过循环神经网络,每个时间步都会得到一个隐藏层张量的输出:‘欢迎‘ 送到GRU得到 h1、‘来’ 送到GRU得到 h2、‘北京’ 送到GRU得到 h3、这些h1 h2 h3是每个时间步的输出张量;即将 3个单词进行 GRU进行转换:当前只有一个样本即一个句子 batch_size=1,3个单词即 seq_len=3:input=[1, 3,5],GRU(5,10,1),则 output=[1, 3, 10],此 output就是中间语义张量 C,它承接了所有编码信息,即原始的中文语义信息,拿到 C之后 再一个时间步一个时间步解码(或者说翻译);也可以将 output中 3个张量:1、3、10相加再平均来充当 C。hn=[1, 1, 10] 也可以充当 C,因为它代表了最后一个单词输出的词向量维度,它已经具备了上下文所有的语义;三种说法:① 可以用 output结果充当 C,因为它具备了上下文整个编码所有信息;② 可以把这 3个张量相加再平均来充当 C;③ 可以拿最后一个单词词向量维度当做 C;因为三者都包含了原始语义的所有信息。拿到 C之后,编码器部分和中间语义张量 C结束。)(每一步在翻译出新单词时都要用到中间语义张量 C,因为翻译成英文时必须要知道原始中文。如:解码预测时根据拿到的中间语义张量 C如何预测出 ‘welcome’?:首先要有一个 GO表示翻译的开始字符(对应有一个翻译的结束字符 EOS-End of Sentence),‘GO’这个单词变成 Embedding,此 Embedding再和中间语义张量 C共同送给 GRU来预测出 ‘Welcome’;图中的 S0、S1、S2、S3都是隐藏层张量,它们不仅可以横向箭头也可以向上箭头表示,但向上的如 S1不能直接得到 ‘welcome’,它要经过一个 nn.Linear() 因为 linear才能输出,才能进行预测。图中 GRU接收了 3个参数:中间语义张量 C、GO、S0

http://www.rkmt.cn/news/1437110.html

相关文章:

  • 健康 检查
  • 大大降低token费用的方法----------先ocr然后给AI
  • AgentScope2
  • P11363 [NOIP2024] 树的遍历
  • 别再傻傻重启电脑了!Windows下用netstat和taskkill一键清理端口占用的保姆级教程
  • Gemini跨境数据流架构设计(Google官方未公开的5层加密路由模型)
  • 【2025视频生产力革命倒计时】:3类不可逆技术跃迁正在发生,你的团队还停留在Sora 1.0思维?
  • 制作照片水印必备工具,主流软件和免费小程序盘点汇总 - 软件工具教程方法
  • 如何在Windows上实现系统级Steam控制器支持:3步终极完整指南
  • 新手用 IDEA 做 Java 贪吃蛇期末大作业完整心路历程
  • 为什么你的Gemini翻译在波兰语场景下F1值骤降41%?——欧洲语言形态学适配失效根因分析与补丁级修复
  • 告别单调地图!用QGIS的‘分级渲染’功能,5分钟让你的降雨量数据‘开口说话’
  • 3大核心技术突破:Anno 1800 Mod Loader如何彻底改变游戏模组开发体验
  • 【非营利组织紧急通告】:Gemini捐赠活动策划窗口期仅剩17天——错过本轮算法适配将损失43%潜在捐赠额
  • Gemini新版服务条款深度拆解:3大法律陷阱、2类数据权属变更、1个不可逆授权条款(附律师审阅对照表)
  • 第一章 Qt 概述_csdn
  • 照片转为 JPG 格式完整教程,手机电脑转码实操小技巧 - 软件工具教程方法
  • 【仅限前500名】Gemini阿拉伯语多模态支持内测白皮书泄露版:含17个未文档化ARABIC_LANG_CODE变体与沙箱验证脚本
  • Node.js 事件循环
  • Gemini风控模型准确率提升47%:从数据漂移到实时反馈的5步调优闭环
  • DLOS v2.3:面向AI芯片分布式环境的自优化多智能体操作系统内核
  • BP神经网络对水质问题进行预测附Matlab代码
  • 构建用户友好型数据表的五大原则
  • 如何快速实现跨平台存档转换:BotW-Save-Manager终极迁移方案指南
  • Python 3 OS模块详解
  • 别人视频号里的视频怎么保存到相册:五款工具真实速度横评 - 爱上科技热点
  • 热门照片压缩工具合集,软件小程序综合测评与推荐 - 软件工具教程方法
  • 【限时解密】Gemini会员分层激活策略:LTV提升2.8倍的4类人群×6种活动组合矩阵
  • 3分钟掌握RevokeMsgPatcher:彻底解决微信QQ消息撤回问题的完整方案
  • 专业软件转图片格式技巧,画质压缩同步转换设置方法 - 软件工具教程方法