transformer技术原理图，transformer 原理

图2 人们注意力机制平面图
3 技术性详细说明
智能化Transformer模型放弃了传统CNN和RNN模块，全部网络架构彻底是通过注意力机制构成。在章节目录中，我们也会最先详细介绍 Transformer模型的整体步骤，以后详解内容涉及的位置编号信息和Self-Attention测算。
3.1 步骤总概
图3 注意力机制流程表
如图所示，Transformer由Encoder模块和Decoder模块2个组合而成，Encoder和Decoder都包含N个block。以实行汉语翻译每日任务为例子，Transformer工作流程大致如下所示：
第一步：获得键入语句的每一个单词地表示空间向量X，X由单词本身Embedding和单词位置的Embedding求和获得。
第二步：将会得到的单词表明向量矩阵传到Encoder模块中，Encoder模块针对录入数据选用Attention方式来计算。通过N个Encoder模块后可以获得语句全部单词的编号信息引流矩阵，每一个Encoder模块输出引流矩阵维度与键入完全一致。
第三步：将Encoder模块输出编号信息引流矩阵传达到Decoder模块中，Decoder会先后结合当前汉语翻译完的单词i汉语翻译下一个单词i 1。与Encoder构造同样，Decoder构造也应用Attention方式来计算。在使用的时候，汉语翻译到单词i 1的时候要根据Mask实际操作遮挡住i 1以后的单词。
3.2 Self-Attention测算
Transform实体模型的关键在于专注力测算，其能通过公式计算来表示
在其中，Q，K，V各自表明Query，Key，Value，这三个定义源自于信息检索系统，举一个简单检索的事例而言。如果你在某个电子商务平台检索某样产品时，你搜索引擎上输入具体内容就是Query，随后百度搜索引擎依据Query给你配对Key（比如商品类型，色调，叙述等），再根据Query和Key的相似性获得相匹配的具体内容（Value)。
self-attention里的Q，K，V都是起到相似的功效，在矩阵运算中，点积是测算2个矩阵相似度的方法之一，因而以上表达式中采用了Q引流矩阵乘于K矩阵的转置开展相似性计算。为了避免里面积有太大，必须除于d的平方根，最终对结论施加softmax激活函数。
3.3 位置编号
Transformer里除了单词自已的Embedding，还要应用位置Embedding表示单词出现在了句中的位置。由于Transformer没有采用RNN的构造，反而是应用全局性信息，不可以运用单词顺序信息，而这一部分信息针对NLP或CV来讲均至关重要。因此Transformer中应用位置Embedding储存单词在编码序列里的相对性或肯定位置。
位置Embedding用PE表明，PE的维度与单词Embedding是一样的。PE能通过练习获得，也可以用某类公式换算获得。在Transformer中使用了后面一种，计算方法如下所示：
在其中，pos表明单词在句子中的位置，d表明PE的维度，其大小和单词本身Embedding同样，2i表明双数的维度，2i 1表明单数维度。
4 汇总
Transformer的重点在于Self-Attention构造，根据多维度的Attention构造，互联网能够捕捉单词中间多种多样维度里的掩藏关联，但是Transformer本身就是不可以运用单词顺序信息的，所以需要在输入中加上位置Embedding，用于存放单词的位置信息。与循环神经网络对比，Transformer互联网能够较为好地并行处理练习，与神经网络对比，Transformer网络计算2个位置之间的联系所需要的实际操作频次不跟随间距提高，能够提升神经网络受制于感受野大小的小计算距离。与此同时，Transformer互联网能够产生更具有可解释性模型。我们要从分析中查验专注力遍布,每个留意头(attention head)能够懂得实行不一样任务。
论文参考文献
[1]Vaswani, A. , Shazeer, N. , Parmar, N. , Uszkoreit, J. , Jones, L. , & Gomez, A. N. , et al. (2017). Attention is all you need. arXiv.

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.miyuegong.com/kejizixun/68270.html

transformer技术原理图，transformer 原理

3 技术性详细说明

4 汇总

相关推荐

联系我们