1. 首页 > 科技资讯

transformer技术原理图,transformer 原理

图2 人们注意力机制平面图

3 技术性详细说明

智能化Transformer模型放弃了传统CNN和RNN模块,全部网络架构彻底是通过注意力机制构成。在章节目录中,我们也会最先详细介绍 Transformer模型的整体步骤,以后详解内容涉及的位置编号信息和Self-Attention测算。

3.1 步骤总概

图3 注意力机制流程表

如图所示,Transformer由Encoder模块和Decoder模块2个组合而成,Encoder和Decoder都包含N个block。以实行汉语翻译每日任务为例子,Transformer工作流程大致如下所示:

第一步:获得键入语句的每一个单词地表示空间向量X,X由单词本身Embedding和单词位置的Embedding求和获得。

第二步:将会得到的单词表明向量矩阵传到Encoder模块中,Encoder模块针对录入数据选用Attention方式来计算。通过N个Encoder模块后可以获得语句全部单词的编号信息引流矩阵,每一个Encoder模块输出引流矩阵维度与键入完全一致。

第三步:将Encoder模块输出编号信息引流矩阵传达到Decoder模块中,Decoder会先后结合当前汉语翻译完的单词i汉语翻译下一个单词i 1。与Encoder构造同样,Decoder构造也应用Attention方式来计算。在使用的时候,汉语翻译到单词i 1的时候要根据Mask实际操作遮挡住i 1以后的单词。

3.2 Self-Attention测算

Transform实体模型的关键在于专注力测算,其能通过公式计算来表示

在其中,Q,K,V各自表明Query,Key,Value,这三个定义源自于信息检索系统,举一个简单检索的事例而言。如果你在某个电子商务平台检索某样产品时,你搜索引擎上输入具体内容就是Query,随后百度搜索引擎依据Query给你配对Key(比如商品类型,色调,叙述等),再根据Query和Key的相似性获得相匹配的具体内容(Value)。

self-attention里的Q,K,V都是起到相似的功效,在矩阵运算中,点积是测算2个矩阵相似度的方法之一,因而以上表达式中采用了Q引流矩阵乘于K矩阵的转置开展相似性计算。为了避免里面积有太大,必须除于d的平方根,最终对结论施加softmax激活函数。

3.3 位置编号

Transformer里除了单词自已的Embedding,还要应用位置Embedding表示单词出现在了句中的位置。由于Transformer没有采用RNN的构造,反而是应用全局性信息,不可以运用单词顺序信息,而这一部分信息针对NLP或CV来讲均至关重要。因此Transformer中应用位置Embedding储存单词在编码序列里的相对性或肯定位置。

位置Embedding用PE表明,PE的维度与单词Embedding是一样的。PE能通过练习获得,也可以用某类公式换算获得。在Transformer中使用了后面一种,计算方法如下所示:

在其中,pos表明单词在句子中的位置,d表明PE的维度,其大小和单词本身Embedding同样,2i表明双数的维度,2i 1表明单数维度。

4 汇总

Transformer的重点在于Self-Attention构造,根据多维度的Attention构造,互联网能够捕捉单词中间多种多样维度里的掩藏关联,但是Transformer本身就是不可以运用单词顺序信息的,所以需要在输入中加上位置Embedding,用于存放单词的位置信息。与循环神经网络对比,Transformer互联网能够较为好地并行处理练习,与神经网络对比,Transformer网络计算2个位置之间的联系所需要的实际操作频次不跟随间距提高,能够提升神经网络受制于感受野大小的小计算距离。与此同时,Transformer互联网能够产生更具有可解释性模型。我们要从分析中查验专注力遍布,每个留意头(attention head)能够懂得实行不一样任务。

论文参考文献

[1]Vaswani, A. , Shazeer, N. , Parmar, N. , Uszkoreit, J. , Jones, L. , & Gomez, A. N. , et al. (2017). Attention is all you need. arXiv.

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejizixun/68270.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666