Attention Is All You Need

attention

Introduction

传统的基于RNN的Seq2Seq模型难以处理长序列的句子，无法实现并行，还面临对齐的问题，本文提出Attention机制，加入Attention的Seq2Seq模型在各个任务上都有显著提升，创新点在于抛弃传统的Encoder-Decoder模型必须结合CNN或RNN的固有模式，只用Attention机制。

Background

传统的编码器解码器一般使用RNN，这也是在机器翻译中最经典的模型，但RNN本身也存在局限，这类模型的发展大多从三个方面入手：

input的方向性：单向或双向
深度：单层或多层
类型：RNN，LSTM或GRU

由于无论输入如何变化，encoder给出的都是一个固定维数的向量，存在信息损失；在生成文本时，生成每个词所用到的语义向量都是一样的，这显然过于简单。

为解决上述问题，引入Transformer的概念，整个网络结构完全是由Attention机制组成，Attention机制是将单个序列的不同位置联系起来计算序列表示的一种注意机制。

Attention

Transformer

Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。

整体结构

先看看总体的结构(以论文中的机器翻译为例)

Transformer

Transformer本质是一个Encoder-Decoder的结构

Transformer1

编码器和解码器都是由六个部分组成的，编码器的输出作为解码器的输入

Transformer2

每个encoder中有self-attention和feed forward neural network，数据先经过self-attention模块，得到一个加权之后的特征向量$Z$，即$Attention(Q,K,V)$

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

然后送入前馈神经网络，前馈神经网络有两层，第一层的激活函数是Relu，第二层的激活函数为线性激活函数，表示为：
$$FFN(Z)=max(0,ZW_1+b_1)W_2+b_2$$

Encoder结构如下：
encoder

Decoder的结构，相较于Encoder，多了个Encoder-Decoder Attention，两个Attention分别用于计算输入和输出的权值。

Self-Attention : 当前翻译和已经翻译的前文之间的关系
Encoder-Decoder Attention : 当前翻译和编码的特征向量之间的关系

Decoder结构如下：
decoder

输入编码

上面说明的是主要的网络框架，现在介绍数据输入。一般使用嵌入算法把每个输入字转化成向量
embedding

词嵌入的维度$d_{model}=512$，嵌入单词到输入序列，每个单词都会输入到每个编码器的两层
encoder
Transform的关键特性，每个位置的词仅流过自己的编码器路径。self-attention中这些路径两两之间相互依赖，但前馈层没有这些依赖，因此各种路径在流过前馈层时并行执行。

编码过程

一个向量序列作为Encoder的输入，将向量传入self-attention处理，进入FFNN，然后再将输出向上传到下一个Encoder
encoder

self-attention

self-attention是Transform最核心内容。Attention的核心是输入向量的每一个单词学习一个权重

例如：

The animal didn’t cross the street because it was too tired

加权后得到类似如下加权情况：

attention

当模型处理单词“it”时，self-attention允许将“it”和“animal”联系起来。当模型处理每个位置的词时，self-attention允许模型将句子的其他位置信息作为辅助线索来更好的编码当前词。

当编码“it”时(编码器的最后层输出)，部分attention集中于“the animal”，并将其表示合并进入到“it”的编码中

Tensor2Tensor notebook

self-attention细节

根据编码器的输入向量。生成三个向量，query-vec,key-vec，value-vec，生成方法为分别乘以三个矩阵，这些矩阵在训练过程中需要学习。【不是每个词向量独享3个矩阵，而是所有输入共享3个转换矩阵；权重矩阵是基于输入位置的转换矩阵；】新向量的维度比输入词向量的维度要小(512->64)，并不是必须要小，是为了让多头attention的计算更稳定
QKV