My Transformer AI学术

WHY--M2M

Riemann Feng的AI学术

Attention Is All You Need

摘要:主流的序列转换模型都基于包括一个编码器和一个解码器的复杂的循环或卷积神经网络。表现最好的模型还通过一个注意力机制连接编码器和解码器。我们提出了一个新的简单的网络架构,Transformer,其单独地基于注意力机制,完全地取代了循环和卷积。在两项机器翻译任务的实验中显示,这些模型性能出色同时具有更好的并行性并且显著地减少了对训练时间的要求。我们的模型在WMT2014的英译德翻译任务中完成了28.4 BLEU,超过了全部现有最好的结果(包括模型集),超过了2 BLEU。在WMT2014英译法翻译任务中,我们的模型在8个GPU上训练了3.5天后创建了一个新的独立模型的艺术之国(SOTA)——BLEU分数41.8,训练成本是那些来源于文献的最佳模型的很小的一部分。通过既用大规模的也用有限的训练数据成功地应用在英语语法分析中,我们展示了Transformer在其它任务中也生成性良好。

Transformer专业书清单

Attention Is All You Need