OMSCS-DL课程笔记14-Neural Attention Models
这个系列是Gatech OMSCS 深度学习课程(CS 7643: Deep Learning)的同步课程笔记。课程内容涉及深度学习的基本理论方法以及它在计算机视觉、自然语言处理以及决策理论等领域中的应用,本节主要介绍深度学习中的注意力模型。
Softmax and Preview of Attention
注意力模型(attentaion model)是最近几年深度学习领域非常火爆的模型。简单来说attentaion模型的核心是为输入分配不同的计算权重,权重的大小一般可由softmax函数来动态确定。因此在介绍attentaion模型的原理之前我们先回顾一下softmax函数。
data:image/s3,"s3://crabby-images/15a1b/15a1b138068d8266289cc5ec700b651f83caefbb" alt=""
Review of Softmax Function
softmax函数是在分类问题中非常常用的函数,它可以把给定的向量转换成一个概率分布。
data:image/s3,"s3://crabby-images/0d499/0d49986584b52be0411d9e81ef46d274aa4100fd" alt=""
data:image/s3,"s3://crabby-images/4ee9d/4ee9d05767f3133c36d505a94361ed51e7659b43" alt=""
data:image/s3,"s3://crabby-images/e3b7b/e3b7be3c0db711b055cde2c19515c672f6023fa5" alt=""
Softmax and Index Selection
在分类问题中我们一般会选择概率最大的索引作为最终的类别。但需要注意的是softmax的整个计算过程是可微的,而且我们也可以对softmax进行采样来获取类别标签。
data:image/s3,"s3://crabby-images/aa521/aa5216ab9943fe7b0e8b6581e5c5c260223d8040" alt=""
data:image/s3,"s3://crabby-images/114ff/114ffd12fe8c162445624807564b82548b5049fe" alt=""
data:image/s3,"s3://crabby-images/419e9/419e9376799f48b525bf4a605759d8cc221ce527" alt=""
Selecting a Vector from a Set
在很多应用场景中我们需要根据一个查询向量\(q\)来获取给定向量集合\(\)U={ u_1, …, u_N}\(\)中最接近的一个向量。最直观的做法是把\(q\)和\(U\)中的每一个向量做内积然后选择其中最大的那个作为输出;而利用softmax函数我们也可以对\(U\)计算概率来实现类似的功能。这种使用softmax函数来计算权重的方法称为softmax attention。
data:image/s3,"s3://crabby-images/0446a/0446a59fc3565adccd31b3682612456a7b4e952f" alt=""
data:image/s3,"s3://crabby-images/f9f48/f9f48b8ac29992b8432c3fd46ecc8f2db37b624c" alt=""
data:image/s3,"s3://crabby-images/1bd54/1bd5447cbd0e87c986bd0db6a9008059e3568d5e" alt=""
data:image/s3,"s3://crabby-images/0b465/0b4656dfd8e1aa7a3e03a8bcff6155cdf3dc82fd" alt=""
Softmax Attention and MLP Outputs
在softmax attention中我们会把softmax后的结果作为中间隐层,然后利用\(U\)的概率分布实现不同的功能。
data:image/s3,"s3://crabby-images/6e472/6e4721577c32004ad73b473e96818d5a124e3447" alt=""
Attention
attention的核心是计算一个关于输入的分布,根据对这个分布的使用方法可以分为hard和soft两类。目前在深度学习中常用的attention方法是soft attention,即把概率分布当做是加权求和的权重进行处理。
data:image/s3,"s3://crabby-images/2a2da/2a2da0049e85dd17a0af944f5c0b9b3a1ebc7eed" alt=""
Attention in Machine Vision
实际上attention方法也不是一个特别新的概念。在机器视觉领域,人们很早就提出了类似的方法对图像中的ROI进行定位。
data:image/s3,"s3://crabby-images/c4332/c4332909116e612274548d55f42c151d45f76b57" alt=""
Attention in NLP
甚至在NLP领域中attention的思想也不是近几年才出现的。以机器翻译为例,在90年代人们就发现了翻译中的词和词之间不一定是一一对应的,因此可以利用一个概率分布来辅助机器翻译的过程。这种alignment的方式可以看做是attention的雏形。
data:image/s3,"s3://crabby-images/f71f4/f71f4b2f9fba1194f57a30dedb8b539ba4f23a58" alt=""
Attention as a Layer
目前attention的主流实现方法是把它作为网络的一个中间层。一般来说attention层包括一个输入向量集合\(U\)以及一个查询向量\(q\),进行前向计算时利用softmax函数计算\(U\)和\(q\)内积的概率分布,然后再对\(U\)进行加权得到输出。
data:image/s3,"s3://crabby-images/78c1c/78c1ced1afa614fdb60001ac053ec9394015b9b1" alt=""
data:image/s3,"s3://crabby-images/9a416/9a41617f6e7d482dcbc34ad98e10dbd1964f698c" alt=""
从这样的角度来看attention层和fully connection层没有什么本质区别。把attention层串联在一起就得到了一种新的网络架构。
data:image/s3,"s3://crabby-images/b6f9e/b6f9ebc0bcb27f431b4bc70f8f0c2f894697e44c" alt=""
在不同的应用中需要注意如何取设置向量集合\(U\)以及查询向量\(q\),比如说在NLP中往往会把\(U\)设置为词向量而把\(q\)设置为隐状态。同时如果需要考虑输入元素的相对位置关系,还可以显式地添加position encoding进行训练。
data:image/s3,"s3://crabby-images/a450e/a450e199e50e7dea4369fee26aac971797eef1d3" alt=""
data:image/s3,"s3://crabby-images/32705/327057ec7c69a355d9d257f7e24bf9e65e3256be" alt=""
Transformers
attention模型的大规模应用得益于Transformer在NLP领域的展现出的强大性能。和传统的attention模型相比,Transformer的改进可以归结为self-attention、multi-head attention以及residual connections, layerNorm等几部分。
data:image/s3,"s3://crabby-images/100d1/100d1d486517cf4453e44364e6b47fc60d35c20c" alt=""
Self-Attention
self-attention直接使用\(U\)中的每个元素\(u_i\)来计算查询向量。
data:image/s3,"s3://crabby-images/76032/760324d4e6368ed60f4e610c8de6cc2c2f2d675c" alt=""
Multi-Head Attention
在multi-head attention中则会在一个attention层中同时计算多个加权向量,最后把它们用一个全连接层把它们组合起来作为整个attention层的输出。
data:image/s3,"s3://crabby-images/797c8/797c88f59476db8224ab6262fbe788bbf5e1602d" alt=""
data:image/s3,"s3://crabby-images/59cd9/59cd912d607d6f737d03acc11795a6f34d296bb9" alt=""
residual connections和layerNorm跟attention模型的关系不大,这里就不多做介绍了。除了标准Transformer外在不同的NLP任务中还会对模型进行一定的调整,根据任务自身的特点可以为Transformer添加position encoding、在训练language model时可以引入causal attention遮住句子中的一部分内容,以及在训练时使用一些加速的技巧等。
data:image/s3,"s3://crabby-images/73822/73822124b564043d7d1d30954b18a91f5f1bd7e8" alt=""