当前位置: 编码机 >> 编码机优势 >> 位置编码在注意机制中的作用
神经网络学识。
有一种叫做重视机制的东西,然则你不须要晓得重视力详细完结。
RNN/LSTM的不够。
A.Vaswani等人的《AttentionIsAllYouNeed》被以为是处置了了如指掌的LSTM/RNN体制构造在深度进修空间中的限制性的冲破之一。本文先容了transformers在seq2seq职责中的运用。该论文高明地行使了D.Bahdanau等人经过团结进修对齐和翻译的神经机械翻译重视机制的运用。而且供应一些示例精确且详细地诠释了重视力机制的数学和运用。
在本文中,我将专心于重视力机制的地方编码部份及其数学。
假定您正在建立一个seq2seq进修职责,而且您想要开辟一个模子,该模子将输入英语句子并将其翻译成其余言语。"Allanimalsareequalbutsomearemoreequalthanothers"→Badhāprā?ī’ōsamānachēparantukē?alākaan’yakaratāvadhusamānachē你的第一步是猎取这个输入句子,运转一个分词器,将它更动成数字,尔后将它传播给一个嵌入层,这或者会为这个句子中的每个单词增加一个额外的维度。在运转RNN或LSTM时,藏匿形态保存单词在句子中的相对地方音信。但是,在Transformer网络中,若是编码器包括一个前馈网络,那末只传播词嵌入就即是为您的模子补充了不须要的混乱,由于在词嵌入中没有拿获相关句子的挨次音信。为了处置单词相对地方的题目,地方编码的主意呈现了。
在从嵌入层讨取词嵌入后,地方编码被增加到这个嵌入向量中。
诠释地方编码最简洁的法子是为每个单词分派一个独一的数字∈?。也许为每个单词分派一个在[0,1]∈?限制内的实数(若是输入句子很长,云云也许处置很大的值)。然则,上述两种法子都没有捕获到单词之间光阴步长的精确性。为了战胜这个题目,本文运用了sin和cosine函数样子的地方编码。
打个比如,咱们输入模子的序列,不论是句子、视频序列照样股票墟市代价数据,都将长期是时域记号。示意时域记号的最好方法是经过正弦方程sin(ωt)。若是咱们高明地运用这个摇动方程,咱们也许在一次拍照中拿获词嵌入的光阴和维度音信。
让咱们看一下这个等式,在接下来的环节中,咱们将试验把它征象化。
让咱们斟酌一个简洁的句子,它被分词,尔后它的词嵌入被讨取。句子长度为5,嵌入维数为8。是以,每个单词都示意为1x8的向量。
目前咱们在光阴维度上取一个序列把正弦PE向量加到这个嵌入向量上。
进一步,咱们对沿dim维数的其余向量做相仿的操纵。
本文在嵌入向量中瓜代参与正弦和余弦。若是dim是偶数,则sin级数相加,若是dim是奇数,则cos级数相加。
这很好地拿获了沿光阴维度(或等式中描绘的pos维度。我将pos和time交换运用,由于它们象征着雷同的事项)然则怎么也拿获沿dims维度的相对地方音信呢?这边的谜底也在于等式自己。ω项。
跟着i从0补充到d_embedding/2,频次也从1/2π裁减到1/(2π.)
是以咱们看到,顺着无序方位的每个向量,地方的独一性被拿获。该论文还描绘了这类编码的鲁棒性。然则我依然无奈找出为甚么稀奇运用数字施行地方编码(它或者是一个超参数吗?)。这个诠释大概地展现了怎么运用正弦和余弦关于模子领会是稀奇正当和灵验的。底下的图表自己报告了地方编码怎么随地方(光阴)和尺寸变动。
人们也许很轻易地看到,这些是简洁的时频图,此中地方代表光阴,深度代表频次。光阴频次图已被用于从射电天文学到材料光谱解析的很多运用中。是以,从现有的实际宇宙系统建立类比确切也许更好地舆解题目。
这是我对重视力机制中运用的地方编码的意见。在接下来的系列中,我将试验撰写相关编码器-解码器部份的实质,并将重视力运用于实际宇宙的范围题目。
预览时标签弗成点收录于合集#个