目前的无监督神经对齐方法主要集中于从神经机器翻译模型中诱导对齐,而没有利用目标序列中的完整上下文。
提出了MASK-ALIGN,一种利用目标侧全上下文的自监督单词对齐模型。
模型并行地屏蔽每个目标语言token,并根据源语言token和剩余目标语言token预测它。
所基于的假设:对恢复被屏蔽目标令牌贡献最大的源令牌应该是对齐的。
方法:
提出Leaky Attention,它缓解了特定token(如周期)上的高交叉注意权重的问题提出Static-KV Attention,需要并行处理所有的预测目标序列中被掩码词语。 2 Approach
Static-KV Attention做到这一点,需要避免掩码token的表示卷入其自身的预测过程。
首先将q与 k、v进行分离,以防止待预测令牌本身参与预测(被预测词本身不能提供任何信息)
隐藏层 h i h_i hi是来自 y i y_i yi通过注意k和v计算得到。 K ≠ i textbf{K}_{neq i} K=i 和 V ≠ i textbf{V}_{neq i} V=i 代表 y y i textbf{y}backslash y_i yyi。
在跨解码器更新每个位置的k和v输入时,会造成信息泄露,因为它们将包含前一层每个位置的表示。因此,我们保持键和值输入不变,只更新查询输入
这里的static-KV是指在我们的方法中,键和值在不同的层中是不变的。static-KV取代解码器中所有自注意力层。
Leaky Attention这种现象是由于基于NMT的对齐器无法处理在另一端没有对应物的令牌,因为在统计对齐器中没有广泛使用的NULL token。
在计算交叉注意权重时,泄漏注意除了编码器输出外,还提供了一个额外的“泄漏”位置。作为空标记,此泄漏位置有望解决有偏注意权重问题。
具体来说,我们将密钥和值向量参数化为交叉注意中泄漏位置的kNull和vNull,并将它们与编码器输出的变换向量连接起来
Train为了更好地利用来自两个方向的注意力权重,我们在训练过程中应用了一致性损失来改进我们模型的对称性,
Inference欢迎分享,转载请注明来源:内存溢出
评论列表(0条)