多头自注意力token解码器,该解码器能够对过去和未来的信息进行condition处理,适合填充任务;自注意力机制尤其适合填充文本,因为它可以为每个空白处从左到右及从右到左双向建模,为全部语义进行有效编码。
论文提出的模型:在空白处顺序生成token的一个简单的单例自注意网络,每次在空白处生成一个token时,模型都会处理其他已知token(包括模板中已给token和其他已生成的token,如下图所示,其中token”Can I”是已经生成的token,在为下一个空白处生成token时,会将之前生成的token都填充进去)
上图是算法的训练过程:
输入:带有__m__标志的一句template,其中__m__表示需要填充文本,填充文本的token数量由模型决定
步骤:
1)按照__m__标志将template分成几块,记做segment ID,上图例子是分成了3块,则seg_ID={0,1,2},
2)每一块中会有多个token,此时计算每个token在一块内的偏移量offset,如上图中segment_ID = 0时,have的偏移量为2;
3)定位一个token的位置的表示方法:(seg_ID,offset),如上图,have 的位置表示为(0,2)
4)将带有位置信息的groud truth 输入,放入template中,经过两次多头注意力网络,再经过一层前馈层,即可输出生成句子。
总结以上是内存溢出为你收集整理的Text Infilling解读全部内容,希望文章能够帮你解决Text Infilling解读所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)