分类目录:《深入理解深度学习》总目录
Skip-Gram模型与连续词袋模型(CBOW)类似,同样包含三层:输入层、映射层和输出层。具体架构如下图所示:
Skip-Gram模型中的
w
(
t
)
w(t)
w(t)为输入词,在已知词
w
(
t
)
w(t)
w(t)的前提下预测词
w
(
t
)
w(t)
w(t)的上下文
w
(
t
−
n
)
w(t-n)
w(t−n)、
⋯
cdots
⋯、
w
(
t
−
2
)
w(t-2)
w(t−2)、
w
(
t
−
1
)
w(t-1)
w(t−1)、
w
(
t
+
1
)
w(t+1)
w(t+1)、
w
(
t
+
2
)
w(t+2)
w(t+2)、
⋯
cdots
⋯、
w
(
t
+
n
)
w(t+n)
w(t+n),条件概率写为
p
(
context
(
w
)
∣
w
)
p(text{context}(w)|w)
p(context(w)∣w)。目标
函数为:
L
=
∑
w
∈
C
log
p
(
context
(
w
)
∣
w
)
L=sum_{win C}log p(text{context}(w)|w)
L=w∈C∑logp(context(w)∣w)
我们通过一个简单的例子来说明Skip-Gram的基本思想。假设有一句话:
The quick brown fox jumped over the lazy dog.
接下来,我们根据Skip-Gram模型的基本思想,按这条语句生成一个由序列(输入,输出)构成的数据集。首先,我们对一些单词以及它们的上下文环境建立一个数据集。可以以任何合理的方式定义“上下文”,这里是把目标单词的左右单词视作一个上下文,使用大小为1的窗口定义,也就是说,仅选输入词前后各1个词和输入词进行组合,就得到一个由(上下文,目标单词)组成的数据集,具体如下图所示:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)