excel怎样自动加入词性

excel怎样自动加入词性,第1张

如果有表中有该单词对应的词性数据,可以用公式Vlookup查找得到。如果没有需要联网,从网络查询词性,需要看你的宴槐明Excel版本。

如果Excel版本2013以上,可以用函数读取网页,比如:

=WEBSERVICE("http://dict.cn/search.php?q=" &A2 &"&placeholder=Lingoes")

里面就有相应的数据,不过返回数据是个类似网页晌告源文件一样的明凳东西,比较乱,需要从里面找出来代表词性的那部分。

如果Excel2013以下版本,公式无法获得,只能用VBA后台联网获取。

原文: Word2Vec Tutorial - The Skip-Gram Model

skip-gram实际上是非常简单的神经网络模型形式;我认为任何所有微小的调整和变化都会使解释困扰。

我们进一步看,你可能在机器学习使用Word2Vec时用到下面一个技巧:使用一个隐藏层的简单神经网络来执行某个任务,但是接下来我们将不会在训练模型任务时使用那样的神经网络,而是仅仅是使用它来学习隐层神经网络的权重,在Word2Vec中指的是“词向量”。

现在我们需要讨论一下这种“伪”任务,我们要构建并运行神经网络,然后我们间接地获得到的后面所需的词向量。

我们要训练skip-gram神经网络做以下任务:给出一个句子中间的某个单词(输入词),观察输入单词旁边的单词并随机选择一个。而我们训练的神经网络将告诉我们词汇表中每个单词被选作为“邻近单词”(nearby word)的概率。

输出概率与输入单词与每个词汇表单词邻近程度相关。举例来说,训练的神经网络的输入单词为“苏联”,那么像“联盟”和“俄罗斯”的输出概率将会远大于像“西瓜”和“袋鼠”不相关单词的概率。

我们将通过“喂养”在训练文档中找到的“单词对”(word pair)来训练神经网络。下面的例子显示了一些训练样本(单词对),句子为“The quick brown fox jumps over the lazy dog.”,窗口大小为2,蓝色突出显示的是输入单词。

思考下,这些单词应该怎么被表示哪?

首先,我们不能够将单词作为一个字符串输入到神经网络,所以我们需要一种方式去表示单词。为了达到目的,我们从训练文档中创建一个单词词汇表,假如我们现在有一个具有10000个不同单词的词汇表。

我们将输入单词比如“蚂蚁”(ants)表示为一个one-hot向量,这种向量有10000个元素(词汇表中的每个单词都被表示为这种形式)。1 的位置对应该词在词典中的位置,其他全为0。

下面是我们神经网络的结构:

在隐藏层中没有使用激活函数,而在输出层使用了softmax,我们稍后在讨论这个原因。

假如,我们要学习有关词向量的300个特征(比如词性,语义等等),那么隐藏层结构将会表示为一个权重矩阵:10000行(代表着词汇表中的每个单词)和300列(代表每一个隐旅大搏层的神经单元)。

现在你可能反问自己,-“one hot向量几乎全部是0,那么它的作用是什么呢?”如果你将一个1×10000 one hot向量乘以10000×300的矩阵,那么就会有效地选中矩阵中与1对应的行。下面是一个例子:

这就意味着模型中的隐藏层其实运作为一个单词查找表,隐藏层的输出为输入单词的“词向量”。

隐藏层产生的 1×300 的词向量将会传送到输出层,这个输出层是一个softmax regressio分类器,其要领就是每一个输出神经单元将会产生一个介于0到1的输出,并且所有输出值的和为1。

每个输出单元有一个权重矩阵,然后与来自隐藏层的词向量相乘,然后对结果运用 exp(x) 函数。最后,为了将输入结果加起来为1,我们将结果除以10000个输出节点的所有之和。

下面是单词“car”输出单元的计算。

到这里,我们来进一步了解下skip gram model。如果有两个不同的单词非常相似的“上下文”(就是仿磨,出现在这个拆祥两个单词周围的词语非常相似),对于这两个单词模型会输出非常相似的结果。如果两个单词的词向量非常相似,那么模型预测输出来的上下文也将是非常相似。

什么是所谓的两个单词有非常相似的上下文?我猜你想到近义词,比如“intelligent”和“smart”。或者是单词是非常相关的,比如“transmission”和“engine”

你可能注意到 skip-gram 神经网络将包含一个非常大的weights向量。例如,一个带有300个特征,含有10000词的词汇表,那么在隐藏层和输出增将会产生3百万维的weights向量。在如此巨大的数据集训练代价将会是非常高的,接下来我们将会讲下word2vec作者优化的措施

【Word2Vec Resources】

Word2Vec教程-Negative Sampling 负采样


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11969101.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存