机器学习 – NLTK(python)中的语料库和词典有什么区别

机器学习 – NLTK(python)中的语料库和词典有什么区别,第1张

概述有人能告诉我NLTK中语料库,语料库和词典之间的区别吗? 什么是电影数据集? 什么是Wordnet? 语料库是语料库的复数形式. 语料库基本上是指一个主体,在自然语言处理(NLP)的语境中,它意味着一个文本主体. (来源:https://www.google.com.sg/search?q=corpora) 词典是词汇,词汇列表,词典(来源:https://www.google.com.sg/se 有人能告诉我NLTK中语料库,语料库和词典之间的区别吗?

什么是电影数据集?

什么是Wordnet?

解决方法 语料库是语料库的复数形式.

语料库基本上是指一个主体,在自然语言处理(NLP)的语境中,它意味着一个文本主体.

(来源:https://www.google.com.sg/search?q=corpora)

词典是词汇,词汇列表,词典(来源:https://www.google.com.sg/search?q=lexicon)

在NLTK中,任何词典都被视为语料库,因为单词列表也是文本主体.例如.可以在NLTK语料库API中找到停用词列表:

>>> from nltk.corpus import stopwords>>> print stopwords.words('english')[u'i',u'me',u'my',u'myself',u'we',u'our',u'ours',u'ourselves',u'you',u'your',u'yours',u'yourself',u'yourselves',u'he',u'him',u'his',u'himself',u'she',u'her',u'hers',u'herself',u'it',u'its',u'itself',u'they',u'them',u'their',u'theirs',u'themselves',u'what',u'which',u'who',u'whom',u'this',u'that',u'these',u'those',u'am',u'is',u'are',u'was',u'were',u'be',u'been',u'being',u'have',u'has',u'had',u'having',u'do',u'does',u'dID',u'doing',u'a',u'an',u'the',u'and',u'but',u'if',u'or',u'because',u'as',u'until',u'while',u'of',u'at',u'by',u'for',u'with',u'about',u'against',u'between',u'into',u'through',u'during',u'before',u'after',u'above',u'below',u'to',u'from',u'up',u'down',u'in',u'out',u'on',u'off',u'over',u'under',u'again',u'further',u'then',u'once',u'here',u'there',u'when',u'where',u'why',u'how',u'all',u'any',u'both',u'each',u'few',u'more',u'most',u'other',u'some',u'such',u'no',u'nor',u'not',u'only',u'own',u'same',u'so',u'than',u'too',u'very',u's',u't',u'can',u'will',u'just',u'don',u'should',u'Now']

NLTK中的电影评论数据集(典型地称为电影评论语料库)是具有情感极性分类的2k电影评论的文本数据集(来源:http://www.nltk.org/book/ch02.html)

它通常用于教程目的,介绍NLP和情绪分析,见http://www.nltk.org/book/ch06.html和nltk NaiveBayesClassifier training for sentiment analysis

WordNet是英语的词汇数据库(它类似于词汇/词典与词汇关系)(来源:https://wordnet.princeton.edu/).

在NLTK中,它结合了Open Multilingual WordNet(http://compling.hss.ntu.edu.sg/omw/),允许您查询其他语言的单词.

由于它也是一个单词列表(在这种情况下包含许多其他内容,关系,引理,POS等),它也可以在NLTK中使用nltk.corpus调用.

在NLTK中使用wordnet的规范成语是这样的:

>>> from nltk.corpus import wordnet as wn>>> wn.synsets('dog')[synset('dog.n.01'),synset('frump.n.01'),synset('dog.n.03'),synset('cad.n.01'),synset('frank.n.02'),synset('pawl.n.01'),synset('andiron.n.01'),synset('chase.v.01')]

理解/学习NLP术语和基础知识的最简单方法是在NLTK书中阅读这些教程:http://www.nltk.org/book/

总结

以上是内存溢出为你收集整理的机器学习 – NLTK(python)中的语料库和词典有什么区别全部内容,希望文章能够帮你解决机器学习 – NLTK(python)中的语料库和词典有什么区别所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1194202.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存