R或python中的Lemmatizer(是,是->是吗?)

R或python中的Lemmatizer(是,是->是吗?),第1张

R或python中的Lemmatizer(是,是->是吗?)

因此,这是使用R来完成的一种方法,它使用的是Northwestern University lemmatizer
MorphAdorner

lemmatize <- function(wordlist) {  get.lemma <- function(word, url) {    response <- GET(url,query=list(spelling=word,standardize="",  wordClass="",wordClass2="",  corpusConfig="ncf",    # Nineteenth Century Fiction  media="xml"))    content <- content(response,type="text")    xml     <- xmlInternalTreeParse(content)    return(xmlValue(xml["//lemma"][[1]]))      }  require(httr)  require(XML)  url <- "http://devadorner.northwestern.edu/maserver/lemmatizer"  return(sapply(wordlist,get.lemma,url=url))}words <- c("is","am","was","are")lemmatize(words)#   is   am  was  are # "be" "be" "be" "be"

我怀疑您已经知道,正确的去词义化需要掌握词类词性),上下文正确的拼写,并且还取决于所使用的语料库



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5508264.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-13
下一篇 2022-12-13

发表评论

登录后才能评论

评论列表(0条)

保存