在R中创建带有西班牙文本的语料库

在R中创建带有西班牙文本的语料库,第1张

概述尝试在西班牙文本上进行一些文本挖掘和wordcloud可视化.我实际上有9个不同的.txt文件,但只会发布一个用于复制. “Nos los representantes del pueblo de la Nación ARGENTINA, reunidos en Congreso General Constituyente por voluntad y elección de las provin 尝试在西班牙文本上进行一些文本挖掘和wordcloud可视化.我实际上有9个不同的.txt文件,但只会发布一个用于复制.

“Nos los representantes del pueblo de la Nación ARGENTINA,reunIDos en
Congreso General Constituyente por voluntad y elección de las
provincias que la componen,en cumplimIEnto de pactos preexistentes,
con el objeto de constituir la unión nacional,afianzar la justicia,
consolIDar la paz interior,proveer la defensa común,promover el
bIEnestar general,y asegurar los beneficios de la libertad,para
nosotros,para nuestra posterIDad,y para todos los hombres del mundo
que quIEran habitar en el suelo argentino: invocando la protección de
dios,fuente de toda razón y justicia: ordenamos,decretamos y
establecemos esta Constitución,para la Nación ARGENTINA.”

该文件保存为.txt文件.以下是我尝试使用正确的编码生成term-document-matrix的天真尝试.当我检查它时,我没有得到原始文件中的文本(例如,“constitución”变为“constitucif3n”).我是文本挖掘的新手,并且知道解决方案可能涉及各种各样的共同依赖调整,我想我会问这里而不是搜索4个小时.提前致谢.

#Generate term-document-matrix#Convert Text to Corpus and CleancleanCorpus <- function(corpus) {  corpus.tmp <- tm_map(corpus,removePunctuation)  corpus.tmp <- tm_map(corpus.tmp,stripwhitespace)  corpus.tmp <- tm_map(corpus.tmp,tolower)  corpus.tmp <- tm_map(corpus.tmp,removeWords,stopwords("spanish"))  return(corpus.tmp)}generateTDM <- function(path) {  cor.tmp <- Corpus(Dirsource(directory=path,enCoding="ISO8859-1"))  cor.cl <- cleanCorpus(cor.tmp)  tdm.tmp <- TermdocumentMatrix(cor.cl)  tdm.s <- removeSparseTerms(tdm.tmp,0.7)}tdm <- generateTDM(pathname)tdm.m <- as.matrix(tdm)
解决方法 答:确保原始文本文件是UTF-8编码的.为此,我不得不在Mac上的TextEdit中更改我的保存首选项.这使一切都无缝地工作. 总结

以上是内存溢出为你收集整理的在R中创建带有西班牙文本的语料库全部内容,希望文章能够帮你解决在R中创建带有西班牙文本的语料库所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1055354.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存