从R中的字符串中删除html标签

从R中的字符串中删除html标签,第1张

概述我试图将网页源读入R并将其处理为字符串.我试图从段落文本中删除段落并从中删除html标签.我遇到以下问题: 我尝试实现一个功能来删除html标签: cleanFun=function(fullStr){ #find location of tags and citations tagLoc=cbind(str_locate_all(fullStr,"<")[[1]][,2],str_loca 我试图将网页源读入R并将其处理为字符串.我试图从段落文本中删除段落并从中删除HTML标签.我遇到以下问题:

我尝试实现一个功能来删除HTML标签:

cleanFun=function(fullStr){ #find location of Tags and citations tagLoc=cbind(str_locate_all(fullStr,"<")[[1]][,2],str_locate_all(fullStr,">")[[1]][,1]); #create storage for tag strings Tagstrings=List() #extract and store tag strings for(i in 1:dim(tagLoc)[1]) {   Tagstrings[i]=substr(fullStr,tagLoc[i,1],2]); } #remove tag strings from paragraph newStr=fullStr for(i in 1:length(Tagstrings)) {   newStr=str_replace_all(newStr,Tagstrings[[i]][1],"") } return(newStr)};

这适用于某些标签,但不适用于所有标签,这种失败的示例是以下字符串:

test="junk junk<a href=\"/wiki/abstraction_(mathematics)\" Title=\"abstraction (mathematics)\"> junk junk"

目标是获得:

cleanFun(test)="junk junk junk junk"

但是,这似乎不起作用.我认为这可能与字符串长度或转义字符有关,但我找不到涉及这些字符串的解决方案.

解决方法 这可以通过正则表达式和grep系列实现:
cleanFun <- function(HTMLString) {  return(gsub("<.*?>","",HTMLString))}

这也可以在同一个字符串中使用多个HTML标签!

总结

以上是内存溢出为你收集整理的从R中的字符串中删除html标签全部内容,希望文章能够帮你解决从R中的字符串中删除html标签所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1090317.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-27
下一篇 2022-05-27

发表评论

登录后才能评论

评论列表(0条)

保存